AIによる人物写真のラベリングは、どこまで適切なのか? ある実験が浮き彫りにした「偏見」の根深い問題

今年の9月にネットで話題になった「ImageNet Roulette」というプロジェクト。画像データベースによるディープラーニングに基づいて人物の写真をラベリングするという実験的な試みだったが、その狙いはAIに潜む偏見(バイアス)の存在を浮き彫りにすることにあった。

Monitoring technology is seen at the exhibition hall at the Huawei

BILLY H.C. KWOK/GETTY IMAGES

Twitterユーザーたちが9月、奇妙なラベル付けがされた自分の写真を投稿し始めた。そこには「顔」といった当たり前すぎてかえって当惑するようなラベルが貼られている一方で、なかなかつらい真実を再認識させられるラベルもあった。ちなみにわたしは「何の影響力もない人物」。とるに足らない、“誰でもない”人間であると宣告されたのである。

それはともかく、もっと問題のあるラベルもたくさんあった。「強姦の容疑者」や「債務者」といった表記、そして「黒人」だけでなく「ニグロ」や「ネグロイド」というラベリングまで見られたのだ。

これらはすべて、「ImageNet Roulette」というプロジェクトによるものだった。アーティストのトレヴァー・パグレンと研究者のケイト・クロフォードによる取り組みで、人工知能AI)に欠陥のあるデータを与えることの危うさを示すことが狙いである[編註:このプロジェクトはすでに終了している]

偏見が含まれる2,395ものラベリング

プロジェクトの“標的”は、AI分野における重要なリソースのひとつである「ImageNet」だった。ImageNetは1,400万件の画像が登録されたデータベースで、自律走行車から顔認識まであらゆるものに使われているディープラーニング(深層学習)の可能性を引き出すものとされている。

このほど話題になったImageNet Rouletteのラベリングのアルゴリズムは、ImageNetに登録された画像によって訓練されていた。ImageNetに登録されていた人物の写真は2,395ものカテゴリーによってラベリングされており、そのラベルは「だらしない女(slatterns)」から「ウズベク族(Uzbeks)」まで多岐にわたる。

「ImageNetの“中身”をこじ開けて、そこに登録された人物写真に人々の目を向けたかったのです」と、パグレンは語る。公開されるやいなやネット上で注目された今回の実験は、多く課題を浮き彫りにした。そもそも、なぜこんなラベルがつくられたのか。また、なぜそれが残っていたのかという疑問だ。

ImageNet

「ImageNet Roulette」のスクリーンショット。『WIRED』US版のエディターである著者の画像は、「ImageNet」によって「心理言語学者」とラベリングされた。IMAGE BY GREGORY BARBER/IMAGENET ROULETTE

これらの疑問への答えは、未熟な科学だったAIが日常的なツールへと急速に進化したことに加えて、大量のデータのなかにバイアスになりかねない情報が潜んでいることに根ざしている。そしてこの問題は、最近になってAI分野の研究者たちから注目され始めている。

そこにはImageNetの開発者たちも含まれる。開発者たちは自分たちがつくったデータベースの欠陥について十分に認識しており、この1年以上は「人」関係のラベルにおける問題の解決に取り組んできたのだという。開発者たちは、人物の写真が研究者たちに利用されることはめったにないとしながらも、データセットから「バイアスの除去」を進めているのだと語る。

アルゴリズムのルーツは80年代にあり

こうしたバイアス除去の取り組みの一環として、1,400万枚あった画像の大半が2019年1月、スタンフォード大学のサーヴァーから削除された。ImageNetの運営チームによって侮辱的とみなされるカテゴリーが見直され、画像分類の多様化が進められた結果だ。

さらに運営チームは、「非視覚的(nonvisual)」と判断したカテゴリーを削除する計画だ。これは不思議なことではない。画像認識の文脈における何らかの“不正”や潜在的なバイアスがなければ、いったいどうやってアルゴリズムが人物の写真を「バハマ人(Bahamian)」や「債務者(debtor)」であると認識するのだろうか。なお、ImageNetの運営チームは今年8月、こうした改善の手法を説明した文書を査読のために提出している。

それでも今回の問題は、ほとんど忘れられたようなデータ元から、いかにバイアスが拡散しうるのかを物語っている。ImageNetの場合は、そのルーツは1980年代半ばにプリンストン大学で取り組まれていた「WordNet」というプロジェクトにあった。WordNetは、心理学者と言語学者が「概念的な辞書」を提供するための取り組みであり、そこでは言葉がそれぞれ関連する意味の階層構造によって整理されていた。

この仕組みに基づけば、例えば動物から脊椎動物、犬、ハスキー犬へと導かれるかもしれない。途中で分岐して、ネコ、トラネコへと進むかもしれない。このデータベースは「メリアム=ウェブスター大学辞典」より幅広い範囲をカヴァーしており、謎のデザートから時代おくれのスラングまでが含まれていた。

「当時は社会において適切と考えられていた多くの言葉が、いまでは完全に不適切とみなされるようになっています」と、ウォータールー大学で計算機科学を研究する教授のアレクサンダー・ウォンは指摘する。

タスク全体の規模が大きいことに原因?

プリンストン大学の研究者として2009年当時、ImageNetの開発に携わった李凱(カイ・リー)や李飛飛(フェイフェイ・リー)といったAIの権威たちは、WordNetと同じような階層構造が画像にも適用できれば、物体の識別と分類の手法をAIに教えるうえで有効なツールになると考えた。そして実際に作成を目指したのである。

それは壮大な野望だった。WordNetをひな形にして、名詞の視覚的なライブラリーをつくろうというのである。しかし、画像に注釈を付けていく作業には時間とコストがかかった。特にプリンストンの学部生たちにアルバイトとして任せていたのが問題だった。

最終的にはアマゾンのクラウドソーシングサーヴィス「Mechanical Turk」を利用して、外部の人材を活用して作業規模を拡大することになった。画像に写っている物体の認識や不適切なものの削除は、これらの外部の人々が担うことになった。

ImageNetの研究者は、侮辱的だったり無神経だったりするカテゴリーが含まれていたのは、タスク全体の規模が大きいことに原因があると結論づけている。最終的に候補となった画像の数は1億6,000万枚にもなり、それを50,000人が評価したのだ。

データセットにおける問題

また研究者たちの指摘によると、「人物」の写真のうち実際に使われたものはごく一部だったという。というのも、ImageNetで参照されるデータとは、通常は「ImageNet Challenge」で使われる縮小版データセットのことだからだ。ImageNet Challengeとは、画像に写るオブジェクトを検出・分類するAIを研究者たちのチームが構築し、その能力を競うコンテストのことである。

100万枚強が用意される画像に対して、本来ならオブジェクトの種別は20,000種類ほどある。ところがコンテストでは、1,000種類に限定されていた。そのうち「人物」のカテゴリーには、スキューバダイヴァー、新郎、野球選手という3つしかなかった。こうした限定されたデータセットを使って訓練されたモデルのうち最良のものは、通常ほかの研究や現実世界のアプリケーションで使われている。

今回話題になったImageNet Rouletteを開発したパグレンは、ImageNetからバイアスをなくす取り組みについては前進だが、10年にわたってデータが吟味されていなかったことが明らかになったと語っている。「データを構築した人々は、中身についてまったく考えていなかったようです」とパグレンは指摘する。なお、ImageNetのチームは、バイアスをなくすプロジェクトについて、機械学習をより公平なものにする「進行中の取り組み」の一環だとしている。

これらの不注意な点についてImageNetにおけるバイアスを研究したウォータールー大学のウォンは、構築当時の研究者らは、オブジェクトを検出するアルゴリズムを機能させる基礎の部分に集中していたからだろうと指摘する。

ディープラーニングが大成功したことは、AIの研究者たちにとっても驚きだった。「いまやAIは実用段階に入っています。そしていま、その社会的な影響に人々が目を向けているのです」とウォンは言う。

画像の削除が論争の的に

ImageNetの開発者らは、当初の品質管理が十分に効果を発揮できていなかったことを認めている。すでに説明した通り19年1月にはImageNet Challengeの画像を除くすべての画像が削除されたが、それまでは完全なデータセットがネットに残っていた。今後改めて公開されるものは、人物の画像が当初の半分以下になる予定だ。

また、侮辱的な画像やカテゴリー分類についてはユーザーが警告できるようになる。「侮辱的であるかどうかの定義は主観的であり、絶えず変化するものです」と、ImageNetのチームは述べている。

画像の削除は、それ自体が論争の的になった。「大量の画像データが、いきなり1月になって消えたことには驚きました」と、パグレンは言う。「これは歴史的に重要なデータベースなのです」

パグレンは、これらのデータはダウンロードされた状態であちこちのサーヴァーや家庭のコンピューターに残されていると指摘する。このため元データを削除したところで、かえってバイアスの再現や研究が難しくなるだけだと、彼は言う。

人物以外のカテゴリーの対応にも課題

バイアスをなくすプロジェクトの一環としてデータが削除されたことを知って、研究者たちですら驚いた。ウォータールー大学のウォンの下で学ぶ大学院生のクリス・ダルハンティは今年、ImageNetのチームに連絡してデータの提供を求めたが、返答はなかったという。

ダルハンティの考えによると、データが削除されたのは、ImageNetのサイトの老朽化が進んだことによる技術的な問題が影響している可能性があるという。なお、ImageNetのチームはデータ削除の判断に関する質問には回答しなかったが、再度入手できるようにする可能性についてはほかの研究者たちと議論すると答えている。

パグレンとクロフォードはImageNet Rouletteに関する論文において、ImageNetからの画像の削除は、ほかの機関による同じような対応にも似ていると指摘している。例えばマイクロソフトは、「MS-Celeb」というデータベースを19年6月に削除している。これは『フィナンシャル・タイムズ』による調査報道のあとのことだ。

ImageNetによるバイアスをなくす取り組みについて、ウォンは「よい第一歩である」と言う。その一方で彼は、ImageNetがさらに計画を進め、人のカテゴリー以外のバイアスにも目を向けることを期待している。ウォンによると、「人ではない」画像の約15パーセントにおいて、実際にはフレーム内に人が含まれている。

これにより、ラベル同士の不適切な結びつきにつながる可能性があると、ある研究チームは指摘している。例えば、「黒人」と「バスケットボール」を関連づけたり、コンピューターを若い白人男性と結びつけたりといった具合だ。こうしたバイアスは、「人物」のラベルに含まれるモデルより、さらに広く使われるモデルに組み込まれてしまう可能性が高い。

中立的な方法は存在しない?

パグレンは、バイアスをなくす試みは成功しないかもしれないと指摘する。「情報を整理する中立的な方法なんて、ありません」と彼は言う。彼とクロフォードは、ほかの最近のデータセットを例に挙げる。このデータはセンシティヴなラベルに対して、さらに多くのニュアンスが含まれたアプローチがとられている。

またパグレンによると、IBMは顔の寸法を測定することで、顔に関してより「多様性」をもたらそうと試みているという。この試みが人による判断を改善することをふたりは期待してはいるが、そこには新たな問題が生じるとも指摘している。例えば、肌の色も測定したほうがいいのだろうか、といった疑問だ。その答えは、変わっていく社会の価値観を反映するものになることだろう。

「どのような分類のシステムであっても、そのときしか通用しないものになるでしょう」と、パグレンは言う。彼は、こうした領域においてAIがまったくの無知であることを示す展示会を企画した。まずは「これはリンゴではない」とラベリングされたマグリットのリンゴの絵からだ。果たしてAIのアルゴリズムに、この絵を理解させることはできるのだろうか。

※『WIRED』による人工知能(AI)の関連記事はこちら

RELATED

SHARE

米国の道路は歩行者にとって“危険”になっている? 交通事故死が減る一方で「歩道の死者」が増えた理由

米政府のレポートによると、自動車関連の事故による死亡者数は2018年に2.4パーセント減少した。ところが、歩行者の死亡者数は過去10年で50パーセントも増加している。いったいなぜなのか? 正直なところ、その理由は誰にもわからないというのだ。しかし、いくつかのヒントはある。

TEXT BY ALEX DAVIES
TRANSLATION BY YUMI MURAMATSU

WIRED(US)

pedestrian

TRAVEL WILD/GETTY IMAGES

このほど米運輸省道路交通安全局(NHTSA)から18年の米国の交通死亡事故に関する報告書が発表されたが、そこにはよいニュースもたくさんあった。

自動車の衝突事故による死亡者数は約36,560人で、17年と比較して913人(2.4パーセント)減少している。14歳以下の子どもの死亡者数は10パーセント以上も減少した。飲酒運転、スピード超過、バイクに関連する死亡者数も、すべて減少した。

これらはどれも素晴らしく改善したと言っていい。特に交通事故による死亡者数は、数十年にわたる減少傾向を経て、14~16年に増加して40,000人近くに達したものの、18年には減少している。

しかし、すべてが改善したわけではない。18年の歩行者の死亡者数は6,283人で、17年から3.4パーセント増加した。歩行者の死亡者数は過去10年にわたって増加傾向が続いている。歩行者の死亡事故は1990年に6,482人を記録して以来、2009年に最も少なくなったが、18年はそこから50パーセント増えている(NHTSAは1975年から統計を継続している)。自転車事故による死亡者数も同様に増加しており、18年には前年から6.3パーセント増加して857人になった。

誰も説明できない理由

こうした数値と同じくらい恐ろしいのは、なぜこうなったかを誰も説明できないことだ。「この事実を説明できる指標を見つけられませんでした」と、交通エンジニアリング企業サム・シュワルツ(Sam Schwartz)のゼネラルマネージャーのリチャード・レッティングは言う。彼はニューヨーク市運輸局および米国道路安全保険協会で交通安全を長年研究してきた人物でもある。

クルマの走行距離と歩行者数という、基準となる要素はともに増加している。しかし、それではレッティングが「過去20年以上にわたる進歩の完全な逆転」と呼ぶような状況を説明するには不十分だ。NHTSAは報告書のなかで理由を示しておらず、NHTSAの広報チームにコメントを求めたが回答は得られなかった。

まったく手がかりがないわけではない。交通事故死の原因としてまず考えられるのは、不注意運転だ。しかしNHTSAのデータによると、昨年の衝突死亡事故のうち、不注意運転によるものは7.8パーセントにすぎなかった。

この数字の問題は、ほかのデータ項目と同様に、警察からの報告に基づくということである。ほぼすべてとは言わないまでも、多くの場合に警察は運転手(または歩行者)が携帯電話を見ていたかどうかを知る術がない。このため、不注意運転は少なく報告される傾向にあるのだ。

「運転手が携帯電話を見ていたら、歩行者が危険に晒されるのも当然です」とレッティングは話す。iPhoneなどのスマートフォンの普及が死亡数の増加と同時に起こっているだけに、なおさらだ。ピュー研究所の調査によると、2011年の米国人のスマートフォン所有率は35パーセントだったが、18年には77パーセントになっているという。一方で自動車メーカーでは、これまで以上に大きなスクリーンをより多くのクルマに搭載する傾向が続いている。

SUV人気も一因?

常識的に考えれば、不注意と戦うことは必須だろう。しかし、スマートフォンを見るという行為すべてに等しく問題があるわけではなさそうである。ホノルルで“歩きスマートフォン”の禁止法令が発効されたあと、ニューヨーク市も同じように歩行中のスマートフォン利用の禁止を検討していた。だが、同市の運輸局は19年8月、「歩きながらのスマートフォン利用が歩行者の死亡と負傷に大きく寄与するという具体的な証拠をほとんど見つけられなかった」との研究結果を発表した。

chart1

歩行者の死亡事故は2009年から50パーセントも増えている

米国の自動車市場ではセダンの人気が低迷し、SUVやクロスオーヴァーSUVの所有者が増加していることも、交通事故による死亡者の増加の一因になっているかもしれない。13年には米国の新車販売台数におけるSUVの比率は15パーセントだったが、20年までにこの値は50パーセントに達する見込みだ。

クルマは重ければ重いほど人体に致命的な衝撃を与えるようになり、車高があればあるほど、足ではなく胴体や頭にぶつかりやすくなる。つまり、クルマと衝突することが、以前にも増して致命的になっているということだ。

道路の設計にも課題

時系列で追跡するのは難しいが、道路の設計も重要な要素かもしれないと、交通シンクタンク「Eno Center for Transportation」の政策アナリストのアリス・グロスマンは指摘する。米国の道路網の多くは自動車用に設計されており、横断歩道や歩道、照明など、歩行者の安全にとって適切とはいえない要素があるのだ。

歩いたり、自転車に乗ったり、バイクで移動したりするうえで最適な道路をつくりたいと考えている自治体は、米都市交通担当官協議会(NACTO)の交通路設計ガイドや自転車交通に関するオランダのCROW設計マニュアルなどの情報源を参照することができる。しかし、どのような変更がどのような種類のメリットをもたらすかは、必ずしも明確ではない。より多くのデータが役に立つ場合もある。「道路設計の前後に関するしっかりとしたデータは多くありません」と、グロスマンは言う。

歩行者の死亡者数の増加傾向を減少に転じさせることは、それを理解することと同じくらい複雑であるようだ。公的機関から連邦政府まで、さまざまなレヴェルでの設計、政策、施行を組み合わせることが求められる。

グロスマンと同じEno Center for Transportationの政策アナリストのロミック・アエヴァズは、交通エンジニアは何を優先すべきかを再考する必要があると指摘する。例えば、歩行者用信号の時間を延長したり歩道の縁石を広げたりすると、縁石から縁石へと安全に移動しやすくなり、同時にクルマの走行スピードを抑えられるかもしれない。

RELATED

SHARE