【悲報】低所得世帯の物体認識AIは精度が低いらしい(AI×社会)【論文】

国や文化に関係なく平等に機能するシステムの必要性

AI技術の中でもとりわけ躍進中の技術が、物体認識だ。物体認識は様々な分野に応用可能であり、医療、視覚障害者の支援、画像アルバム編成ソフトウェア、画像検索など、幅広い場面ですでに利用されている。さらに、 物体認識システムの利用場所も、先進国に限らず世界中に広がっている。

どんな分野においても、技術の進歩に伴って開発者側には責任が生じることが多いが、物体認識においても同様の責任が発生している。物体認識の開発者には、国や所得レベルの高低によらず機能するシステムの開発が求められているのだ。

アメリカの Facebook AI Researchの T. d. Vriesら研究者は、物体認識システムが文化的背景や社会・経済的地位に関係なく機能することが求められているという課題に注目した。そこで、現在の物体認識システムが国や所得レベルに関係なく機能するかどうかを、複数の物体認識システムの結果を比較することによって調査した。結果、画像が低所得世帯のものである場合よりも、高所得世帯の画像である場合の方が物体認識モデルの精度が高いということが分かった。

画像撮影者の所得が、物体認識の精度を左右する!?

T. d. Vriesらの研究のポイントは以下の通りだ。

✔️ミッション
物体認識システムは文化的背景や社会経済的地位に関係なく機能する必要がある。

✔️解決手法
所得が異なる複数の世帯で撮影された画像について、既存の6つの物体認識システムを適用して精度を検証した。

✔️結果
低所得世帯の画像よりも高所得世帯の画像を用いるほうが物体認識モデルの精度が高いことが分かった。

研究の詳細を以下で述べる。

平等なシステムを保証する開発者側の責任

近年、物体認識の精度は大きく進歩し、様々な分野で利用されている。物体認識技術の世界展開が加速する一方で、 文化的背景や社会・経済的地位に関係なく、世界中の利用者が物体認識システムを等しく利用できること保証する責任が、開発者側に生じている。

既存の物体認識システムで検証

T. d. Vriesらは、 54カ国の264の家庭で撮影された、135種類の写真について、既存の6つの物体認識システムを用いて解析した。

使用したデータセット

Dollar Street画像データセットを使用した。このデータセットには、54カ国の264の家庭で撮影された、135種類の写真が含まれている。各画像には、撮影された世帯の所得と国の情報が付属している。

世界中の家庭用品の画像とクラス。クラスは、5つの公開されている画像認識システムによって認識されたもの。
データセットの国ごとの画像数を表示する階級区分図

分析方法

クラウドサービスを通じて利用可能な5つの物体認識システム
1. Microsoft Azure
2. Clarifai
3. Google Cloud Vision
4. Amazon Rekognition
5. IBM Watson
および、Tencent ML Imagesデータセットで学習され、ImageNetで検証精度78.8%を達成したResNet-101モデルで、先のデータセットを物体認識した。

その後、予測が正しいかどうかを判断するためにDollar Streetデータセットで提供されているクラス(以下の表を参照)と一致する予測が5つあるかどうかを手動で判断した。

物体認識システムの分析に使用したDollar Streetデータセットの全117クラス(合計20,455個の画像)のリスト。
画像認識モデルによる予測の正確さ評価を担当する人間のアノテーターに提示されるインターフェース。

高所得世帯の画像を用いるほうが高精度

検証の結果、正確な精度はモデルごとに多少異なるが、結果は6つのシステムすべてで同じパターンを示した。所得のことなる世帯ごとの写真におけるオブジェクト分類の精度は、低所得世帯の画像よりも高所得世帯の画像を用いたときのほうが、大幅に高くなった。

六つの物体認識システムの平均精度と画像が収集された世帯の所得(毎月あたりの値、米ドルで)の関係。各階級はほぼ同じサンプル数となっている。

下図より、国間で精度が異なることが分かる。Amazon Rekognitionの精度は、アメリカで撮影された家庭用品の方が、ソマリアや西アフリカのブルキナファソで撮影された家庭用品より約15%高かった。

国ごとの6つのオブジェクト分類システムの平均精度を表示するChoroplethマップ。赤色は~60%、黄色は~75%、緑色は~90%の精度を示す。

精度に差が生じている原因としては、2点考えられる。

一つ目は、物体検出モデルの学習に使われている画像データセットの地理的サンプリングが世界の人口分布を代表しないためである。

ImageNet(左上)、COCO(右上)、およびOpenImages(左下)データセット内のイメージの地理的分布を示す密度マップ。参考として、世界の人口密度マップを示す(右下)。

二つ目は、データ収集の際の言語として英語を利用しているためである。

同じクエリをヒンディー語と英語で検索したFlickrのトップ画像。
言語間で返される結果は視覚的に異なる。
最も高い所得層と最も低い所得層で精度の差が大きいクラス。

研究紹介は以上だ。

サービスの精度が国や所得によって異なることで、新たな格差が生まれては決してならない。

AI×社会」のほかの記事もどうぞ

▶ 「5歳未満で命を落とす」のはなぜ?機械学習で要因を予測
▶ AIで「世論の推移」を観測することに成功
▶ Twitter botから選挙を守れ!AIで「アカウントがbotか」判別


この記事で取り扱った論文:T. d. Vries, I. Misra, C. Wang, L. v. d. Maaten,”Does Object Recognition Work for Everyone?”,The IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, 2019, pp. 52-59 URL


※この記事は公開3日後以降は無料会員限定コンテンツになります。同様に、過去の記事は全て会員のみ閲覧可能です。閲覧されたい方はこちらからご登録よろしくお願いします!


業界から探す

PAGE TOP
:)