実験では正解データを教える学習法と同等かそれ以上の精度を確認した。手書き文字認識では88%の精度だった。
一般的には、がん細胞をAIで探す場合、がん細胞や内皮細胞、筋細胞などの正しいデータをAIに学習させる。AIは正解からの誤差を最小化して正解率を高める。
杉山センター長らは不正解データを与え、不正解からの誤差を最小化した。この結果「これはがん細胞ではない」「これは内皮細胞でない」といったデータから学習し、がん細胞を特定できるようになる。
データを10種類に分類する場合は正解データの10倍の不正解データが必要になる。だが不正解のデータは正解データよりも集めやすい。例えば生体組織画像の中に、特定の細胞が含まれていなければ画像に含まれるすべての細胞画像が不正解データとして使える。さらに正解データを作るには検証して特定する作業が必要だが、不正解データは否定するだけですむ。
開発したAI技術は、ニューラルネットワークモデルや線形モデルなど学習モデルを選ばない。自動運転の歩行者認識、病変識別、顧客のプロファイル推定など幅広いAIへの基盤技術になる。
小寺 貴之
14時間前
不正解なら何でもいいわけではなくて、正解と不正解のデータを相補的なラベルとして学習するところが今回の学習アルゴリズムのすごい点です。例えばがん組織の顕微鏡写真DBなら、写真に写っているのはがん細胞や普通の細胞に限られるので「がん細胞ではない」という不正解データで学習できます。この世のすべてのモノを画像認識させようとすると、この世のすべてのモノの不正解データが必要になります。医療データや店舗の来店客など、ある程度対象を絞り込んだり、識別したい粒度を大きくすれば、必要なデータ量を抑えられます。また「●●である」データより「●●じゃない」データの方が直感的に判断しやすく、日常の生活インターフェースに埋め込みやすいです。セキュリティ認証のマイクロタスクなどに埋め込み、データ収集をすると良いと思います。
1
Facebook
Twitter
Google+
Bookmark!
Pocket ★
クリップ
この記事にコメントする
「残業改革」特集