「将来的にAI(人工知能)市場はさらに拡大していく。人々にポジティブな影響を与えるクオリティーの高いAIが必要で、そのためには質の高いAI学習データが欠かせない」──自然言語処理のAI開発に必要な学習データを提供するベンチャー企業Gengo(東京都渋谷区)のチャーリー・ワルター氏(Vice President of Product & Growth)は、こう話す。
同社は、2008年12月にクラウドワーカーを使った人力翻訳プラットフォーム「Gengo」をローンチ。翻訳事業で培ったクオリティー管理のノウハウと2万2000人のクラウドワーカーを活用し、18年4月にAI学習データを提供するサービス「GengoAI」を始めた。AI開発に必要なビッグデータの収集や、ビッグデータの学習データ化などを行う。
大手ECサイトやSNS企業、国内大手通信会社など、AI事業を展開する世界中の企業に対し、それぞれのニーズに沿ったAI学習データを提供。その内容は、スマートスピーカー用の音声データから、機械翻訳用のテキストデータまで多岐にわたる。
ワルター氏は「AI学習データが欲しい企業はますます増えるが、今はデータトレーニング会社という概念すらない状態」とし、「今後は(類似サービスを展開する)ライバル企業も増えるだろうが、Gengoは質の高いデータを提供するプラットフォームとしてアドバンテージがある」と自信を見せる。
前職の米Uberでは、自動運転車の性能をシミュレーションで評価するAIアルゴリズムを開発していたというワルター氏。自動車、翻訳と異なる分野でAI事業に携わる中で、AI開発とデータの関係性について何を考えたのか。
「今はAIがやる仕事が限られている。これからはどんな分野にもAIが入ってきて、人間がやらなくていい作業が増える」と、ワルター氏は企業のAI導入は不可欠かつポジティブなものと捉えている。
その上で、企業はAIアルゴリズムやツールを開発すること自体よりも、目的に合った質の高いデータを集めることが重要という。
ワルター氏は「AIツール自体は、Googleなどがオープンソースで提供してくれる。一方で、ちゃんとしたデータを集めるには現状高いコストがかかる」とし、「収益が出ないと、そのAI事業はR&D(研究開発)で止まってしまう。Gengoのようなサービスがあれば、これまで収益にならなかったAIサービスを安く作れるようになる会社が増えていくはず」と期待を寄せる。
企業が求める良質で膨大なAI学習データを用意する上で、翻訳プラットフォーム事業で培った運営ノウハウと、2万2000人超のクラウドワーカーという財産が生きてくるという。
Gengoは全世界に2万2000人以上のクラウドワーカー(翻訳者)を抱えている。クオリティーコントロールのため、実作業ができるのは同社が定めるテストに合格した人のみ。スペシャリストと呼ばれる100人の熟練者が他の作業者の仕事をチェックする他、専用ツールで各自が翻訳したテキストにスコアを付けて評価するなど、常に目を光らせている。
こうしたアウトプットの質を高める仕組みを、AI学習データの提供にも生かす。「Gengoはテクノロジー会社で、多言語のクラウドワーカーを抱えていることが他社にはない強み。質の高いデータを大量に用意するのは、簡単にできることではない」(ワルター氏)
前職の米Uber時代も、データの大切さが身に染みた。自動運転の性能を評価するシミュレーションは、ビデオゲームのようにバーチャル上で行うのだが、どんな状況が起こりうるかを事前にラベリングする必要がある。
具体的には、画面内の自転車やクルマ、信号などに「これはクルマ」「右から自転車が走ってくる」などのラベル付けを行う。これらは世界各地にいる1000人以上のラベリングチームが手動で粛々と行っていたという。
「UberやGoogle、Amazonといった大企業は自前でそうした人員を用意できるが、小さいAI企業ではそれも難しい」。そこで、2万2000人超のクラウドワーカーが活躍するチャンスがある。
Copyright © ITmedia, Inc. All Rights Reserved.
コンパクトボディに3Kディスプレイや4スピーカーのサウンド・システムを備えた「HUAWEI MateBook X Pro」は、仕事だけでなくプライベートな映像視聴でも活躍する1台だ。