(cache) すでに水面下で機械学習のための横断的データの争奪戦がはじまっている

AI強化月間ということで、ちょくちょくニュースを拾っていこうと思います。

<a href="http://futureinsight.info/entry/2015/06/22/160924">どうしてこのタイミングで機械学習系スタートアップに参加したのか - FutureInsight.info</a>

最近気になったのは以下の記事です。

<a href="http://www.itmedia.co.jp/enterprise/articles/1506/14/news013.html">Facebook、またアルゴリズム変更　“表示時間の長さ”を加味</a>

米Facebookは6月12日（現地時間）、ニュースフィードに表示する投稿の表示優先度を決めるアルゴリズムの変更を発表した。同日から数週間かけて“ローリングアウト”していく。

ユーザーが、たとえ「いいね！」やコメントをしなくても、長く表示した投稿はそのユーザーにとって重要であると判断し、同様の投稿の表示優先度を高める。

単純に表示秒数などで判断すると、接続環境が悪くて読み込みが遅い場合もカウントしてしまう可能性もあるため、相対的な長さで判断するとしている。

特に書いてないけど、おそらく内部は典型的なDeep Learning関連技術の利用と思われます。そもそも、Input・Outputさえはっきりしていれば、中身の特徴抽出を自動でやってくれるのが、Deep Learningの強みなので、おそらくスクロールの動き・記事のクリック率・交友関係などのパラメータをInputにして、Outputに興味のある内容(もちろん広告を含む)とすれば、これほどわかりやすい機械学習の応用事例はないと思います。「News Feedの感情伝達実験」が過去に話題になりましたが、今回はそういう意味では海外の記事を見ても結構慎重な発表になっていますね。

この手のInputからDeep LearningがゴニョゴニョしてOutputを最適化する問題に関しては、すでにある程度技術は確定しており、現状はどういうデータを横断的に集めてどういう風に活用すればよいか、という当たりに議論がシフトしてきています。といってもディスプレイの表示から記事のクリック率、ユーザーのプロファイルまで一気通貫でデータを取得できるのがFacebookの強みなので、技術はあっても活用できないというのが他の会社のステータスかな、と。

そういう観点では、先日リリースされた機械学習系をたっぷり使ったGoogle Photosも機械学習の能力がすごいというより、あの一定サイズまでの無限に使えるストレージとそれを支える分散系のバックエンドシステムがあって、はじめてできることなので、Deep Leraningそのものが価値を生み出すというよりは、横断的な学習用データをユーザーから引き出すことができる企業が有利になる、というステージにあると考えてよいのではないかと思っています。

<a href="http://www.huffingtonpost.jp/techcrunch-japan/google-photos-googleio_b_7466218.html">新しい「Google Photos」はなぜ容量無制限でサービスを提供できるのか</a>

さらにGoogle Photosは明らかに時系列を意識した解析も行われており、大量の写真 + 時系列の技術って、シーン解析からの自動運転までつながるまさに機械学習の王道分野です。

このあたりの時系列なり、複数種類の統合なり、横断的なデータの争奪戦がすでにはじまっていると考えると、かなりしっくりくる、と考えています。