2014年7月3日木曜日

Google Cloud Platform を使って未来予測! #io14

先日、スポーツのデータを提供している Opta についてブログを書きました。こういうデータは非常に面白くて、単にビジュアライゼーションをするだけでも面白いのですが、うちの同僚の Felipe と Jordan は更に、そのデータを使って統計モデルを作り、機械学習させ、ワールドカップのサッカーの勝敗予測をセッションで行いました。

選手たちのワールドカップ以外のプロリーグでのパフォーマンスや Jordan が作ったランキングシステム、ブラジルに渡航したファンの数など、様々な要素がモデルに組み込まれています。Google Cloud Dataflow を使ってデータを読み込み、Big Query を使って分析し、iPythonPandas を使ってモデルを構築し、Google Compute Engine を使ってデータ処理を行っています。



Predicting the future with the Google Cloud Platform

セッション概要:
Can you predict the future using Big Data? Can you divine if your users will come back to your site or where the next social conflict will arise? And most importantly, can Brazil be defeated at soccer on their own turf? In this talk, we'll go through the process of data extraction, modeling and prediction as well as generating a live dashboard to visualize the results. We’ll demonstrate how you can use Google Cloud and Open Source technologies to make predictions about the biggest soccer matches in the world. You’ll see how to use Google BigQuery for data analytics and Monte Carlo simulations, as well as how to create machine learning models in R and pandas. We predict that after this talk you’ll have the necessary tools to cast your own eye on the future.



で、予測結果はどうだったのかというと、ベスト 8 の予測のすべてが当たりました :)
詳細は下記ブログ記事をご参照。

Google Cloud Platform goes 8 for 8 in World Cup predictions

当然、次はベスト 4 を予測しています。
ブラジル対コロンビア - ブラジルの勝率は 71%
フランス対ドイツ - フランスの勝率は 69%
オランダ対コスタリカ - オランダの勝率は68%
アルゼンチン対ベルギー - アルゼンチンの勝率は81%
。。。との予測。さて、どうなるか楽しみですね!

その他ご参考:
Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja
BigQueryにTwitterのタイムラインを入れる [Ruby]

Disclaimer このブログは山崎富美の個人的なものです。ここで述べられていることは私の個人的な意見に基づくものであり、私の雇用者には一切の関係はありません。