Google、大規模データをリアルタイムに分析できるクラウドサービス「Google Cloud Dataflow」を発表。「1年前からMapReduceは使っていない」

2014年6月27日

大規模分散処理のフレームワークとしてGoogleが開発し、Hadoopに採用されて広く使われているMapReduce。しかしGoogleはもうMapReduceを使わず、より優れた処理系の「Google Cloud Dataflow」を使っていることが、Google I/O 2014の基調講演で明らかにされました。

fig

GoogleのシニアバイスプレジデントUrs Hölzle氏は、「エクサバイトのスケールまで扱え、パイプライン処理を記述しやすく最適化もしてくれる。それにバッチもリアルタイム分析も同じコードで記述できる」と、Cloud Dataflowの特長を説明します。

Google I/Oの基調講演から、Google Cloud Dataflowの解説部分を紹介します。

バッチ処理もストリーム処理も同一コードで書ける

Cloud Dataflowはシンプルなフルマネージドサービスで、データの取得、変換、分析、分類の一連の処理をバッチでもリアルタイムでも処理できる。

プログラマが分析処理のプログラムを書き、Cloud Dataflowに送ると、最適化、展開、スケジューリング、モニタリングをCloud Dataflowが行ってくれる。

fig

デモとして、ワールドカップ関連の何百万ものツイートを、それぞれネガティブかポジティブかを分析し国別に分類する、というものを作ってみた。

まずはCloud Pub/SubからのJSONストリームを受け取る。ここではパイプラインをストリームモードで動作させているが、バッチモードもできる。

fig

次にデータ変換やマッピングを行う。Google Translate APIなどを使えるし、並列処理を最適化してくれる。

fig

そしてデータ分析の部分。ここでは3分間のスライディングウィンドウを設定し、それに対して分析を行う。データのシャッフリングなどは全部Cloud Dataflowがやってくれるので、プログラマが心配する必要はない。

fig

Dataflow Consoleから管理画面を呼び出すと、処理のトポロジーが分かりやすく表示される。これまでに524万ツイートを処理したようだ。

fig

Googleが1年前にMapReduceの利用をやめた理由がお分かりだろう。Cloud DataflowはMapReduceでステップごとに実行していたパイプライン全体を提供し、しかもスケーラビリティや並列性をプログラマが心配する必要はない。そして他のあらゆるシステムよりも高速かつスケーラブルなのだ。

なぜこうしたものを作ったかといえば、それは我々自身がこのようなものを必要としていたからである。

fig

このエントリーをはてなブックマークに追加
Bookmark this on Delicious

タグ : Google , Hadoop , MapReduce , クラウド

≪前の記事
[速報]Googleが新しいUXの体系「Material Design」を発表。あらゆるデバイスとスクリーンに適用。Google I/O 2014

Loading...

Blogger in Chief

photo of jniino Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。新しいオンラインメディアの可能性を追求しています。
詳しいプロフィール


新サイト「Publickey Topics」始めました!


Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
RSSリーダーで : Feed





アクセスランキング - 過去7日間

  1. [速報]Google Appsで、Word/Excel/PowerPointファイルを変換せずそのまま編集、保存可能に。Google Driveは容量無制限へ。Google I/O 2014
  2. [速報]Googleが新しいUXの体系「Material Design」を発表。あらゆるデバイスとスクリーンに適用。Google I/O 2014
  3. 高価な共有ストレージアレイを不要にする「VMware Virtual SAN」導入済みサーバ、主要サーバベンダから登場
  4. はてなブログチームの開発フローとGitHub(前編)。GitHub Kaigi 2014
  5. [速報]次期Android「L」は新VM「ART」を採用。従来のDalvikの2倍の性能、64ビットフル対応。Google I/O 2014
  6. Facebook、オープンハードなスイッチ「Wedge」と、対応Linux OS「FBOSS」を発表
  7. W3CのHTML5仕様が勧告候補から最終草案へ戻り、秋には再び勧告候補へ
  8. はてなブログチームの開発フローとGitHub(後編)。GitHub Kaigi 2014
  9. 今からでも間に合うDockerの基礎。コンテナとは何か、Dockerfileとは何か。Docker Meetup Tokyo #2
  10. 次期Internet Explorerの機能を先行試用できる「Internet Explorer Developer Channel」が公開。ゲームパッドAPI、自動テスト用APIのWebDriverなど搭載
  11. 日本Nginxユーザ会が発足。開発者Igor Sysoev氏が語る、Nginxが生まれ、商用化された理由
  12. GitHub実践入門、Pull Requestによる開発の変革。GitHub Kaigi 2014
  13. 最近よく目にする「フルスタックエンジニア」とは何だろうか?
  14. 米デル、Oracle 12c用垂直統合システム、MySQL用アプライアンス、Cloudera用インメモリアプライアンスなど、データベース特化の垂直統合システムを相次いで発表
  15. クラウドでSSDストレージ提供が広がる。Google Cloud Platform、Amazonクラウドが相次いでSSDベースのストレージ提供開始

Publickey 最新記事 10本

Publickey Topics 最新記事 10本


PR - Books


fig

fig

fig

fig



blog comments powered by Disqus