%E3%83%93%E3%83%83%E3%82%B0%E3%83%87%E3%83%BC%E3%82%BF%E3%83%97%E3%83%AD%E3%82%B0%E3%83%A9%E3%83%9F%E3%83%B3%E3%82%B0%E3%82%92%E5%8D%98%E7%B4%94%E5%8C%96%E3%81%99%E3%82%8BGoogle%E3%81%AECloud%20Dataflow%E3%81%8CCloudera%E3%81%AE%E5%8D%94%E5%8A%9B%E3%81%A7Apache%20Spark%E3%81%AB%E7%B5%B1%E5%90%88

ビッグデータプログラミングを単純化するGoogleのCloud DataflowがClouderaの協力でApache Sparkに統合

Googleの今日(米国時間1/20)の発表によると、同社はHadoopのスペシャリストClouderaとパートナーして、Googleのデータ処理プログラミングフレームワークCloud DataflowをApacheのクラスタ化データ処理エンジンSparkに統合する努力を開始する。

デベロッパがGoogleのCloud Dataflowを使うと、低レベルのクラスタのことを気にする必要なく、データ処理パイプラインを開発しモニタできる。例によってGoogleは次のように強調する: このデータ処理SDKはインターネット上で大規模なデータ集合を処理するための同社の内部的ツールから生まれたものである。データ処理のタスクはいつも同型であるとはかぎらないので、クラウドやオンプレミスを使い分けながらいろいろなデータ処理エンジンを使う必要がある。しかしCloud Dataflowというプログラミングインタフェイスを使えば、理想的には、データアナリストはパイプラインがその上で動くアーキテクチャの違いを気にすることなく、同一のシステムを使ってさまざまなデータ処理パイプラインを作れる。

GoogleがクラウドサービスとしてのDataflowを発表したのは昨年の夏だが、それはインフラがGoogle自身のプラットホーム…Compute EngineCloud Storage、およびBigQueryだった。しかしちょうど1か月前に同社はこのサービスのJav SDKをリリースして、デベロッパがそれをほかの言語や環境に統合できるようにした。そして今回はClouderaの協力によりそれと同じことを、SparkをデータエンジンとするオープンソースのDataflowとして実装しようとしている。それによりデベロッパはCloud Dataflowを、自分たちのローカルマシン上、(まだ非公開アルファだが)Googleのクラウドサービス上、そしてSparkの上でも使えるようになる。

Googleは今日の発表の中で、こう述べている: “Dataflowを利用するプログラムはデータをより有効に利用できるようになり、しかもその便宜を、クラウドやオンプレミスなど多様な環境で享受できる”。

SparkバージョンはGitHub上で入手できる。Clouderaはそれを、試験と実験に限定される“育成プロジェクト”と見なしている。本番利用のリスクは、デベロッパの自己責任となる。GoogleもDataflowをアルファと見なしているので、SDKは今後変わる余地がある。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

広告

blog comments powered by Disqus
フォロー

新しい投稿をメールで受信しましょう。

Join 150 other followers