Googleは、オープンソース化の理由として、ストリームとバッチを統合した処理モデルの提供、Dataflowプログラミングモデルの他の言語への適合、Dataflowの他のプラットフォームや処理系での実行の3点を挙げている。
ストリームとバッチを統合した処理モデルの提供については、テンポラリベースのアグリゲーションによって、バッチやストリームベースのデータソースで用いられるリッチなウィンドウプリミティブのセットを用意する。
Dataflowプログラミングモデルの他の言語への適合については、開発者に対してより多くの選択肢を与えるとともに、より多くのアプリケーションによる「Cloud Dataflow」へのアクセスを可能にすることを目的としており、現在Googleでは、今回提供を開始したJava版に加えて、Python 3版を開発中である。
Dataflowの他のプラットフォームや処理系での実行については、クラウド開発においてはスケーラビリティや高可用性などと同じくらい、ポータビリティが重要である、という同社の考え方に基づいている。
【関連リンク】
・Google
・「Cloud Dataflow SDK for Java」(GitHub、英語)