Google Cloud Platform Japan Blog
最新情報や使い方、チュートリアル、国内外の事例やイベントについてお伝えします。
Avro フォーマットの採用で BigQuery データの取り込みが 10 倍高速に
2016年4月5日火曜日
* この投稿は米国時間 3 月 15 日、Google Cloud Platform の Technical Lead である Sam McVeety によって投稿されたもの(
投稿はこちら
)の抄訳です。
このたびリリースされた
Dataflow SDK
Version 1.5.0では、
Google BigQuery
からデータを処理用に取り込む速度が大幅に向上しています。
Google の社内ベンチマークを見てみると、パイプラインにおいて BigQuery からデータを取り込むセグメントが従来よりも 10 倍高速に実行されていることがわかります。
下図に示すように、BigQuery からのエクスポート専用のパイプラインにおいて速度の向上が顕著です。
私たち Google のもとには、BigQuery からデータを取り込むセクションの高速化に関する質問が数多く寄せられていました。Dataflow SDK 1.5.0 がまさにそのための方法を提供することを、私たちはうれしく思います。
これまでその取り込み速度は、BigQuery からエクスポートするファイルのフォーマットに依存していました。
Dataflow SDK の従来バージョンの場合、テーブルとクエリは Dataflow に、JSON エンコードされた
Google Cloud Storage
オブジェクトとして提供されていました。それらのエントリがすべて同じスキーマを持つことを考えると、この表現はきわめて冗長です。基本的に、レコードごとにスキーマを文字列として複製することになるからです。
それに対して Dataflow SDK 1.5.0 では、Dataflow は Avro ファイル フォーマットを使用し、単一の共有スキーマに従って BigQuery データをバイナリ エンコードおよびデコードします。これにより、個々のレコード サイズが実際のフィールド値に応じて減少します。
こうした効率性が、私たち Google が Protocol Buffers (Apache Avro とよく似た多くのデータ シリアライズ システムの 1 つ)を非常に気に入っている理由の 1 つです。
当然のことながら、BigQuery シンクでも同様のパフォーマンス向上が得られます。Dataflow チームと BigQuery チームは Avro エンコーディングのサポートを予定しており、その実現を楽しみにしています。
- Posted by Sam McVeety, Technical Lead, Google Cloud Platform
0 件のコメント :
コメントを投稿
Labels
App Engine
AppScale
BigQuery
Billing Alerts
Cloud Bigtable
Cloud Consoleアプリ
Cloud Dataproc
Cloud Debugger
Cloud monitoring
cloud Pub/Sub
Cloud SQL
Cloud Storage
Compute Engine
Compute user Accounts
Container Engine
Container Registry
Deployment Manager
Developers
Firebase
Google Cloud Console
Google Cloud Dataflow
Google Cloud Datalab
Google Cloud Datastore
Google Cloud Launcher
Google Cloud Logging
Google Cloud Security Scanner
Google Cloud Shell
Google Cloud Storage Nearline
Google Genomics
IoT
Kubernetes
MySQL
Next
OLDISM
Panda
Puppet
Startups
Vision API
Vitess
イベント
コンピューティング
サポート
スタートガイド
ストレージ
セミナー
ソリューション: メディア
データセンター
ビッグデータ
運用管理
機械学習
月刊ニュース
資格、認定
新機能、アップデート
導入事例
料金
Archive
2016
4
3
2
1
2015
12
11
10
9
8
7
6
5
4
3
2
1
2014
12
11
10
9
8
6
5
4
3
2
Feed
Follow @GoogleCloud_jp
0 件のコメント :
コメントを投稿