Parquetファイルの中身を確認するparquet-toolsをDocker使ってインストール無しで実行する

parquet-toolsをビルドするの面倒なので、Dockerで実行する方法。

parquet-tools

Parquetの中身見るためのCLIです。

https://github.com/apache/parquet-mr/tree/master/parquet-tools

Dockerでの実行方法

こちらのイメージ使わせてもらいます。Dockerfile見ればわかりますが、シンプルなので自分で調整も簡単です。

https://hub.docker.com/r/nathanhowell/parquet-tools

実行方法はこちらです。meta サブコマンドを実行しています。 WORKDIR/parquet-mr/parquet-tools-v と対象のファイルに指定します。

$ docker run --rm  -v $(pwd):/parquet-mr/parquet-tools nathanhowell/parquet-tools meta /parquet-mr/parquet-tools/test.snappy.parquet

parquet-toolsの使い方

こちらの記事に日本語で纏まっているのでメモ。

www.lancork.net