parquet-toolsをビルドするの面倒なので、Dockerで実行する方法。
parquet-tools
Parquetの中身見るためのCLIです。
https://github.com/apache/parquet-mr/tree/master/parquet-tools
Dockerでの実行方法
こちらのイメージ使わせてもらいます。Dockerfile見ればわかりますが、シンプルなので自分で調整も簡単です。
https://hub.docker.com/r/nathanhowell/parquet-tools
実行方法はこちらです。meta
サブコマンドを実行しています。 WORKDIR
の /parquet-mr/parquet-tools
を -v
と対象のファイルに指定します。
$ docker run --rm -v $(pwd):/parquet-mr/parquet-tools nathanhowell/parquet-tools meta /parquet-mr/parquet-tools/test.snappy.parquet
parquet-toolsの使い方
こちらの記事に日本語で纏まっているのでメモ。