Pinterest、OpenTSDBから独自の時系列データベースに切り替え

| 作者： Hrishikesh Barua Hrishikesh Barua フォローする 15 人のフォロワー , 翻訳者 sasai _ sasai _ フォローする 0 人のフォロワー投稿日 2018年10月17日. 推定読書時間： 3 分 | ディスカッション

原文(投稿日：2018/09/16)へのリンク

2014年以降、Pinterestのエンジニアリングチームは、メトリクスのストアおよびクエリのためのエンジンとしてOpenTSDBを使ってきた。しかし、メトリクスデータ量の増大による様々なパフォーマンス問題のため、彼らは独自の時系列データベースを開発することにした。それはGokuと呼ばれ、C++で書かれており、OpenTSDBに準拠したAPIを備えている。

Pinterestの開発チームは、Statsboardというシステムを使っている。これはGraphite、Ganglia、OpenTSDBからのメトリクスをYAMLによる宣言的な設定で統合するダッシュボードだ。2012年初め、PinterestのモニタリングにはGangliaが使われており、システムメトリクスだけを収集し、アプリケーションメトリクスを収集していなかった。その後、アプリケーションメトリクスのためにstatsdを使ったGraphiteが開発され、続いてクラスタ化したGraphiteがデプロイされた。2014年にはOpenTSDBがデプロイされた。カスタムのメトリクスエージェントを使って、処理パイプライン経由でデータをKafkaクラスタにプッシュし、それをOpenTSDBとGraphiteにプッシュした。数年前の時点で、OpenTSDBのスループットは150万ポイント/秒だったという。PinterestチームはJavaのGC問題と、OpenTSDBがバックエンドストアとして使っているHBaseの頻繁なクラッシュに直面した。Pinterestには、多数のサービスのために巨大なHBaseデプロイメントがあったのだ。

彼らの自社製時系列データベースエンジンであるGokuは、OpenTSDBの特定の領域を改善しようとしている。これには、HBaseスキャンの代わりに転置インデックスを使用すること、データポイントの圧縮改善、クラスタ化したクエリ集約、高速なシリアライゼーション形式といったものが含まれる。GokuはFacebook Gorillaインメモリストレージエンジンを使って最近のデータを格納し、NFS上の永続ストレージを備えている。PinterestはEC2にホストされているが、彼らがAWS EFSを使っているのか、自前のソリューションを使っているのかは、記事からはわからない。著者によると、再起動時にはディスクからメモリにデータを読み戻すという。

Gokuのクエリモデルは、OpenTSDBと同等だ。シャード間でクエリを展開・集約するため、チームは独自のクエリ集約レイヤーを書いた。Gokuは2レベルのシャーディング戦略を用いている。これはメトリクス名のあとにタグキー-バリューのペアを続けることに基づいている。クエリはGoku proxyによって処理され、個々のGokuシャードに送られる。シャードは転置インデックスを使ってリクエストされた時系列のidを得てデータを取得し、個々のアグリゲーター（ダウンサンプリング、集計など）を実行し、それをproxyに送り返す。proxyは2周目の集約後、それをクライアントに送り返す。Gokuによるもうひとつの改善は、OpenTSDBのJSON形式の代わりに、Apache Thriftのバイナリデータ型を使うことだ。

Gokuは、Pinterestにおけるデータセットサイズだけでなく、遅延やリソース要件も低下させた。GokuはC++で書かれており、OpenTSDB APIに完全に準拠している。Javaで書かれたYuviという別のPinterestプロジェクトはGokuと多くの類似点がある。この他、Vivint、Uber、Improbable、Criteoといった時系列メトリクス収集/クエリシステムが作られ、あるいはカスタマイズされている。

こんにちは

コメントするには InfoQアカウントの登録またはが必要です。InfoQ に登録するとさまざまなことができます。

アカウント登録をしてInfoQをお楽しみください。

あなたの意見をお聞かせください。

コミュニティコメント Watch Thread

閉じる

by

投稿日

閉じる

注目のデベロップメント

ETLは過去のものか - Apache Kafkaがデータ処理の未来なのか？

注目の設計/アーキテクチャ

ソフトウェアアーキテクチャのためのC4モデル

注目の AIと機械学習、データエンジニアリング

注目のカルチャー＆手法

あなたはイノベーションの障害か

注目の DevOps

Kubernetes時代のマイクロサービス

Pinterest、OpenTSDBから独自の時系列データベースに切り替え

こんにちは

アカウント登録をしてInfoQをお楽しみください。

あなたの意見をお聞かせください。

by

特集コンテンツ一覧

C# 8の非同期ストリーム

Kubernetes時代のマイクロサービス

あなたはイノベーションの障害か

Javaの新JITコンパイラ、Graalを解説

ソフトウェアアーキテクチャのためのC4モデル

ASP.NET Core Web APIのための高度なアーキテクチャ

お気に入りのトピックや著者をフォローする

より多いシグナル、より少ないノイズ

最新情報をすぐ手に入れるようにしよう

注目の デベロップメント

注目の 設計/アーキテクチャ

注目の AIと機械学習、データエンジニアリング

注目の カルチャー＆手法

注目の DevOps

Pinterest、OpenTSDBから独自の時系列データベースに切り替え

このコンテンツのトピックは DevOps です。

関連記事:

こんにちは

アカウント登録をしてInfoQをお楽しみください。

あなたの意見をお聞かせください。

by

特集コンテンツ一覧

InfoQ ニュースレター

お気に入りのトピックや著者をフォローする

より多いシグナル、より少ないノイズ

最新情報をすぐ手に入れるようにしよう

広告ブロッカーを使用されています。

注目のデベロップメント

注目の設計/アーキテクチャ

注目のカルチャー＆手法