トレジャーデータ導入体験記リブセンス編

自己紹介
2. 事業紹介
3. 導入当時
4. 活用方法
5. 導入前後
6. 安定運用化
7. 今後の期待
8. まとめ
本日の流れ
2

page
Fluentd歴 < TreasureData歴
5

page
執筆書籍
6
サーバ/インフラエンジニア養成読本 
ログ収集∼可視化編 [現場主導のデータ分析環
境を構築!] (Software Design plus)
出版社/メーカー: 技術評論社
定価: 本体1,980円＋税

page
拙作の公開中Fluentdプラグイン
8
rewrite-tag-ﬁlter
geoip
mysql-replicator
munin
twitter
anonymizer
mysql-query
gamobile
watch-pro...

あたりまえを、発明しよう。

可視化された未来型
不動産プラットフォームサービス

page
導入当時
19
MySQL5.0系を利用。その構成にムリが生じ始めていた
トランザクションテーブルとログテーブルの混在
分析クエリによるスロークエリの温床
本番のスキーマ変更のレビュー工数の手間
データのサイジング計画を建てる手間

page
導入当時
20
MySQLへの高コストなINSERTクエリによるページ表示遅延
INSERTコストを下げる為に、可能な限りログを定期的に
消し込む必要がある。消し込みバッチが増殖。
消し込める範囲も限られるため、INSERTクエリと消...

page
これじゃダメだ！
21

page
事業加速のスピードをさらに上げたい
22

page
Hadoop基盤が必要であることは明白
しかし少ない人員で誰が運用するのか
23

page
かの有名な太田さんや古橋さんが
Bigdata as a Serviceを
“TreasureData”として
サービスインするを耳にする
24

page
当時のトレジャーデータのメンバー
25
引用元 http://itpro.nikkeibp.co.jp/article/NEWS/20120928/426103/

年5月太田さんにメール
数営業日後、全サーバへの導入完了
26

つの社内スタートアップメディアを
先行事例として試験導入
27

page
活用方法
29
ユーザの行動ログの収集と分析
集計結果のGoogleSpreadSheet書き出しが圧倒的に多い
さまざまな履歴データの保管と集計
A/Bテスト
不達メールアドレスのクリーニング
名寄せ処理、クロールデータ etc…
...

page
活用方法
30
行動ログの分析（A/Bテストや不正ユーザ検出）
KPIダッシュボードへの書き出し(GoogleSpreadSheetベース)
レガシーブラウザのコンバージョン数のモニタリング
デグレが発生し取りこぼしが発生しても早期に...

page
A/Bテストなどの裏側ではTreasureDataが大活躍
31
活用方法

page
単にABテストをすると必要な
計測回数を満たしていないこともある
32

page
あるメディアでのA/Bテスト事例
33
引用元：【テストツール不要】明日から試せる転職会議式ABテストのはじめ方 
http://qiita.com/kekekenta/items/8b1f9d2a17c4c6a6b638

page
途中でクリック率が反転する例
34
引用元：【テストツール不要】明日から試せる転職会議式ABテストのはじめ方 

page
A/Bテストの計測量が足りているかは 
信頼区間を計算するべきである
35

page
信頼区間の計算手法など、詳しくは
「転職会議 2倍」で検索！
36

page
参考になる弊社公開記事
37
【テストツール不要】明日から試せる転職会議式ABテストのはじめ方

page
参考になる弊社公開スライド
38
登録数2倍にしてと言われた時の正しい対処法
http://www.slideshare.net/KurosawaChihiro/2-42758053

「コンバージョン数を2倍にしてくれ」と言われた時の対処法
http://www.slideshare.net/tsuyoshika/2-52482724
参考になる弊社公開スライド

page
導入前後
41
スキーマやデータサイズの呪縛から解放された
クエリの結果をURLとして参照できる
GoogleSpreadSheet書き出しでリアルタイム更新される 
ダッシュボードが手軽に作れることに感激する
Hadoopの運用が任...

page
サポートチャット利用状況
42

page
いつもありがとうございます！
43

page
安定運用化
45
td-agentの監視はもちろん必要（Mackerl + PagerDutyなど）
td-agentのバッファサイズなどのチューニングも必要
社内向けにクエリのクックブックを提供
社内向けにWebコンソールの運用ガイ...

page
今後の期待
49
Pythonを用いた独自UDF対応
ストリーミングデータ処理の対応
環境変数への対応（Hivemallの乱数seedを固定したい）
Hivemallを用いた予測結果をDynamoDBへ書き出したい
億単位の全組み合わ...

page
まとめ
51
TreasureDataを契約して良かった
導入によるメリットは計り知れない
今ではHiveよりもPrestoをメインに利用している
共に成長すること3年、今後の動向が楽しみです

page
Thanks!
52
ご清聴ありがとうございました。

トレジャーデータ導入体験記リブセンス編

Kentaro Yoshida