前回第1回に引き続き抽選に当たったのでこの日参加してきました。
会場は株式会社FiNC様@有楽町。有楽町駅ビックカメラのすぐ隣、交通の便は超良い場所です。
会場内もとてもオシャレで綺麗なオフィスでした。
挨拶
イベント主催の taise(@_eurk)さんによる挨拶及び今回の開催に際してのアンケート発表がありました。発表内容詳細は以下スライド資料を御覧ください。
基盤として使っているものはAWSが多く、オンプレ環境も意外と多い形に。気になるトピックとしてはアドホック分析や定常分析・レポート業務等に対する処理の使い分け、運用サービスと分析基盤との繋ぎ込みの部分、また発生する『基盤刷新』に対してどう対処していくか、複数プラットフォーム連携(例:AWSとGCP等)についても言及がありました。
ウェルネスタイム(軽いストレッチ) by FiNC
そして本編開始前に体操のおにーさん(?)が登場、仕事で凝った体をほぐすべく、参加者皆で柔軟体操を少々。良い感じで体がほぐれました。
FiNCの分析基盤の概要
- 発表者:yoshimi(@yoshimikeisui)氏 検査技術や専門家・他業界ネットワークを活用し、個人や法人の健康を支援する各種サービスを展開しているFiNC。FiNC社における分析チームのミッション・領域としては『最適な意思決定を最速で導けるための分析基盤をつくる』というところにポイントを置いています。
良い分析基盤とは:以下の様なサイクルを回せるようになっていること。青枠の部分はあくまでも"結果論"となる部分であり、基盤選定やログ設計はまず緑枠の部分を見つめて行くことから始めていく必要がある。
- FiNCの分析ニーズ:
- ユーザーの個々のパーソナルデータに合わせたユーザー体験の提供
- SNS系タイムライン・フィードなどの最適化検証
- 動画等のメディア利用状況
- 個々のユーザーデータ x ユーザー体験ログ
- 既存のアプリ分析ツールでは対応しきれず、自分達で設計したログ収集基盤を作ることにした
ログ収集基盤/俯瞰図:
ログ収集基盤/詳細:
- ログの"集計"基盤について:
- データをどういう風に集計しているか?→生ログ系と分析系にスキーマを分けて管理している。
生ログ系スキーマ
分析用スキーマ
ビジュアライゼーション(可視化)
- 綺麗なUIのダッシュボードも大事だが、まずは見るべき数字が見れている事が重要。
- redash:Make Your Company Data Driven | Redash
- シンプルで便利。
- アドホックなクエリ/単一のKPIウォッチ/簡易なダッシュボード
- EXCEL
- redashとの同期機能を活用。
- レポートとしてまとめたい時/複数のKPIを一気に並べてみたい時に使う
最近気になっていること
freee のデータ分析基盤の全容
発表資料
特徴:他のサービスとどこが違うのか
- データ基盤のありかたは事業・組織のあり方と相似する(コンウェイの法則より引用)
- データ基盤を扱う組織やロールが多岐に渡っている
- Engineer
- Business
- Analytics/Finance
- Marketing
- Sales
- Customer Support
- エンジニア(Engineers)
- 会計/人事労務など、サービス毎のアプリケーション
- Service DB/Redshift
- ElasticSearch/Kibana(開発やデバッグ用途)
- EMR/Spark(取引関係ネットワーク・プラットフォーム)
- FireBase(モバイル)
- Kissmetricsなど(グロースハック)
- JIRA
- スモールビジネスラボ
- 初期仮説検証・モデル開発・プロダクト開発
- 金融機関との連携
- 課金基盤・セキュリティなど
- SRE・ビジネス基盤
- 会計/人事労務など、サービス毎のアプリケーション
Bizの組織とデータ
- 分析・財務(Analytics/Finance)
- Service DB/Redshift:事業計画立案に必要なKPI・ユーザー定着のための仮設検証
- カスタマーサポート(Customer Support)
- Zendeskチケット:サポートの生産性向上、顧客満足度向上のための仮説検証
- オンラインマーケティング(Online Marketing)
- Google Analytics/BigQuery:広告最適化
- 販売(Sales)
- Salesforce:セールス生産性向上・セールスKPIの検証
- 分析・財務(Analytics/Finance)
freeeの分析基盤の特徴
freeeが利用しているクラウドサービス(の一部)
構成:アーキテクチャ
業務分野によって構成はそれぞれ異なる。業務別のサービス構成図は以下。
マーケティング
販売・サポート
エンジニア
ダッシュボード
- redashを全社で使っている。
- 元々内製ダッシュボードを利用していたが、redashにしてデータ利用が加速。
- 一方で問題も。
- ダッシュボード多すぎ問題
- “糞クエリ"をフォークして使う問題→"redash警察"による取締状況に
バッチ処理
- 日次
- rubyスクリプト(一部でdigdag/embulk)
- サービスDB等の取込/KPI集計
- JIRA/newrelic/Salesforce等の連携
- EMRスクリプト
- ETL周りにRedshift Spectrumを使いたい
- 毎時
- ストリーム処理
- fluentd
- 一部でAWS Lambda
辛み
- 事業展開のスピード感
- Salesforce/marketoとの連携
- Redshiftのパフォーマンスチューニング
- Redshift Spectrum、早く東京に来て欲しい
展望・チャレンジ
- スモールビジネスのバックオフィス業務を効率化
- ビジネスプラットフォームの構築
まとめ
mercariのデータ分析基盤
- 発表者:bokko(@cubicdaiya)氏
メルカリデータ基盤の紹介
- データ分析に関する役割分担
サーバーログ分析インフラ
- 各サーバのログをfluentdで収集・転送
- 用途に応じて各サービスやミドルウェアに投入
- BigQuery:分析用ログ格納
- Norikra:SQLによるストリーミング処理
- その他Kibana, KPI Reporting等
- Google BigQuery
- ダッシュボード
- Chartioを利用:Chartio: Cloud-based data exploration for all
- クラウド型のBIサービス
- 色々なデータソースからダッシュボードを作成
- Chartioを利用:Chartio: Cloud-based data exploration for all
- Gogole Spread Sheet/Google App Script
Norikra
- 数分のウインドウでSQLによる集計処理
ログ分析による可視化とアラート
- SQLによるストリーム処理
イベントベースログ分析インフラ
- 特徴
機械学習分析インフラ
- 技術スタック:Python, Django, scikit-learn, TensorFlow
- BigQuery上のデータを元にデモグラフィック推定、カテゴリ推定、ラベリング
- 色々な箇所から利用出来るようにAPIとして提供
- 去年暮れ位にチームが出来、本格的に稼働中
まとめ
さいごに
以上、データ分析基盤Night #2に関するレポートでした。この後今回の登壇者が一同に集まり、前もって募集していた質問を使ったQ&Aの時間も設けられていました。こうしてみると業務要件に対して実に様々なサービスや環境を連携させて処理を実現しているのだなぁという思いを強く感じます。そしてそれらのサービスをいかに効率良くスムーズに連携出来るのか…という部分もとても重要なポイントとなる事が分かりますね。1セッションあたり20分と時間としては比較的短く、もう少し踏み込んだ内容について聞いてみたい…!と思ったところで時間切れとなってしまうので、次回以降可能であればより長く、深掘りした形でお話が聞けると嬉しいかな、と思いました。
登壇者の皆様、イベント関係者の皆様、ありがとうございました!