Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
https://www.monotaro.com/
BigQueryを中心とした
大規模データ基盤開発
株式会社 MonotaRO
香川 和哉
https://www.monotaro.com/
自己紹介
香川 和哉 (Kazuya KAGAWA)
● 2016年 2月 MonotaRO 入社
● 前職では社員5人(内エンジニア2人)という零細企業でス
マホアプリからWebアプリまで担...
https://www.monotaro.com/
はなすこと
● MonotaROにあるデータ
● BigQueryを中心としたデータ基盤について紹介
● MonotaRO データ基盤のこれから
https://www.monotaro.com/
MonotaRO にあるデータ
● 商品
● 在庫
● 顧客
● サプライヤ
● 問い合わせ
● 受注
● 発注
● Webサイト(バスケットなど)
データの種類
● WMS(Warehous...
https://www.monotaro.com/
MonotaRO にあるデータ
● RDB
○ テーブル 1000 ~
○ 例:
■ 受注テーブル: 5000万行
■ 受注明細: 1億5000万行
■ 商品テーブル: 2000万行
データ量...
https://www.monotaro.com/
BigQuery
Export
Binlog
Connector
Raw
Data
DataMart EC Site
ApplicationCSV
JSON
Data Source ETL D...
https://www.monotaro.com/
ETL 紹介: Binlog Connector
旧DWHでのMySQLデータ同期における課題
● 依頼ベースでの同期テーブル追加
○ エンジニア: 割り込み作業発生
○ 依頼側: そもそも依...
https://www.monotaro.com/
ETL 紹介: Binlog Connector
Binlog
Connector
Log Table
New Masterログデータを既存のテーブルとマー
ジして新しいテーブルを作成
Old...
https://www.monotaro.com/
BigQuery
Export
Binlog
Connector
Raw
Data
DataMart EC Site
ApplicationCSV
JSON
Data Source ETL D...
https://www.monotaro.com/
DWH/DataMart
BigQuery
Raw
Data
Data
Model
Data
Mart
エンジニア
マーケターなど
ジョブ実行
ジョブ実行
GoogleAppsScript製
...
https://www.monotaro.com/
DWH/DataMart 紹介: GoogleSheet JobScheduler
https://www.monotaro.com/
BigQuery
Export
Binlog
Connector
Raw
Data
DataMart EC Site
ApplicationCSV
JSON
Data Source ETL D...
https://www.monotaro.com/
Application 紹介: アドホック分析, DataStudio
❏ マーケター
❏ マーチャンダイザー
❏ カスタマーサポート
❏ 物流
❏ . . .
レポート
作成
分析(SQL)...
https://www.monotaro.com/
Application 紹介: バッチ処理基盤
SQL SQL
● 実行時に処理用MySQLにデータ集約
● リソースを考慮しつつ処理を並列化
処理時間: 180分
Proccessed
Da...
https://www.monotaro.com/
● データの民主化
○ 安全に使える仕組み
○ メタデータ基盤
○ データマート構築
○ 勉強会の開催やサポート
● より高度なデータ分析・処理基盤
○ 機械学習基盤の高度化
○ リアルタイム...
https://www.monotaro.com/
MonotaRO をもっとデータドリブンな
企業にしたいエンジニア 募集中 !!
https://www.monotaro.com/
Upcoming SlideShare
Loading in …5
×

BigQueryを中心とした大規模データ基盤開発 - MonotaRO Tech Talk #6 (大阪梅田オフィスオープン記念)

372 views

Published on

BigQueryを中心とした大規模データ基盤開発 - MonotaRO Tech Talk #6 (大阪梅田オフィスオープン記念)
MonotaROで

Published in: Technology
  • Be the first to comment

BigQueryを中心とした大規模データ基盤開発 - MonotaRO Tech Talk #6 (大阪梅田オフィスオープン記念)

  1. 1. https://www.monotaro.com/ BigQueryを中心とした 大規模データ基盤開発 株式会社 MonotaRO 香川 和哉
  2. 2. https://www.monotaro.com/ 自己紹介 香川 和哉 (Kazuya KAGAWA) ● 2016年 2月 MonotaRO 入社 ● 前職では社員5人(内エンジニア2人)という零細企業でス マホアプリからWebアプリまで担当 ● MonotaROに入ってからはマーケティング基盤の運用し ながらデータ基盤を構築/運用 ● MonotaROはPythonの会社ですが のほうが好きです
  3. 3. https://www.monotaro.com/ はなすこと ● MonotaROにあるデータ ● BigQueryを中心としたデータ基盤について紹介 ● MonotaRO データ基盤のこれから
  4. 4. https://www.monotaro.com/ MonotaRO にあるデータ ● 商品 ● 在庫 ● 顧客 ● サプライヤ ● 問い合わせ ● 受注 ● 発注 ● Webサイト(バスケットなど) データの種類 ● WMS(WarehouseManagementSystem) ● プロモーション ○ メール, FAX, カタログ, チラシ ● Webサーバログ ● アプリログ ● GoogleAnalytics
  5. 5. https://www.monotaro.com/ MonotaRO にあるデータ ● RDB ○ テーブル 1000 ~ ○ 例: ■ 受注テーブル: 5000万行 ■ 受注明細: 1億5000万行 ■ 商品テーブル: 2000万行 データ量 ● Webサーバ ○ 1000 req/sec(ピーク時) ○ ログ 4000万件/日
  6. 6. https://www.monotaro.com/ BigQuery Export Binlog Connector Raw Data DataMart EC Site ApplicationCSV JSON Data Source ETL DWH/DataMart Application Kinesis Lambda Dataflow Cloud Storage Cloud DataprocBigQuery
  7. 7. https://www.monotaro.com/ ETL 紹介: Binlog Connector 旧DWHでのMySQLデータ同期における課題 ● 依頼ベースでの同期テーブル追加 ○ エンジニア: 割り込み作業発生 ○ 依頼側: そもそも依頼が面倒, リードタイムが大きくて諦めるケース も ● 差分更新だと物理削除に対応できない ○ 数億レコードあるようなテーブルは全件洗い替えでの更新が難しい ○ 差分データだけ入れ直す方式では対応できない ● 全件更新も差分更新も困難 ○ 更新日時が記録されていない ○ 更新されたデータの特定のために負荷の高いSQL実行しないといけ ない
  8. 8. https://www.monotaro.com/ ETL 紹介: Binlog Connector Binlog Connector Log Table New Masterログデータを既存のテーブルとマー ジして新しいテーブルを作成 Old Master JSON に変換 3 ~ 5 分程度 Binlog Stream 約 600テーブル を同期 JSON Line File JSON Line File Cloud Storage binlog_format = row binlog_image = full BigQuery
  9. 9. https://www.monotaro.com/ BigQuery Export Binlog Connector Raw Data DataMart EC Site ApplicationCSV JSON Data Source ETL DWH/DataMart Application Kinesis Lambda Dataflow Cloud Storage Cloud DataprocBigQuery
  10. 10. https://www.monotaro.com/ DWH/DataMart BigQuery Raw Data Data Model Data Mart エンジニア マーケターなど ジョブ実行 ジョブ実行 GoogleAppsScript製 専用ツール
  11. 11. https://www.monotaro.com/ DWH/DataMart 紹介: GoogleSheet JobScheduler
  12. 12. https://www.monotaro.com/ BigQuery Export Binlog Connector Raw Data DataMart EC Site ApplicationCSV JSON Data Source ETL DWH/DataMart Application Kinesis Lambda Dataflow Cloud Storage Cloud DataprocBigQuery
  13. 13. https://www.monotaro.com/ Application 紹介: アドホック分析, DataStudio ❏ マーケター ❏ マーチャンダイザー ❏ カスタマーサポート ❏ 物流 ❏ . . . レポート 作成 分析(SQL) データソース として利用 Slack でのサポート ハイコストクエリの監視
  14. 14. https://www.monotaro.com/ Application 紹介: バッチ処理基盤 SQL SQL ● 実行時に処理用MySQLにデータ集約 ● リソースを考慮しつつ処理を並列化 処理時間: 180分 Proccessed Data Log Table New MasterNew Master ● 実行時に新しいテーブルを作成 ● できうる限り並列で処理 処理時間: 15分 (1/12) Proccessed DataProccessed Data Preprocessing for Solr Indexing
  15. 15. https://www.monotaro.com/ ● データの民主化 ○ 安全に使える仕組み ○ メタデータ基盤 ○ データマート構築 ○ 勉強会の開催やサポート ● より高度なデータ分析・処理基盤 ○ 機械学習基盤の高度化 ○ リアルタイムデータ処理基盤 ● マーケティングプラットフォームの構築 ○ より早く、より最適化されたアクションにつなげる仕組み ● WMS(WarehouseManagementSystem) など連携システムの拡大 MonotaRO データ基盤のこれから
  16. 16. https://www.monotaro.com/ MonotaRO をもっとデータドリブンな 企業にしたいエンジニア 募集中 !!
  17. 17. https://www.monotaro.com/

×
Save this presentationTap To Close