Your SlideShare is downloading. ×
Data Science on Hadoop
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Introducing the official SlideShare app

Stunning, full-screen experience for iPhone and Android

Text the download link to your phone

Standard text messaging rates apply

Data Science on Hadoop

131
views

Published on

Hadoopにおけるデータサイエンス

Hadoopにおけるデータサイエンス

Published in: Technology

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
131
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
0
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hadoopにおけるデータサイエンス Yifeng  Jiang March  10,  2015  
  • 2. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 自己紹介 蒋  逸峰  (Yifeng  Jiang) •  Solutions  Engineer  @  Hortonworks  Japan •  HBase  Book  Author •  ⽇日本に来て10年年経ちました… •  週末の趣味は登⼭山 •  @uprush
  • 3. © Hortonworks Inc. 2011 – 2015. All Rights Reserved アジェンダ •  データサイエンスとは? •  機械学習の概要 •  教師あり学習モデルの詳細 •  Hadoopにおけるデータサイエンス
  • 4. © Hortonworks Inc. 2011 – 2015. All Rights Reserved データサイエンスとは?
  • 5. © Hortonworks Inc. 2011 – 2015. All Rights Reserved データサイエンスとは? データの科学的探索索から意味や知⾒見見を抽出することであり、 ソフトウェアシステムを構築し、そのような知⾒見見をビジネス に関連して活⽤用すること ... 発見の技術 ... そしてオペレーションの科学
  • 6. © Hortonworks Inc. 2011 – 2015. All Rights Reserved データサイエンスの分類 予測をする 予測分析 洞洞察を得る 記述的分析 クラスタニング バスケット解析 異常値検出 分類 回帰 レコメンデーション
  • 7. © Hortonworks Inc. 2011 – 2015. All Rights Reserved データサイエンスはビジネス・インテリジェンス(BI)の 次の⾃自然なステップ 価値 改良良 抽出 強化 データサイエンス ダッシュボード レポート スコアカード バスケット解析 異異常値検出 クラスタリング レコメンデーション 回帰 分類 Business  Intelligence:  測定  &  カウント;  簡単な分析 Data  Science:  発⾒見見  &  予測;  複雑な分析;  “データ製品” 発⾒見見 予測
  • 8. © Hortonworks Inc. 2011 – 2015. All Rights Reserved なぜデータサイエンスは必要なのか? ¥ •  サプライヤ統合 •  サプライチェーンと物流流 •  組⽴立立ラインの品質保証   •  プロアクティブメンテナンス •  クラウドソースの品質保証 •  新規⼝口座のリスク審査 •  不不正防⽌止 •  取引リスク •  預⾦金金スプレッドの最⼤大化 •  保険引受 •  ローン処理理の⾼高速化 •  通話詳細レコード(CDR) •  インフラ投資 •  次に購⼊入する製品(NPTB) •  リアルタイムでの帯域幅割 り当て •  新製品開発 •  顧客の  360  度度ビュー •  ブランドに対する市場⼼心理理 の分析 •  プロモーションのローカラ イズとパーソナライズ •  ウェブサイトの最適化 •  店舗レイアウトの最適化 ⾦金金融業界 ⼩小売業界 通信業界 製造業界 医療療業界 電⼒力力、⽯石油 ガス業界 公共部⾨門 •  臨臨床実験でのゲノムデータの 活⽤用 •  患者のバイタルサインの監視 •  再⼊入院率率率の低減 •  医療療研究データの保存 •  薬剤実験協⼒力力者の募集 •  スマートメーターストリー ム分析 •  油井減少曲線の減速 •  リース⼊入札の最適化 •  コンプライアンスレポート •  プロアクティブな機器修理理 •  地震画像処理理 •  世論論の分析 •  重要なネットワークの保護 •  不不正や浪浪費の防⽌止 •  インフラ修復復をクラウド ソースにより報告 •  記録の開⽰示請求の履履⾏行行 データサイエンスは、 これらすべてのユース ケースにメリットを与 えます。
  • 9. © Hortonworks Inc. 2011 – 2015. All Rights Reserved ウェブの巨人は、ビッグデータへのデータサイエンスを適 用し、データ製品のROIを証明した Amazon: 35%の商品売上は 商品のレコメンデーション 経由 Netflix: 75%のビデオスト リーミングはレコメン デーションの成果 広告CTRの予測
  • 10. © Hortonworks Inc. 2011 – 2015. All Rights Reserved データサイエンスとは反復復的なもの… 可視化、   完全な理理解 仮定から   モデル作成 測定/評価 データ     取得 データの     クリーニング 質問を     公式化 配置
  • 11. © Hortonworks Inc. 2011 – 2015. All Rights Reserved データ 探索索 フィーチャー エンジニアリング ⽣生データ変更更 データサイエンスとは、様々な知識識を組合せたもの  ... データサイエンスは、 3つの主要グループ と、それらをサポート する機能から成り⽴立立っ ています。  データサイエンティス トは、技術的機能から 分析的機能まで、これ らすべての知識識に習熟 している必要がありま す。 信号処理理 OCR 変換 正常化 集計 簡易易統計 データ モデリング 頻繁なアイテム セット 異異常検出 クラスタリング 協調フィルタ 回帰 分類 教師あり学習 教師なし学習 報告可視化データ品質 技術的 分析的 次元縮⼩小 機能 選択 情報理理論論 ⾃自然⾔言語処理理 (  NLP  ) 前処理理
  • 12. © Hortonworks Inc. 2011 – 2015. All Rights Reserved データサイエンスにおける専門分野 データエンジニア •  データエンジニアリング(品質、   ETL  、パイプラインなど…) •  コンピュータサイエンス •  プログラミング(Java、  Scala、   Python  など…) 応⽤用科学者 •  現実世界の問題の解決に取り組む研究 科学者 •  機械学習、⾼高度度統計、応⽤用数学、 NLP、可視化。   ビジネスアナリスト •  ビジネスや特定分野の専⾨門知識識 •  SQL、Excel、可視化ツール ビッグデータエンジニア •  Hadoop、  PIG、  HIVE、カスケーディン グ、SOLR  など •  ⼤大規模データセットに関する統計と機械 学習
  • 13. © Hortonworks Inc. 2011 – 2015. All Rights Reserved データサイエンスにおける専⾨門分野 データエンジニア •  データエンジニアリング(品質、 ETL など…) •  コンピュータサイエンス •  コーディング(Java、 Scala、 Python など…) 応用科学者 •  現実世界の問題の解決に取り組む研究 科学者 •  機械学習、高度統計、応用数学、NLP、 可視化。 ビジネスアナリスト •  可視化 •  ビジネスや特定分野の専門知識 ビッグデータエンジニア •  Hadoop、 PIG、 HIVE、カスケーディン グ、SOLR など •  大規模データセットに関する統計と機械 学習ユニコーン!
  • 14. © Hortonworks Inc. 2011 – 2015. All Rights Reserved データサイエンティストのスキルの連続体 役割 機能 得意分野 応用科学者 •  データ内の信号を発見 •  モデルの構築・調整 •  アルゴリズムの選択 •  統計、機械学習 •  テキスト処理、 NLP •  R、 MATLAB、 SAS、 SQL •  スクリプティング •  可視化 / わかりやすい説明 データエンジニア •  製品グレードのデータパイ プラインの設計と実行 •  ソフトウェアエンジニアリン グに関する基準の順守 •  データアーキテクチャの設計・実行 •  「生産品質」のコード作成 •  Hadoop、 PIG/HIVE、 Map-Reduce、運用管理 •  Java、 Python、 Perl、 SQL、 C++、 •  NoSQL ( Hbase、 Cassandra、 Mongo ) ソフトウェア   エンジニア リサーチ サイエンティスト データ エンジニア データ サイエンティスト 応⽤用 科学者
  • 15. © Hortonworks Inc. 2011 – 2015. All Rights Reserved データサイエンティストのスキルの連続体 ソフトウェア   エンジニア リサーチ サイエンティスト データ エンジニア データ サイエンティスト 応⽤用 科学者 こうした⼈人材は⼆二⼈人⼀一組で採⽤用する
  • 16. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 機会学習の概要
  • 17. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 機械学習とは? •  機械学習  とは、データから学習し、明⽰示的 なプログラムがなくても作動するコン ピュータを実現させる科学 •  機械学習とは、データから学習が可能なシ ステムの構築と研究を指す。 •  機械学習の核となるのは表現と⼀一般化への 取組みであり、システムが未知のデータイ ンスタンス上で良良好に機能し、未知のイベ ントを予測できるようになる。 •  機械学習には⾮非常に多様なタスクや、成功 しているアプリケーションがある。     WALL-‐‑‒E  は  700  年年間⼈人間の ものを収集するという経験を 地球上で積んだ後、感情を持 つことを学んだ機械のこと
  • 18. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 教師あり学習 •  教師あり学習:トレーニ ングデータ(機械学習ア ルゴリズムに対して表現 されるデータ)にはラベ ルが付けられている。こ の場合、与えられたラベ ルに基づく新データの分 類が機械のタスクになる。
  • 19. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 教師なし学習 教師なし学習:機械ア ルゴリズムにはトレー ニングデータが全く与 えられておらず、新 データに関する情報を 発⾒見見しなければならな い。
  • 20. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 六六つの機械学習タスク 教師なしのタスク •  クラスタリング •  異異常値検出 •  バスケット解析 •  レコメンデーション   教師ありのタスク •  分類 •  回帰  
  • 21. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 教師ありの例例:  検索索結果の広告CTR Rank  =  bid  *  CTR 各広告のCTR  を予測し、 広告の配置を決定 •  CTRの履履歴 •  キーワードマッチ •  Etc…
  • 22. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 教師なしの例例:製品の推奨 “嗜好の予測”: Collaborative  Filtering 似通った“好み”の⼈人間を特定
  • 23. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 教師あり学習モデルの詳細
  • 24. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Model 予測 教師あり学習ワークフロー フィーチャー の抽出 モデル トレー ニング モデル ⽣生データ (Train) ラベル 新規 データ フィーチャー の抽出 ラベル トレーニング 予測 評価 モデル Feature  Matrix Feature  Vector
  • 25. © Hortonworks Inc. 2011 – 2015. All Rights Reserved クローズアップ:  フィーチャーの抽出 ⽣生データ ID Total$ Age City Target 101 200 25 SF 102 350 35 LA 103 25 15 LA … … … … Feature MatrixFeature Engineering Raw Transforms Signal Processing OCR Geo-spatial Normalize Transform/ aggregate Sample Dimensionality reduction Feature Selection NLP Mutual Information TB, PB フィーチャー の抽出 MB, GB
  • 26. © Hortonworks Inc. 2011 – 2015. All Rights Reserved フィーチャーマトリックスのデータ構造 各行は1つのデータオブジェクト 各列は1つのフィーチャー(あるいは変数) 最後の列は時には特別な意味を持つ
  • 27. © Hortonworks Inc. 2011 – 2015. All Rights Reserved サンプル: 売上のトランザクションデータ Shopper ID TX ID Apple Banana Honey Milk Bread 101 TX 1 4 5 1 1 0 102 TX 2 0 2 0 1 1 103 TX 3 0 0 0 0 2 101 TX 4 1 1 0 0 0 Apple Banana Honey Milk Bread Price $2 $1 $5 $3 $4 Age City Size of household 101 25 SF 4 102 35 LA 3
  • 28. © Hortonworks Inc. 2011 – 2015. All Rights Reserved サンプル: 顧客フィーチャーマトリックス 正しいフィーチャーを決めるタスクは容易ではない Shopper ID # Tx Total $ Age City 101 10 $200 25 SF 102 15 $350 35 LA 103 2 $25 15 LA … 25 $5 15 NYC
  • 29. © Hortonworks Inc. 2011 – 2015. All Rights Reserved クラスタニング: 自然グループの検出 クラスタ番号 ビジネスのユースケース -  顧客セグメンテーション -  ニュース記事の分類 ID Total$ Age City 101 $200 25 SF 2 102 $350 35 LA 2 103 $25 15 LA 1 … … … … 1 1 2 2 2
  • 30. © Hortonworks Inc. 2011 – 2015. All Rights Reserved フィーチャーマトリックスはどれくらい⼤大きいのか? 例例: •  10M  ⾏行行,  100  フィーチャー •  各フィーチャー=  8  bytes  (double) •  メモリーの合計  =  ~∼7.5GB
  • 31. © Hortonworks Inc. 2011 – 2015. All Rights Reserved クローズアップ:  モデルのトレーニング モデルの     トレーニング トレーニン グセット モデル モデル の評価 メトリック l  フィーチャーマトリックスはランダムに“トレーニング(70%)とバリデーション (30%)セットに分けられる l  モデルはトレーニングセットを使い作成され、エラー検出はバリデーションセット により計算される l  繰り返し処理理またはグリッドサーチは最適なアルゴリズムとパラメーターを選定 •  最適なモデル精度度が得られる •  過度度な学習を防ぐ バリデーショ ンセット
  • 32. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 分類器のパフォーマンスを評価 •  “confusion  matrix”  の決定 •  計算メトリックス:精密さ、再現率率率、精度度と 特異異性 実際 Yes No 予測 Yes True positives False positives No False negatives True negatives Confusion Matrix confusion  matrixを⽤用いてこれらの数値を計算が可能   精密さ  =  %  of  positive  predicts  that  are  correct 再現率率率  =  %  of  positive  instances  that  were  predicts  as  posit F1  スコア  =  a  measure  of  testʼ’s  accuracy,  combining  precisi 精度度=  %  of  correct  classifications
  • 33. © Hortonworks Inc. 2011 – 2015. All Rights Reserved レコメンデーション–  ハイレベルフロー   フィーチャー抽 出 ALS ユーザー/商 品 マトリックス 生データ レコメンデーショ ン MySQL / HBase ウェブサーバー Hadoopクラスタ
  • 34. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hadoopとデータサイエンス
  • 35. © Hortonworks Inc. 2011 – 2015. All Rights Reserved YARN と Data Lake がサイエンティストに進化をも たらしました 2013  年年秋、  YARN  は、主に単⼀一ワークロードのサイロ化システムであった  Hadoop  を、複 数のワークロードを同時に実⾏行行できるマルチテナントシステムへと進化させました YARN  が  Data  Lake  という概念念を可能にしたのです •  データをすべて⽣生のフォーマットで格納する能⼒力力 •  サイロ化されたデータの統合 •  Data  Lake  の「価値」は、データ資産が移⾏行行してくるにつれ⾮非線形的に増加します •  Hadoop  は、今やストレージと処理理能⼒力力との共有資産といえます… この進歩により、データサイエンティストは前もって資⾦金金調達⼿手配を⾏行行わなく ても、アイディアを迅速にプロトタイプ化することが可能になりました 今すぐ、データにも処理理能⼒力力にもアクセス可能
  • 36. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 新しいデータ が必要です やっと収集 が始まった えっと・・・ それって何か 良良いことなの? 開始 6  ヶ⽉月 9  ヶ⽉月 “Schema  change”  プロジェクト HDFSのフォルダ に⼊入れておこう えっと・・・ それって何か 良良いことなの? 3ヶ⽉月 ⾃自分のモデルって すごく良良いかも! “Schema  on  read”  はデータ改⾰革を加速
  • 37. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hadoopは前処理理に最適 結合 正常化 OCR サンプル 集計 ⽣生データ フィーチャー マトリックス NLP Hadoop  クラスタ 変換 機械学習に⼊入⼒力力
  • 38. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hadoop  は前処理理として理理想的 Feature   Engineering Raw   Transforms Signal   Processing OCR Geo-‐‑‒spatial Normalize Transform/ aggregate Sample Dimensionalit y  reduction Feature   Selection NLP Mutual   Information データモデリング Frequent   Itemset Anomaly   Detection Clustering Collaborative  Filter Regression Classification Supervised   Learning Unsupervised   Learning 前処理理 より良良いフィーチャーマトリックス •  より多くの、かつ新しい機能 •  より多くのインスタンス •  より多いデータでも⾼高速化
  • 39. © Hortonworks Inc. 2011 – 2015. All Rights Reserved データサイエンスツールとHadoop •  既存のツールの使⽤用:R,  Python  Scikit-‐‑‒learn  or  SASな ど •  Mahout:⼀一部のケースにおいては有効(ただし、将来 は…) •  Spark  ML-‐‑‒Lib:⽐比較的新しいソリューションにも関わらず 推奨
  • 40. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hadoopによる教師ありモデルのトレーニング •  通常  “トレーニングセット”  はそれほど⼤大きくはない •  この場合、通常ハイメモリーノードでのトレーニング •  既存のツールの使⽤用:  R,  Python  Scikit-‐‑‒learn  or  SAS •  メモリに収まらない⾮非常に⼤大きなトレーニングセットの場合 •  ⼀一部のケースにおいてはMahout  は有効  (ただし、将来は…) •  Spark  ML-‐‑‒Libは  ⽐比較的新しいソリューションにも関わらず推奨 •  Hadoopはパラメーターチューニングにおいても有効 •  Grid-‐‑‒search:  モデルのパラメーターの最適化
  • 41. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hadoopによる教師ありモデルのスコアリング •  ⼀一つのインスタンスのスコアリングは通常は早い •  ⼀一部のケースでは、⼤大量量のデータポイントに対して頻繁に バッチ  リスコアリングが必要(例例:20Mカスタマー) •  PMML  スコアリングエンジンを使⽤用  (e.g.,  Zementis,  Pattern) •  Python,  R,  Java,  などによるカスタム実装
  • 42. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hadoopによる教師なし学習 •  クラスタリング •  多くのクラスタリングアルゴリズムは、並列列化されている •  Distributed  K-‐‑‒means  は⼀一般的であり、Spark  ML-‐‑‒Lib  &    Mahout で利利⽤用が可能 •  Collaborative  Filtering •  Alternating  Least  Squares  (ALS)  –  ⾮非常に並列列化 •  Mahout,  Spark  ML-‐‑‒Lib,  などにALSが実装 •  商品別あるいは顧客別Collaborative  FilteringがMahoutで利利⽤用可能
  • 43. © Hortonworks Inc. 2011 – 2015. All Rights Reserved デプロイの考え⽅方:  HadoopとR •  Rと関連したパッケージはそれぞれのノー ドにインストール •  ユーザーはハイメモリーノードでRを実⾏行行 •  Rstudio  または  Rstudio  サーバー •  RCloud   •  Hadoopへのインターフェース •  RMR:  map-‐‑‒reduce  を  Rから実⾏行行 •  RHDFS:  RからHDFSファイルをアクセス •  RHIVE:  Rからhive  クエリを実⾏行行 •  RHBase:  RからHbaseにアクセス •  RODBC Rstudio, Rcloud Rhadoop RHive R . . . . . . . R YARN R high- memory node
  • 44. © Hortonworks Inc. 2011 – 2015. All Rights Reserved デプロイの考え⽅方:  Hadoop  と  Python •  それぞれのノードおよびハイメモリーノー ドにPythonおよび関連パッケージをイン ストール •  ユーザーはPythonをハイメモリーノード で実⾏行行 •  卓越したUIのIpythonノートブック •  Hadoopへのインターフェース •  PyDoop:  PythonからHDFSへのアクセス •  Hadoop  ストリーミングによるMap-‐‑‒reduce   ジョブ   •  PIGからPython  UDFs  を利利⽤用 IPython Pandas, Scikit-learn Numpy, Scipy Matplotlib PyDoop Python Scikit-learn Pandas . . . . . . . Python Scikit-learn Pandas YARN Python high- memory node
  • 45. © Hortonworks Inc. 2011 – 2015. All Rights Reserved デプロイの考え⽅方:  HadoopとSpark •  ユーザーはEdge  Nodeから直接Spark  (あ るいは  ML-‐‑‒Lib)  ジョブ  を実⾏行行 •  Scala  API  または  Java  API •  Python  API  でも良良し •  SparkはYARN  ジョブとして直接実⾏行行 •  他に⼀一切切インストールする必要なし Spark ML-LibEdge node Spark . . . . . . . Spark YARN
  • 46. © Hortonworks Inc. 2011 – 2015. All Rights Reserved まとめ
  • 47. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hadoopにおけるデータサイエンス •  データサイエンスはHadoopクラスタの重要機能の1つ •  データサイエンティストは採⽤用が難しい、正しいスキル を持つチームを採⽤用 •  HadoopやYARNがデータサイエンスの最適な環境を作 り上げた •  Hadoopにはデータサイエンスを⾏行行うためのツールがた くさんある
  • 48. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Thank You! Yifeng Jiang – Solutions Engineer