Spark MLlibではじめるスケーラブルな機械学習

2. 2Copyright © 2014 NTT DATA Corporation 自己紹介  所属/氏名  NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス  猿田浩輔（さるたこうすけ）  何をしている人?  OSSを使ったR&Dやシステム開発、テクニカルサポートに携わっています  6年ほど大規模分散処理基盤「Hadoop」関連のR&Dやシステム開発に関わってきました  近年はHadoopから派生して、インメモリ分散処理基盤「Spark」にも携わっています  著作物(共著)  Hadoop徹底入門(初版/第2版) - 翔泳社  HADOOP HACKS - オライリージャパン

4. 4Copyright © 2014 NTT DATA Corporation  Spark+MLlibを語る上で外せない話題 大量データを扱う上での従来の機械学習ライブラリの課題と、分散処理基盤「Hadoop」が切り開いた道 Hadoopが苦手とする処理とHadoopによる機械学習  Spark+MLlibが解決した従来の機械学習ライブラリの課題  Sparkやその周辺の、機械学習の活用を加速するしくみ本日お話しすること

5. 5Copyright © 2014 NTT DATA Corporation  Apache HadoopやApache Sparkの詳細  Apache Hadoop及びApache Sparkの内部挙動や詳細な機能/仕組みについての解説は本筋からそれるため、最低限の説明にとどめます。  Spark+MLlibのセットアップ方法  Sparkの公式ドキュメントにセットアップ方法が記載されています。 - https://spark.apache.org/docs/latest/  幾つか動作モードがありますが、ライブラリの使用感を確かめるだけならば、クラスタをセットアップしなくても手元のマシンでSparkの動作を確認できる「ローカルモード」がお手軽です。  MLlibの個別の学習ライブラリの使い方  Spark Summit 2013で開催されたトレーニング教材や、AMP Campで用いられた教材が参考になります。 - http://spark-summit.org/2013/exercises/ - http://ampcamp.berkeley.edu/5/exercises/ 本日お話ししないこと

7. 7Copyright © 2014 NTT DATA Corporation 従来の機械学習ライブラリの大量データの扱いに関する課題機械学習で大量データを扱いたくなる場合がある • モデルの精度を高めたい  計算のもとになるデータ(標本)が大量にあれば、より事実を正しく表したモデル(精度の高いモデル)が得られる • 扱っているデータが爆発的に増え続ける性質を持つ  全商品/全ユーザの情報をもとに協調フィルタリングを活用してレコメンデーションしたい場合など。商品データやユーザデータは増え続ける • などなど・・・

8. 8Copyright © 2014 NTT DATA Corporation 従来の機械学習ライブラリの大量データの扱いに関する課題 • 計算量やIO量が増えるが、現実的な時間で処理を完了させる必要がある • 大量のデータをどこに蓄積しておくか機械学習で大量データを扱いたくなる場合がある • モデルの精度を高めたい  計算のもとになるデータ(標本)が大量にあれば、より事実を正しく表したモデル(精度の高いモデル)が得られる • 扱っているデータが爆発的に増え続ける性質を持つ  全商品/全ユーザの情報をもとに協調フィルタリングを活用してレコメンデーションしたい場合など。商品データやユーザデータは増え続ける • などなど・・・

9. 9Copyright © 2014 NTT DATA Corporation • 機械学習は入力データをもとに計算した結果、事実を表すモデルを作る • 計算のもとになるデータが大量にあれば、より事実を正しく説明した結果(精度の高い結果)が得られる従来の機械学習ライブラリの大量データの扱いに関する課題機械学習において大量のデータを扱う際の悩みの種 • 計算量やIO量が増えるが、現実的な時間で処理を完了させる必要がある • データを蓄積しておく場所が必要になる機械学習の一般的なセオリー• 従来の機械学習ライブラリは、単一マシンでの動作を前提としていたものが多く、処理能力やデータの格納容量も単一マシンが持つの能力の範囲に制約を受けた • 特別な製品を用いることで解決できた道もあるが、やりたいことに対してコストパフォーマンスが良くない場合が多かった • 機械学習に限らず、増え続けるデータを処理する業務などでも同様の問題に直面した特別な機器を用いず、リーズナブルにスケールアウトが可能な分散処理基盤が必要

10. 10Copyright © 2014 NTT DATA Corporation • 機械学習は入力データをもとに計算した結果、事実を表すモデルを作る • 計算のもとになるデータが大量にあれば、より事実を正しく説明した結果(精度の高い結果)が得られる従来の機械学習ライブラリの大量データの扱いに関する課題機械学習において大量のデータを扱う際の悩みの種 • 計算量やIO量が増えるが、現実的な時間で処理を完了させる必要がある • データを蓄積しておく場所が必要になる機械学習の一般的なセオリー• 従来の機械学習ライブラリは、単一マシンでの動作を前提としていたものが多く、処理能力やデータの格納容量も単一マシンが持つの能力の範囲に制約を受けた • 特別な製品を用いることで解決できた道もあるが、やりたいことに対してコストパフォーマンスが良くない場合が多かった • 機械学習に限らず、増え続けるデータを処理する業務などでも同様の問題に直面した Apache Hadoopが、分散処理のコモディティ化の道を切り開いた特別な機器を用いず、リーズナブルにスケールアウトが可能な分散処理基盤が必要

12. 12Copyright © 2014 NTT DATA Corporation  オープンソースの大規模分散処理基盤 • Googleで利用されているソフトウェアのオープンソース実装(GFS, MapReduce)  Yahoo ResearchのDoug Cutting氏(現 Cloudera社)が Java で開発  特別な機器を用いず、コモディティなサーバ機器を複数束ねてクラスタを形成し、並列分散処理が可能  大量のサーバを用いても現実的な運用が可能  分散処理に関わる面倒な制御は基盤が面倒を見てくれる  データの大きさ故にためられなかったり、現実的な時間で処理しきることが従来のITアーキテクチャでは難しかった、もしくは高コストでしか実現できなかったデータ活用が可能となる』 Apache Hadoopとは？

13. 13Copyright © 2014 NTT DATA Corporation Hadoop MapReduceHDFS HDFSとHadoop MapReduce コモディティなサーバを大量に使用、故障発生が前提の設計データの多重化で可用性を担保するブロックサイズが大きく(64MB)、巨大なデータを高スループットで読み書きするのに向いている HDFSクライアント SW SW SW ファイルをブロックに分割して分散配置コピーをＲａｃｋの内外に多重作成して冗長化（３つ） DataNodes Rack SHUFFLE MAP REDUCE 大規模分散処理向けフレームワーク HDFSと連携し、ディスク上のデータ処理のスループットを最大化バッチ処理向けのフレームワーク NameNode

14. 14Copyright © 2014 NTT DATA Corporation Apache Mahoutの登場 • Hadoop MapReduceを分散処理エンジンに据えたエコシステムが形成されるようになった • 機械学習ライブラリ「Apache Mahout」はエコシステムのひとつ Hadoop Map Reduce HDFS分散ファイルシステム分散処理フレームワーク Mahout/Hive/Pig... 高レベルライブラリ/ツール

15. 15Copyright © 2014 NTT DATA Corporation Apache Mahoutの登場 • Hadoop MapReduceを分散処理エンジンに据えたエコシステムが形成されるようになった • 機械学習ライブラリ「Apache Mahout」はエコシステムのひとつ Hadoop Map Reduce HDFS分散ファイルシステム分散処理フレームワーク Mahout/Hive/Pig... 高レベルライブラリ/ツール • HadoopとMahoutの登場により、大量のデータを用いたスケーラブルな機械学習が、リーズナブルに実現可能になった • 一方で、MapReduceを前提とすると、不得意となる問題領域が存在することが分かってきた

19. 19Copyright © 2014 NTT DATA Corporation KMeansはMapReduceでどのように処理されるか M R Map処理 Reduce処理ジョブ個々のMapReduceジョブでは特徴空間の点同士の距離計算や重心計算が、反復1 回分行われる  MahoutによるKMeansがどのようなMapReduceジョブに展開されるのか観察する R HDFS 学習用データ

20. 20Copyright © 2014 NTT DATA Corporation KMeansはMapReduceでどのように処理されるか M R Map処理 Reduce処理ジョブ個々のMapReduceジョブでは特徴空間の点同士の距離計算や重心計算が、反復1 回分行われる  MahoutによるKMeansがどのようなMapReduceジョブに展開されるのか観察する R HDFS 学習用データジョブ1つを実行するたびに、計算リソースの確保なやスケジューリングが発生する

21. 21Copyright © 2014 NTT DATA Corporation KMeansはMapReduceでどのように処理されるか M R Map処理 Reduce処理ジョブ個々のMapReduceジョブでは特徴空間の点同士の距離計算や重心計算が、反復1 回分行われる  MahoutによるKMeansがどのようなMapReduceジョブに展開されるのか観察する R HDFS 学習用データジョブ1つを実行するたびに、計算リソースの確保なやスケジューリングが発生するジョブごとに計算結果を書き出すモデルデータ1

22. 22Copyright © 2014 NTT DATA Corporation KMeansはMapReduceでどのように処理されるか M R  MahoutによるKMeansがどのようなMapReduceジョブに展開されるのか観察する M R Map処理 Reduce処理ジョブ HDFS 個々のMapReduceジョブでは特徴空間の点同士の距離計算や重心計算が、反復1 回分行われる学習用データジョブ1つを実行するたびに、計算リソースの確保なやスケジューリングが発生するモデルデータ1 モデルデータ1 学習用データ 2回目以降の反復では、計算過程のモデルデータと学習用データをHDFSから読み出す

23. 23Copyright © 2014 NTT DATA Corporation KMeansはMapReduceでどのように処理されるか M R 結果が収束するまで、反復の数だけジョブが実行される  MahoutによるKMeansがどのようなMapReduceジョブに展開されるのか観察する M R Map処理 Reduce処理ジョブ HDFS 個々のMapReduceジョブでは特徴空間の点同士の距離計算や重心計算が、反復1 回分行われる学習用データジョブ1つを実行するたびに、計算リソースの確保なやスケジューリングが発生するモデルデータ1 反復のたびに、精度がよくなったモデルが出力されるモデルデータ1 学習用データ 2回目以降の反復では、計算過程のモデルデータと学習用データをHDFSから読み出すモデルデータ2

24. 24Copyright © 2014 NTT DATA Corporation  MahoutによるKMeansがどのようなMapReduceジョブに展開されるのか観察する KMeansはMapReduceでどのように処理されるか M RM R Map処理 Reduce処理ジョブ HDFS データ M R 結果が収束するまで、反復の数だけジョブが実行される個々のMapReduceジョブでは点同士の距離計算や重心計算が、反復1回分行われるジョブ1つを実行するたびに、計算リソースのアロケーション(コンテナの確保など)が発生するジョブ間はHDFSを介してデータを受け渡す KMeansの実行プロセスから MapReduce+Mahoutのレイテンシが大きい理由を整理すると・・・  複数回の反復が、MapReduceの多段のジョブで構成され、個々のジョブの起動に関わるオーバーヘッドが大きい  反復のたびにHDFSへのアクセスが発生する。 Hadoop MapReduceは大規模なデータに対して、個々のジョブのスループットは最大化されるが、ジョブが多段になった際の全体のレイテンシが顕著になる

25. 25Copyright © 2014 NTT DATA Corporation  MahoutによるKMeansがどのようなMapReduceジョブに展開されるのか観察する KMeansはMapReduceでどのように処理されるか M RM R Map処理 Reduce処理ジョブ HDFS データ M R 結果が収束するまで、反復の数だけジョブが実行される個々のMapReduceジョブでは点同士の距離計算や重心計算が、反復1回分行われるジョブ1つを実行するたびに、計算リソースのアロケーション(コンテナの確保など)が発生するジョブ間はHDFSを介してデータを受け渡す KMeansの実行プロセスから MapReduce+Mahoutのレイテンシが大きい理由を整理すると・・・  複数回の反復が、MapReduceの多段のジョブで構成され、個々のジョブの起動に関わるオーバーヘッドが大きい  反復のたびにHDFSへのアクセスが発生する。 Hadoop MapReduceは大規模なデータに対して、個々のジョブのスループットは最大化されるが、ジョブが多段になった際の全体のレイテンシが顕著になる Apache Sparkがスループットとレイテンシの両立にアプローチ

27. 27Copyright © 2014 NTT DATA Corporation  Hadoopが苦手としていた、スループットとレイテンシの両立が必要な問題領域にアプローチするために開発されたOSSのインメモリ分散処理基盤  Hadoop同様、大量のコモディティサーバを束ねて分散処理を行う  UC Barkeleyに所属していたMatei Zaharia(現Databricks CTO)が Scalaで開発  RDDと呼ばれるフォールトトレラント性を考慮した分散コレクションに対し、 mapやfilter、reduceなどの典型的なデータ変換操作を繰り返して目的の結果を得る処理モデル  Hadoopと異なり、MapReduceの処理パラダイムの制約を受けない Apache Sparkとは? 最新安定バージョンは1.1.1。12月中には1.2.0がリリースされる見込み

28. 28Copyright © 2014 NTT DATA Corporation Map Reduce Spark HDFS YARN  HDFS上をストレージとして活用できる。大きなデータを高スループットで並列に読み書きできる  Hadoopの分散リソース管理基盤「YARN」上で動作可能  現在のHadoopは従来の分散処理フレームワークからリソース管理基盤「YARN」を切り出し、様々な分散処理フレームワークのための汎用的かつスケーラブルな分散処理基盤になっている Sparkのスケーラビリティや高スループットを達成する仕組みはHadoopの上に成り立つ従来から処理フレームワークの層とリソース管理の層を分離した YARN上で動作することで、Hadoop が持つスケーラビリティ/高スループットの恩恵を受けられる

29. 29Copyright © 2014 NTT DATA Corporation Hadoop MapReduceとSparkの処理の流れの違い M RM R Map処理 Reduce処理 HDFSに書き出し HDFSから読み出し  従来のHadoopではMapReduceの単位が1つのジョブ。複雑な処理はジョブを多段構成にする RDD RDD RDD データ変換（フィルター、フォーマット変換など）  SparkではRDD（Resilient Distributed Dataset）の変換チェインで複雑な処理でも1つのジョブで定義できるジョブフォールトトレラントな分散コレクション「RDD」が基本のデータ構造 HDFSに書き出し HDFSから読み出し何度も読み込むデータはキャッシュしておくことで、都度発生する計算量やIO量を削減できる M R RDD RDD RDD RDD

30. 30Copyright © 2014 NTT DATA Corporation Sparkのエコシステムのひとつ「MLlib」 • Sparkの目標のひとつはコアとなる分散処理エンジンを中心に据え、それを活用するためのライブラリを充実させること • 機械学習ライブラリ「MLlib」はそのひとつ Apache Spark Core (分散処理エンジン) Spark SQL Spark Streaming MLlib GraphX Sparkアプリ内で SQL/HQLを利用できるストリーム処理をマイクロバッチ方式で実現 Sparkアプリ内で機械学習を利用できる Sparkアプリ内でグラフ処理を利用できる

31. 31Copyright © 2014 NTT DATA Corporation  プログラミングインターフェイス  Scala/Java/Pythonでプログラミング可能  ポピュラーな機械学習アルゴリズム  分類（SVM、ロジスティック回帰、ナイーブベイズ、デシジョンツリー)  線形回帰(最小二乗法/Lasso/Ridge)  協調フィルタリング(ALS)  クラスタリング(KMeans)  次元削減処理  SVD(特異値分解)  PVA(主成分分析)  前処理用のライブラリ  TF-IDF  カイ二乗検定  共分散行列計算  サンプリング  テスト用のランダムなデータ生成 MLlibが提供する道具の一例

32. 32Copyright © 2014 NTT DATA Corporation  プログラミングインターフェイス  Scala/Java/Pythonでプログラミング可能  ポピュラーな機械学習アルゴリズム  分類（SVM、ロジスティック回帰、ナイーブベイズ、デシジョンツリー)  線形回帰(最小二乗法/Lasso/Ridge)  協調フィルタリング(ALS)  クラスタリング(KMeans)  次元削減処理  SVD(特異値分解)  PVA(主成分分析)  前処理用のライブラリ  TF-IDF  カイ二乗検定  共分散行列計算  サンプリング  テスト用のランダムなデータ生成 MLlibが提供する道具の一例時期安定バージョンのSpark 1.2.0からは、MLlib の後継となるSpark MLのα版パッケージがMLlib に付属する形で同梱される

33. 33Copyright © 2014 NTT DATA Corporation MLlibのコード例(KMeans学習部分@Scala) 学習用データをベクタデータに変換し、更にRDDに変換学習用データは何度も読み込むので、メモリ上にキャッシュしておく学習大まかに、 • 学習データを特徴ベクトルに変換する • 特徴ベクトル群をSparkの共通的な分散コレクション「RDD」に変換する • 学習ベクトルを表したRDDは反復のたびに何度も使用するのでキャッシュしておく • 生成したRDDをもとに学習させるの流れでモデルを作る

42. 42Copyright © 2014 NTT DATA Corporation KMeansはSparkでどのように処理されるか RDD RDD ジョブ・・・ RDD ・・・計算結果が収束するか、指定された回数まで同様の計算を実行する変換 HDFS 学習用データ学習用データは何度も読み込むのでキャッシュする 2回目以降の反復では、学習用データは都度 HDFSから読み込まず、キャッシュを利用できる反復過程のモデル最終結果のモデル RDDの複数回の変換が特徴空間の点同士の距離計算や重心の計算に対応

43. 43Copyright © 2014 NTT DATA Corporation KMeansはSparkでどのように処理されるか RDD RDD ジョブ・・・ RDD ・・・計算結果が収束するか、指定された回数まで同様の計算を実行する RDDの複数回の変換が特徴空間の点同士の距離計算や重心の計算に対応変換 HDFS 学習用データ学習用データは何度も読み込むのでキャッシュする 2回目以降の反復では、学習用データは都度 HDFSから読み込まず、キャッシュを利用できる反復過程のモデル最終結果のモデル反復間でネットワーク転送が発生するのは、反復過程のモデルなど最低限に抑えられる

44. 44Copyright © 2014 NTT DATA Corporation KMeansはSparkでどのように処理されるか RDD RDD ジョブ・・・ RDD ・・・計算結果が収束するか、指定された回数まで同様の計算を実行する RDDの複数回の変換が特徴空間の点同士の距離計算や重心の計算に対応変換 HDFS 学習用データ学習用データは何度も読み込むのでキャッシュする 2回目以降の反復では、学習用データは都度 HDFSから読み込まず、キャッシュを利用できる反復過程のモデル最終結果のモデル反復間でネットワーク転送が発生するのは、反復過程のモデルなど最低限に抑えられる一連の反復が 1つのジョブで表現される

45. 45Copyright © 2014 NTT DATA Corporation KMeansはSparkでどのように処理されるか RDD RDD RDD HDFS ジョブ・・・ RDD ・・・計算結果が収束するか、指定された回数まで同様の計算を実行する反復ごとのデータの受け渡しにはHDFSを介さない RDDの複数回の変換が特徴空間の点同士の距離計算や重心の計算に対応 KMeansの実行プロセスからSpark+MLlibの特徴をまとめると・・・  複数回の反復処理を1回のジョブとして定義できるので、ジョブ起動に関わるオーバーヘッドがジョブ全体に占める割合が小さくなる  キャッシュ機構を活用することで、反復ごとに学習データをHDFSから読みだす必要がなく、IOのオーバーヘッドを削減できる  反復処理間でのデータ交換に関わるネットワーク転送やディスクIO が最低限に抑えられるようにスケジューリングが工夫されている反復処理全体のレイテンシを小さくすることに貢献している

47. 47Copyright © 2014 NTT DATA Corporation  Sparkには試行錯誤のための道具がそろっている Sparkに付属するインタラクティブシェルで、試行錯誤しながらパラメータのチューニングや使用するアルゴリズムの選定など、試行錯誤の回転率を上げることができる  MLlibはSparkプロジェクトに包含されたエコシステムである Sparkプロジェクトに包含されているほかのエコシステムとの連携が容易 - Spark Streaming+MLlibでオンライン機械学習 - Spark SQLで作成したテーブルデータを機械学習で活用機械学習の活用を加速する

48. 48Copyright © 2014 NTT DATA Corporation Map Reduce Spark MLlibなど HDFS分散ファイルシステム YARN分散リソース管理基盤分散処理フレームワークそのほかのフレームワークフレームワーク間でデータを共有可能 Hive/Pig・・・高レベルライブラリ/ツール分散処理フレームワーク間で連携が可能 YARN上のフレームワーク間でデータの共有や処理系の使い分けによって、  もともと機械学習とは別の目的で利用していたデータを機械学習に活用  クラスタのメモリの総量におさまらないような大量の未整形データを、従来の MapReducedで処理し、Spark+MLlibでの機械学習に適した形に成形などが可能になる

49. 49Copyright © 2014 NTT DATA Corporation  大量データを扱う上での従来の機械学習ライブラリの課題と分散処理基盤「Hadoop」が切り開いた道  リーズナブルにスケールアウト可能な処理系が必要であり、Hadoop がそれを可能にした  Hadoopが苦手とする処理とHadoopによる機械学習  反復処理をMapReduceで表現すると多段のジョブ構成になるが、ジョブが多段になると処理全体のレイテンシが大きくなる  Spark+MLlibが解決した従来の機械学習ライブラリの課題  Hadoopの仕組みの活用でスケーラブルな機械学習を可能にした  複雑な処理のレイテンシを小さくする工夫で反復処理を高速化した  機械学習の活用を加速するしくみ  Sparkには試行錯誤しやすい仕組みが備わっている  Sparkのエコシステム間連携や、分散処理フレームワーク間連携によって、機械学習の活用の幅出しが可能まとめ

51. Copyright © 2011 NTT DATA Corporation Copyright © 2014 NTT DATA Corporation お問い合わせ先：株式会社ＮＴＴデータ基盤システム事業本部 OSSプロフェッショナルサービス URL: http：//oss.nttdata.co.jp/hadoop メール： hadoop@kits.nttdata.co.jp TEL： 050-5546-2496 ご清聴ありがとうございました

View stunning SlideShares in full-screen with the new iOS app!

Spark MLlibではじめるスケーラブルな機械学習

NTT DATA OSS Professional Services (38 SlideShares)

Views

Actions

Embeds 0

Report content

Transcript