クラウド上でのHadoop基盤とCloudera Director 2.0 #rhcj2016

141
-1

Published on

Rejected HCJ 2016 で発表した資料です。
http://www.zusaar.com/event/17397003

Published in: Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
141
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
0
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

クラウド上でのHadoop基盤とCloudera Director 2.0 #rhcj2016

  1. 1. 1©  Cloudera,  Inc.  All  rights  reserved. クラウド上でのHadoop基盤 とCloudera  Director  2.0   嶋内  翔、Cloudera  
  2. 2. 2©  Cloudera,  Inc.  All  rights  reserved. ⾃自⼰己紹介 •  嶋内  翔(しまうち  しょう) •  テクニカルエバンジェリスト •  2011年年4⽉月にClouderaの最初の⽇日本⼈人社員として⼊入社 •  お客様がCloudera製品を活⽤用できるように⼀一緒に議論論するのがメインの 仕事 •  email:  sho@cloudera.com •  twitter:  @shiumachi
  3. 3. 5©  Cloudera,  Inc.  All  rights  reserved. Cloudera  Enterprise     Hadoop  に  Fast  /  Easy  /  Secure  をもたらす   新しいタイプの データプラットフォーム •  一箇所で無制限のデータ •  統合されたマルチフレームワー クデータアクセス Clouderaがもたらすもの: •  Fast  :  ビジネスの迅速性 •  Easy  :  管理の容易性 •  Secure  :  包括的・透過的セ キュリティ OPERATIONS   DATA   MANAGEMENT   STRUCTURED   UNSTRUCTURED   PROCESS,  ANALYZE,  SERVE   UNIFIED  SERVICES   RESOURCE  MANAGEMENT   SECURITY   FILESYSTEM   RELATIONAL   NoSQL   STORE   INTEGRATE   BATCH   STREAM   SQL   SEARCH   SDK   Public  Cloud   Private  Cloud   Hybrid  Environments   Hybrid  Deployment   Flexibility  
  4. 4. 6©  Cloudera,  Inc.  All  rights  reserved. クラウド上でのHadoopはオンプレとは違う 最適なパフォーマンスのため の区分化   コスト削減のための一時的ク ラスタの採用   効率性のための、ストレージ と計算リソースの別個の拡張   Object  Store   STORE   COMPUTE  
  5. 5. 7©  Cloudera,  Inc.  All  rights  reserved. クラウド上でのHadoopの検討   計算リソースとストレージの弾 力性を簡単にサポートできるだ ろうか?     ワークロードの効率性のためど ういう自動化が利用可能だろう か?   この環境はエンタープライズ級 の要件を満たしているだろう か?     クラスタを停止したあとでも簡 単にトラブルシューティングで きるだろうか?   構築した全クラスタでHadoopの ツールの一貫性を維持できるだ ろうか?     複数のオブジェクトストアをサ ポートしたりスイッチしたりす る必要があるとしたら?  
  6. 6. 8©  Cloudera,  Inc.  All  rights  reserved. Cloudera:  クラウド上でのHadoopにおける先進的専門性   CDHは主要クラウドプロバイダにおいて最もデプロイされている Hadoopディストリビューションです   2009   2012   2013   2014   2015   AWS上での大規模 クラスタ   Cloudera  Enterprise   のMSP上でのサポート   ClouderaはAzureサ ポートを追加   ClouderaはGCPサポート を追加   プライベートクラウ ドサポート   リリース   最初の   クラウド上での   Hadoopの顧客   クラウドオブ ジェクトストア のサポート  
  7. 7. 9©  Cloudera,  Inc.  All  rights  reserved. ハイブリッド Hadoopディストリ ビューション  
  8. 8. 11©  Cloudera,  Inc.  All  rights  reserved. クラウド上でのワークロードの単純化   ビジネスの転換に対する価値を提供   必要な時に、必要な分だけ支 払う   ETL/モデリング   どこに置かれていたとしても、 全てのデータを探索し分析す る   BI/アナリティ クス   たとえ何が起ころうとおもエ ンタープライズレベルでビジ ネスを保護する   アプリケー ションデリバ リ   運用コスト削減   新しいインサイトと新し い価値   リスクなしでの稼働  
  9. 9. 15©  Cloudera,  Inc.  All  rights  reserved. Easy:  管理の容易性   自動的に、使った分だけお支払い   自動的な一時クラスタの作成   ジョブ固有のクラスタライフサイクルマネ ジメント     ホスティングのコストの削減   スポットインスタンスサポート     より多くのジョブのサポート   ワークキューの管理をシンプルに     ハイブリッド管理   複数の環境にまたがってのビューと管理   Launch   Cluster Submit   Job Record   Results 1 2 3Auto-‐‑‒ Termina te 4
  10. 10. 16©  Cloudera,  Inc.  All  rights  reserved.   ヨーロッパの大規模空港 は数千のマシンからのセ ンサーデータを監視し、 電力使用量や空港利用者 の動線を予測   CUSTOMER  360   参考:  http://blog.godatadriven.com/schiphol-‐‑‒implements-‐‑‒datasciencesuite.html  
  11. 11. 21©  Cloudera,  Inc.  All  rights  reserved. アデコは、仕事の空 きと候補者のマッチ ングをより高速に、 正確にすることでリ クルーターの生産性 を向上させ、仕事投 稿の費用を$120M(130 億円)削減  
  12. 12. 22©  Cloudera,  Inc.  All  rights  reserved.   カメラ会社はコストを 下げつつ、より高速な 分析と正確性でもって、 新しい市場を分析し、 新製品を創りだした   参考:  hZp://techspec[ve.net/2015/08/03/how-­‐gopro-­‐is-­‐using-­‐amazon-­‐bmc-­‐and-­‐ cloudera-­‐to-­‐kick-­‐everyone-­‐elses-­‐buZ/  
  13. 13. 26©  Cloudera,  Inc.  All  rights  reserved. FINRA  monitors  50B   market  events  per  day   to  build  a  holis[c   picture  of  US  market   ac[vity  and  make  real-­‐ [me  decisions,  while   saving  $10-­‐20M   annually  
  14. 14. 27©  Cloudera,  Inc.  All  rights  reserved.   Airbnb  improved  their   overall  booking  rate  through   machine  learning  algorithms   and  beZer  search  to  more   effec[vely  match  customers   with  the  right  rental   property     CUSTOMER  360  
  15. 15. 34©  Cloudera,  Inc.  All  rights  reserved. Cloudera  Director  2.0  &  C5.5  Releases     •  高速デプロイ   •  ジョブ送信API   •  スポットインスタンス   •  クラスタ終了前フック   •  Hive  on  S3   •  Spark  on  S3   一時クラスタ     •  クラスタクローン   •  クラスタ復旧   •  オンデマンドとスポットイ ンスタンスを同じクラスタ で実行可能   •  Impala  on  S3  (beta)     BI/分析クラスタ     •  HAクラスタの拡張   •  HA/Kerberosクラスタをブー トストラップ時に有効可能   •  ワーカーノードの復旧   •  外部DBオプション   •  より多くのインサイトを持 つUIの改善   アプリケーション デリバリクラスタ   ALL  WORKLOADS:     •  AWS  s3aコネクタサポート   •  クラスタテンプレート   •  GUI  改善:  クラスタの集約とインスタンスレベルのメタデータビューとフィルタリング  
  16. 16. 35©  Cloudera,  Inc.  All  rights  reserved. Power  BI   Microso>   Azure   Marketplace   Marketplace  Delivers   •  Full  cloud  deployment;  no  hardware  dependency   •  Start  work  in  <40min  using  Azure  templates   •  Fully  automated  setup  with  best  prac[ces  from   OS  to  Cloudera     Customer  360   Compliance   InnovaKon   Product  &  Services   ExpressRoute   Cloudera’s  Azure     Marketplace  Offering  
  17. 17. 36©  Cloudera,  Inc.  All  rights  reserved. Get  Started   AWS  Reference  Guide   GCP  Reference  Guide     Download  Cloudera  Director   www.cloudera.com/downloads     Try  It  Out     Cloudera  Live  (includes  step-­‐by-­‐step  tutorial)     AWS  Quickstart   Azure  Marketplace   Resources   API  Integra[on  &  Scrip[ng   hZps://github.com/cloudera/director-­‐ sdk   hZps://github.com/cloudera/director-­‐ scripts     Addi[onal  Cloud  Integra[on   hZps://github.com/cloudera/director-­‐spi   hZps://github.com/cloudera/director-­‐ google-­‐plugin    
  18. 18. 37©  Cloudera,  Inc.  All  rights  reserved. Cloudera  on  AWS
  19. 19. 38©  Cloudera,  Inc.  All  rights  reserved. Cloudera  on  AWS  の基本的な考え⽅方 •  ⻑⾧長期稼働クラスタが基本 •  ⼀一時クラスタは単発的なバッチ処理理のみ •  HDFSのデータは性能確保のためインスタンスストレージに保存 • よって、データセンター障害時などにより全インスタンスが停⽌止した場 合、HDFS上のデータは失われる •  データの永続化はS3で⾏行行う •  ⾼高CPUコア数  /  ⾼高メモリ数のインスタンスを少数稼働させる
  20. 20. 39©  Cloudera,  Inc.  All  rights  reserved. ストレージ選定 ストレージのタイプ メリット デメリット ⽤用途 S3 •  耐障害性が⾼高い •  インスタンスの起動が不不要 •  スループットが遅い •  HDFSと異異なり、パーミッション 情報などを保持出来ない •  Hadoopエコシステムの全機能が 対応しているわけではない •  データの永続化層 •  データ取り込み⼝口 インスタンスストレージ (エフェメラルストレージ) •  インスタンスに直結している物理理 ディスクを使うため、Hadoop本来 の性能を発揮可能 •  通常のHDFS⽤用のディスクとして機 能するため、Hadoopエコシステム の全機能が利利⽤用可能 •  インスタンス障害により全ストレー ジ情報がロストする •  HDFS EBS •  ランダムIOに強い •  インスタンスを停⽌止してもデータを 保持可能 •  シーケンシャルIOに弱い •  ⾼高い •  EC2/EBS間のネットワーク帯域は 制限されているのでボトルネックに なる •  OSデータの保存
  21. 21. 40©  Cloudera,  Inc.  All  rights  reserved. インスタンス選定 ワークロードのタイプ サービスの例例 管理理ノード⽤用インスタンス ワーカーノード⽤用インスタンス バッチ処理理 •  MapReduce •  YARN •  Spark •  Hive •  Pig •  Crunch •  c3.8xlarge •  d2.2xlarge •  i2.2xlarge •  i2.4xlarge •  i2.8xlarge •  r3.8xlarge •  m2.4xlarge •  c3.8xlarge •  d2.8xlarge •  i2.2xlarge •  i2.4xlarge •  i2.8xlarge •  r3.8xlarge リアルタイム処理理 •  HBase •  Solr •  Impala •  c3.8xlarge •  d2.2xlarge •  i2.4xlarge •  i2.8xlarge •  r3.8xlarge •  d2.8xlarge •  i2.4xlarge •  i2.8xlarge エンタープライズデータハブ •  CDHの全サービス •  d2.2xlarge •  i2.2xlarge •  i2.4xlarge •  d2.8xlarge
  22. 22. 41©  Cloudera,  Inc.  All  rights  reserved. ネットワーク •  VPC  必須 •  1サブネット1クラスタの構成が最も簡単 •  ネットワークACLは使わず、セキュリティグループでアクセス管理理する •  Flume  ノード、ワーカー、マスターなどのロールに応じてセキュリティグルー プで通信経路路を制御する •  ロール毎にサブネットを分けるとネットワークトポロジーは複雑になる •  インターネットアクセスの管理理 •  全インスタンスにパブリックIPアドレスを持たせる •  インターネットGWとサブネット間の通信はルーティングで制御 •  NATインスタンスを別のサブネットに持たせる •  NATインスタンスは通常は  Linux  EC2  インスタンス •  オンプレミスDCとの接続  (VPC  or  Direct  Connect) •  データマイグレーションの予定がなければ不不要
  23. 23. 43©  Cloudera,  Inc.  All  rights  reserved. データ取り込み戦略略 •  S3ファースト • データの永続化は保証される • S3からdistcpなどによりHDFSにロードするため、Hadoop上で利利⽤用可 能になるまでは少し時間がかかる •  HDFSファースト • すぐにHadoop上で利利⽤用できる • S3に転送する前にデータセンター障害などで全インスタンスが停⽌止する と、データは失われる
  24. 24. 44©  Cloudera,  Inc.  All  rights  reserved. バックアップ・リストア戦略略 •  バックアップ • S3へのdistcpが基本 •  パーミッション  /  ACL  などが失われるため、HDFS上のセキュリティ が必須ならクラスタ⼆二重化しかない • HBaseならスナップショット保存が可能 •  こちらもパーミッションを引き継げない • 2つのAZにまたがってのクラスタ⼆二重化 • Hiveメタストア等のRDBMSはAmazon  RDSを使って耐障害性を確保 •  リストア • distcpでS3からHDFSにロード
  25. 25. 45©  Cloudera,  Inc.  All  rights  reserved. クラウド環境とHadoop オブジェクトストレージ インスタンスストレージ Impala Spark Kafka Flume HDFS HBase データソース クラウド
  26. 26. 46©  Cloudera,  Inc.  All  rights  reserved. バッチ処理理とアドホック処理理 •  インスタンスの動的⽴立立ち上げとS3からのデータ取得による実⾏行行(バースト 実⾏行行) • 常時⽴立立ち上げる必要がなくコスト削減につながるが、データのロードに 時間がかかるため、処理理は遅くなる • 利利⽤用頻度度が上がるなら常時稼働させた⽅方がコストは安くなるはず • また、利利⽤用状況がわかっているのなら必要なリソースを計算できるので、 必要最低限のインスタンスの稼働で済むはず •  アドホック処理理(Impala等) • 常時稼働させた状態でインスタンスストレージにデータをロードしてお くことで性能を確保できる
  27. 27. 47©  Cloudera,  Inc.  All  rights  reserved. Impala  on  S3 •  C5.5  時点ではテクニカルプレビュー •  対応状況 •  JOIN:  HDFS,  HBase,  S3  全て相互にJOIN可能 •  メタデータ管理理(SentryによるACL含む):  対応済 •  リソース管理理:  対応済 •  未対応 •  DML •  INSERT  /  LOAD  DATA  /  CREATE  TABLE  AS  SELECT •  制限事項 •  性能は当然スピンドルより落落ちる •  チューニング⽅方法で使えるものと使えないものがある •  HDFSショートサーキットリードなどは当然使えない
  28. 28. 48©  Cloudera,  Inc.  All  rights  reserved. Thank  you  

×