Your SlideShare is downloading. ×
Hadoop Trends & Hadoop on EC2
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Saving this for later?

Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime - even offline.

Text the download link to your phone

Standard text messaging rates apply

Hadoop Trends & Hadoop on EC2

201
views

Published on

Hadoop Trends, Hadoop on EC2 Best Practices, Deploy Options

Hadoop Trends, Hadoop on EC2 Best Practices, Deploy Options

Published in: Technology

0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
201
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
2
Comments
0
Likes
3
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hadoop  Trends  &  Hadoop  on  EC2 Yifeng  Jiang Solutions  Engineer,  Hortonworks,  inc. March  22,  2015  
  • 2. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 自己紹介 蒋  逸峰  (Yifeng  Jiang) •  Solutions  Engineer  @  Hortonworks  Japan •  HBase  book  author •  ⽇日本に来て10年年経ちました… •  趣味は⼭山登り •  Twitter:  @uprush
  • 3. © Hortonworks Inc. 2011 – 2015. All Rights Reserved アジェンダ •  Hadoopの最新状況 •  Hadoop技術アップデートとロードマップ •  Hadoop  on  EC2  Deployment  Options
  • 4. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hadoopの最新状況 Modern Data Architecture Page 4
  • 5. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hadoopコミュニティのアクティビティ Number  of  Issues  Resolved Number  of  Line  of  Code  Increased http://ajisakaa.blogspot.jp
  • 6. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Open  Leadership Code  Contributed  in  2014  by  Organization http://ajisakaa.blogspot.jp
  • 7. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 専門家集団: 開発に深く携わるコア・メンバーにより構成 沿革 2011年6月: Yahoo! で初代の Hadoop 開発を手がけたアーキテクト、デベロッパー、 オペレータ 24名によって創立 2014年12月: 社員数600を超えるHadoopの専門家集団に成長 Apache Project Committers PMC Members Hadoop 27 21 Pig 5 5 Hive 18 6 Tez 16 15 HBase 6 4 Phoenix 4 4 Accumulo 2 2 Storm 3 2 Slider 11 11 Falcon 5 3 Flume 1 1 Sqoop 1 1 Ambari 36 28 Oozie 3 2 Zookeeper 2 1 Knox 13 3 Ranger 11 n/a TOTAL 164 109
  • 8. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 急拡⼤大する顧客層 顧客数が示す急速な成長 7四半期で 400社以上。現在、四半期ごとに75社 以上の新規顧客 •  お客様の2/3は Fortune 1000 企業 •  更新率100% © Hortonworks Inc. 2011 – 2014. All Rights Reserved Hadoopを早くから導入されたお客様も Hortonworksのディストリビューションを採用
  • 9. © Hortonworks Inc. 2011 – 2015. All Rights Reserved
  • 10. © Hortonworks Inc. 2011 – 2015. All Rights Reserved HDP  (Hortonworks  Data  Pla/orm)   次世代モダン・データアーキテクチャ (MDA) Modern Data Architecture •  データレークの実現へ •  データは1つのHDFSに •  データセットのサイズ、種類を問わずア プリケーションを活用できる柔軟性 •  運用管理は1つで済む •  一元管理されたセキュリティ Clickstream   Web     &  Social   Geoloca;on   Sensor     &  Machine   Server     Logs   Unstructured   SOURCES Existing Systems ERP   CRM   SCM   ANALYTICS Data Marts Business Analytics Visualization & Dashboards ANALYTICS Applications Business Analytics Visualization & Dashboards ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° HDFS (Hadoop Distributed File System) YARN: Data Operating System Interactive Real-TimeBatch Partner ISVBatch BatchMPP   EDW  
  • 11. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hortonworks Data Platform 2.2 Stack
  • 12. © Hortonworks Inc. 2011 – 2015. All Rights Reserved HDP IS Apache Hadoop There is ONE Enterprise Hadoop: everything else is a vendor derivation Hortonworks Data Platform 2.2 Hadoop &YARN Pig Hive&HCatalog HBase Sqoop Oozie Zookeeper Ambari Storm Flume Knox Phoenix Accumulo 2.2.0 0.12.0 0.12.0 2.4.0 0.12.1 Data Management 0.13.0 0.96.1 0.98.0 0.9.1 1.4.4 1.3.1 1.4.0 1.4.4 1.5.1 3.3.2 4.0.0 3.4.5 0.4.0 4.0.0 1.5.1 Falcon 0.5.0 Ranger Spark Kafka 0.14.0 0.14.0 0.98.4 1.6.1 4.2 0.9.3 1.2.0 0.6.0 0.8.1 1.4.5 1.5.0 1.7.0 4.1.0 0.5.0 0.4.0 2.6.0 * version numbers are targets and subject to change at time of general availability in accordance with ASF release process 3.4.5 Tez 0.4.0 Slider 0.60 HDP 2.0 October 2013 HDP 2.2 October 2014 HDP 2.1 April 2014 Solr 4.7.2 4.10.0 0.5.1 Data Access Governance & Integration SecurityOperations
  • 13. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hadoop技術アップデートとロードマップ Hive,  Ambari,  Ranger,  and  more Page 13
  • 14. © Hortonworks Inc. 2011 – 2015. All Rights Reserved HDFS: more Efficient Data Lake Storage •  Tiered  Storage –  DataNodeはストレージのコレクション –  DISK,  SSD,  RAM,  ARCHIVAL •  HDFS  NFS  Gateway –  HDFSをNFSマウント •  Roadmap:  ⼤大規模ストレージの効率率率化 –  Archival  Tier  GA o  ストレージコストが最⼤大8倍削減 –  Erasure  Coding o  ストレージコストが3xから1.4xに S3 Swift SAN Filers Collection of tiered storages All disks as a single storage
  • 15. © Hortonworks Inc. 2011 – 2015. All Rights Reserved YARN: extends Hadoop into Data OS •  CPU スケジューリング •  Cgroup •  YARN Node Label NM NM RS NM NM NM NM RS NM NM … RS MR Label: HBaseRegionServer Label: HBaseRegionServer hbase HBase on Slider YARN App CS Queue
  • 16. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Slider: more YARN Ready Engines YARN: Data Operating System (Cluster Resource Management) 1 ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° Script Pig SQL Hive Tez Tez Others Engines Tez Java Scala Cascading Tez ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° Others ISV Engines ° ° Storm Stream Others Engines Slider Solr Search HBase NoSQL Slider Accumulo NoSQL Slider Spark In-Memory Kafka Slider ° ° ° ° HDFS (Hadoop Distributed File System) •  あらゆるアプリやサービスをYARNに動かす •  HBase, Accumulo, Storm •  SDK for 3rd-party ISVs
  • 17. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hive:  Enterprise  SQL  at  Hadoop  Scale •  トランザクション – 現在: Insert, Update, Delete – Roadmap: BEGIN, COMMIT, ROLLBACK •  パフォーマンス: 100倍早くなった – ORC File – Hive on Tez – Cost Based Optimizer – Roadmap: 1秒以下のレスポンス、LLAP利用 17
  • 18. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Spark: Enterprise Ready Spark on HDP 2.2.3 SparkとHadoopの連携に注⼒力力 •  Spark  1.2  GA •  Spark  on  YARN •  ORCサポート •  Hive  on  Spark •  Spark  with  Ambari •  セキュリティ 18
  • 19. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 5つのセキュリティ要件 認証 Kerberos 認可 監査 ? 暗号化 HDP  2.2 現状のセキュリティ対応/サポート… RANGER
  • 20. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Ranger:  ⼀一元化されたセキュリティ管理理 20 テーブル/カ ラムのアクセ スコントロー ル、柔軟な定 義   グループ/ユー ザーの権限管理理
  • 21. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Ambari: Hadoopの顔 Apache Ambari: Hadoop for Everyone, 100% Open Source
  • 22. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hadoop on EC2 Deployment Options
  • 23. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Best  Practices 常時稼働Hadoopと⼀一時的Hadoop(例例:  EMR)の要件が違う (常時稼働)Hadoop  on  EC2の基本的な考え⽅方 •  ローカルストレージがポイント •  データノードのデータはインスタンス  ストアのみ利利⽤用 •  マスタノードのデータはEBSに •  データはS3にバックアップ •  ディストリビューション(HDP)を使う •  運⽤用管理理ツール、可⽤用性、セキュリティ
  • 24. © Hortonworks Inc. 2011 – 2015. All Rights Reserved EC2インスタンスタイプ Big and cheapなタイプを
  • 25. © Hortonworks Inc. 2011 – 2015. All Rights Reserved ハードウェア:オンプレミスの場合 そもそも今どきのHadoopのお勧めハードウェア  スペックは? ポイント:Big  and  cheap •  12  cores •  Dual  Intel  Xeon  E5-‐‑‒2650v2  (8c)  or  E5-‐‑‒2660v2  (10c)  Processors •  128GB  or  256GB  RAM •  12  SATA  /  NLSAS,  1~∼4TB  per  drivers •  1  or  10GbE  nic
  • 26. © Hortonworks Inc. 2011 – 2015. All Rights Reserved インスタンスタイプ Hadoopの最適なEC2インスタンスタイプは? ポイント:Big  and  cheap
  • 27. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Deploy例: 異なるインスタンスタイプの活用 •  I2とHs1を同じクラスタにすることも可能 •  異なるデータを一箇所に集め、集中して運用管理したい場合 •  1クラスタで色々な処理パターン:バッチ、リアルタイム、インタラクティブ、インメモリ •  HDFS Tiered Storage •  YARN Node Label HDP Cluster I2.8xlarge I2.8xlarge I2.8xlarge Hs1.8xlarge I2.8xlarge Hs1.8xlarge
  • 28. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Storage Policy: SSD & Hot SSD SSD SSD SSD SSD SSD SSD SSD SSD DISK DISK DISK DISK DISK DISK HDP Cluster A DISK DISK DISK A A SSD All replicas on SSDDataSet A (e.g., HBase) Hot All replicas on DISK DataSet B (others) B B B I2.8x I2.8x I2.8x hs1.8x hs1.8x hs1.8x
  • 29. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Storage  Policy:  実際にやってみる Ambariにて、HDFS  Configuration  Groups  作成 •  I2⽤用グループ •  Hs1⽤用グループ Ambariにて、GroupsごとにDataNodeストレージタイプ、パスを定義 dfs.datanode.data.dir を下記に設定 •  I2  group:  [SSD]/hadoop/hdfs/data1,[SSD]/hadoop/hdfs/data2,… •  Hs1  group:  [DISK]/hadoop/hdfs/data1,[DISK]/hadoop/hdfs/data2,… HDFS再起動
  • 30. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Storage Policyを設定してみる $ hdfs dfs -mkdir /hbase $ hdfs dfsadmin -setStoragePolicy /hbase ALL_SSD Set storage policy ALL_SSD on /hbase $ hdfs dfsadmin -getStoragePolicy /ssd The storage policy of /ssd: BlockStoragePolicy{ALL_SSD:12, storageTypes=[SSD], creationFallbacks=[DISK], replicationFallbacks=[DISK]} HBaseのデータをすべてSSD(i2)に保存 •  /hbase  配下を  ALL_̲SSD  に設定
  • 31. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Ambari Blueprintを使ったデプロイ ElasticなHadoop
  • 32. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Ambari Blueprints The “CloudFormation” for Hadoop •  クラスタ・インストールを自動化(特にクラウド環境で役に立つ) •  実例:Microsoft Azureポータル内でのHDPクラスタインストール •  クラスタのスケールアップ/ダウンを簡素化
  • 33. © Hortonworks Inc. 2011 – 2015. All Rights Reserved ブループリントとブループリントAPI ブループリントとはクラスタの設定状態をJSONで表したもの ブループリントAPIに入力してクラスタをインストール Blueprint   ブループリント     Ambari  Server   Blueprint  API   ブループリントAPI   IMPORT インポート CLUSTER   クラスタ   INSTANTIATE 作成
  • 34. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 実行中のクラスタの復元 実行中のクラスタからブループリントをエクスポートが可能 設定が同じまたはほぼ同じクラスタの復元に役立つ CLUSTER   クラスタ   EXPORT エクスポート Blueprint   ブループリント     GET /api/v1/clusters/mycluster?format=blueprint
  • 35. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 例:100台クラスタのインストール { "configurations" : [ { ”hdfs-site" : { "dfs.datanode.data.dir" : ”/hadoop/1,/hadoop/2,/hadoop/3" } } ], "host_groups" : [ { "name" : ”master-host", "components" : [ { "name" : "NAMENODE” }, { "name" : "RESOURCEMANAGER” }, … ], "cardinality" : "1" }, { "name" : ”worker-host", "components" : [ { "name" : ”DATANODE” }, { "name" : ”NODEMANAGER” }, … ], "cardinality" : "1+" }, ], "Blueprints" : { "blueprint_name" : ”multi-node-hdfs-yarn", "stack_name" : "HDP", "stack_version" : "2.0" } } { "blueprint" : ”multi-node-hdfs-yarn", "host_groups" :[ { "name" : ”master-host", "hosts" : [ { "fqdn" : ”master001.ambari.apache.org” } ] }, { "name" : ”worker-host", "hosts" : [ { "fqdn" : ”worker001.ambari.apache.org” }, { "fqdn" : ”worker002.ambari.apache.org” }, … { "fqdn" : ”worker099.ambari.apache.org” } ] } ] } 1. POST -d @hakone-blueprint.json / api/v1/blueprints/hakone 2. POST -d @hosts.json /api/v1/ clusters/hakone
  • 36. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 貧乏男の2台クラスタ… 事前準備:  Base  AMI作成 •  Ambari  Server •  Ambari  Agent Ambari  Server⼀一台起動 Ambari  Agent  AMIよりEC2  2台起動 •  BootstrapでAmbari  server  IPを設定 •  もちろん、Spotインスタンスで Blueprintインポート  API クラスタ作成  API ⾊色々テスト…
  • 37. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 貧乏男の2台クラスタ… 節約のために…寝る前にはクラスタのインスタンスを削除します 翌⽇日は同様のクラスタを⽴立立ち上げる # Ambari Reset (to clear previous installed clusters) ambari-server stop ambari-server reset ambari-server start # Launch ec2 spot instances ec2-request-spot-instances # re-create cluster curl -X POST -d @hakone-blueprint.json -u admin:admin localhost:8080/api/v1/blueprints/hakone curl -X POST -d @hosts.json -u admin:admin localhost:8080/api/v1/clusters/hakone
  • 38. © Hortonworks Inc. 2011 – 2015. All Rights Reserved まとめ HDPセキュリティ Page 38
  • 39. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hadoop  Trends  and  Hadoop  on  EC2 •  Hadoopは常に早く進化しています •  次世代モダン・データアーキテクチャ (MDA)はHadoopにて実現 •  Hadoopはより効率率率、安全、早くなっています •  誰でもHadoopが使えます •  Hadoop  on  EC2は効率率率や柔軟性が⾼高い
  • 40. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Thank  you Yifeng  Jiang,  Solutions  Engineer,  Hortonworks @uprush