YARNの登場によりHadoopは複数の並列分散処理エンジンを併用できる環境へ。Hadoop Conference Japan 2014

2014年7月14日

Hadoopに関する国内最大のイベント、「Hadoop Conference Japan 2014」が7月8日に都内で開催されました。

今回のイベントのとりまとめ役でもある日本Hadoopユーザー会 濱野賢一朗氏は、基調講演の1つとしてHadoopがこれからどう進化しようとしているのか、「Hadoopを取り巻く環境」と題して現状をまとめています。講演内容のダイジェストを紹介します。

Hadoopがきっかけで並列分散システムが普及した

日本Hadoopユーザー会 濱野賢一朗氏。

fig

今回の参加登録者数は1296名。アンケートによると約65%がはじめて参加される方で、これはかなり驚きました。このイベントの参加人数が大きく増えたわけではありませんが、裾野が広がっているなと、喜ばしく思います。

fig

Hadoopの概況を振り返ってみたいと思います。Hadoopは大きく見ればたぶん、はじめて並列分散システムが普通に使われるようになった、多くの人が使うようになったきっかけだったと思います。

Hadoopのどこがよかったのか、その1つはたぶん、データ読み込みのスループットを最大化するシンプルなアーキテクチャを考えたところだったと思います。

fig

ある程度大きなボリュームのデータを、とくに全件を見なければならないときにそのデータをいかに読んでくるか。ディスクやサーバを並べて処理することで、1台のスループット掛ける台数分のスループットが出るというスケーラビリティを備えている。そういうシステムをミドルウェアとして届けてくれた。

もう1つは、並列分散処理には難しいことがいっぱいあります。途中で処理が失敗したらどうするか、大きいジョブをどうやってタスクに分割し、結果をまとめるのか。

Hadoopのモデルは非常にシンプルで、MapReduceに従って処理を書けば、並列分散処理で自動的に実行される。故障が起きても自動的にミドルウェアが対応するし、大きな処理を細かく分割することも、処理結果をまとめることもすべてフレームワーク、ミドルウェアがやってくれる。

そういうシンプルだけど非常に力強いフレームワークだったことが、これまでのHadoopを支えてきたものだったと考えています。

これからのHadoopがリードする世界とは

いま、Hadoopのバージョンや機能がどうなっているのか、全体感を皆さんは把握されているでしょうか。ちょっとまとめたのですが、こんな感じです。

fig

前回のカンファレンスでもHadoopを取り巻く状況は難解だと言っていたのですが、さらに複雑化していましてバージョンの系統が結構いっぱいある。

みなさんがたぶんいちばん多く使っているのが、0.20系と言われているところ。そのあと0.21系、0.22系、0.23系に続いて、2.x系の「branch-2」と呼ばれている流れがあります。このようにさまざまなバージョンが出ています。

いま、多くのディストリビューションはバージョン2.3や2.4を中心に実装されようとしていて、これからみなさんが使うものの多くはそれになると思います。

このバージョン2.3、2.4に向けてセキュリティを高めるもの、ファイルシステムの機能を向上させるものなど、いろんな機能がどんどん開発されています。

なかでもいちばん大きな動きは、たぶんみなさんピンとくると思いますが。これです。

fig

大きな変化であるYARNが、だんだんHadoopの真ん中に座ってきている、そういう状況にあります。これまでMapReduceだけを動かすフレームワークとしてのHadoopが、MapReduce以外のアルゴリズムも動かしていこうと、そういう流れてなってきています。

今回、このイベントではこの点を重視してプログラムを組んでいます。

YARNの登場は何を意味しているかというと、これまでMapReduceを使っていていくつか課題に感じるところもあったかと思います。もちろんMapReduceにはよさもあって、安定的に手堅く動いてくれるのですが、1台のコンピュータに大きなメモリが乗って、ノード間の高速な通信もリーズナブルになってきたいま、MapReduce以外の仕組みも動かせる、そういう状況になってきています。

fig

ニュースなどでは「MapReduceの時代は終わった」と書かれることがありますが、MapReduceは手堅くみなさんに使われていくと思います。

Hadoopの世界でMapReduceだけでなく、それ以外のフレームワークやミドルウェアが課題を解決できる可能性を開いていく、というのがこれから見えてくる世界かなと思います。

Hiveの利用が圧倒的に多く、ImpalaやSparkも

今回の参加者のみなさんに、主に今日のセッションで登場するキーワードのソフトウェアをどれくらい使っているのかを聞いてみました。

約半数の方がHiveをお使いで、また結構な数の方々がZookeeper、HBaseをお使いです。

fig

新しく登場したのは、Fluentd、MapReduce以外の並列処理の代表格と言っていいImpalaやSparkといったものも入ってきて、みなさんの利用の変化が見て取れる結果となりました。

公開されているスライド。

Hadoop Conference Japan 2014 ご挨拶・Hadoopを取り巻く環境 from hamaken

このエントリーをはてなブックマークに追加
Bookmark this on Delicious

タグ : Hadoop , MapReduce , YARN , ビッグデータ

≪前の記事
[速報]「Amazon Cognito」発表。モバイルとクラウドのデータ同期機能を提供、オフラインモバイルアプリを実現

Loading...

Blogger in Chief

photo of jniino Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。新しいオンラインメディアの可能性を追求しています。
詳しいプロフィール


新サイト「Publickey Topics」始めました!


Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
RSSリーダーで : Feed





アクセスランキング - 過去7日間

  1. [速報]「Amazon Cognito」発表。モバイルとクラウドのデータ同期機能を提供、オフラインモバイルアプリを実現
  2. [速報]「Amazon Zocalo」発表。企業向けDropBox的なファイル共有サービス。月額5ドルで200GBを利用可能
  3. KDDI、クラウド用サーバを台湾のODMベンダから直接調達していることを明らかに
  4. RHEL互換の「CentOS 7」公開。インストール不要で起動するDockerイメージやクラウド用イメージでの提供も予定
  5. Fusion-io、微細化したNANDチップを採用しつつ性能を向上させた新フラッシュストレージ「ioMemory PX600/SX300」販売開始。エンタープライズ向けとハイパースケール向け
  6. Docker 1.1が早くもリリース。コミット中コンテナの動作一時停止など新機能
  7. EMCがクラウドストレージ戦略を強化、クラウドストレージゲートウェイの「TwinStrata」を買収
  8. Red Hat、OpenStack Icehouceの商用ディストリビューション「RHEL OpenStack Platform 5」リリース。VMwareサポート、3年間のライフサイクルサポートなど
  9. 2014年6月の人気記事「Google AppsでOfficeファイルを変換せず」「Googleが新しいUXの体系『Material Design』」「Docker Hub発表」など
  10. 今からでも間に合うDockerの基礎。コンテナとは何か、Dockerfileとは何か。Docker Meetup Tokyo #2
  11. 日本マイクロソフトとIIJがクラウドで協業発表。両クラウドを閉域網で相互接続、Azureへの直接接続も
  12. [速報]Google Appsで、Word/Excel/PowerPointファイルを変換せずそのまま編集、保存可能に。Google Driveは容量無制限へ。Google I/O 2014
  13. Java 8対応の「Eclipse 4.4 Luna」がリリース。日本語化プラグインPleadesと日本語版ディストリビューションも公開
  14. 最近よく目にする「フルスタックエンジニア」とは何だろうか?
  15. Dockerで考える、マルチクラウドの未来。July Tech Festa 2014

Publickey 最新記事 10本

Publickey Topics 最新記事 10本


PR - Books


fig

fig

fig

fig



blog comments powered by Disqus