Hadoopはどのように動くのか ─並列・分散システム技術から読み解くHadoop処理系の設計と実装

第1回　なぜ，Hadoopはどのように動くのか，を学ぶのか

2015年4月1日

山田浩之

この記事を読むのに必要な時間：およそ 1.5 分

はじめに

ビッグデータ解析のためのシステム基盤として，Hadoopをはじめとするオープンソースのデータ処理ソフトウェア（データ処理系）が広く利用されつつありますが，当該データ処理系をすでに利用している，もしくは利用の検討をしている読者の方々の中には，たとえば以下のような問題を抱えている方が少なからずいらっしゃるのではないでしょうか。

データ処理系の使い方はなんとなくわかるが，その内部をあまり理解できていない。または，内部の動作原理がよくわからないので，本格的に使う気にならない。
同様の目的を達成する複数のデータ処理系において，どれを使って良いかがよくわからない。または，適切に使い分けられていない気がする。たとえば，どのような場合にHadoopを用いて，どのような場合に同類のデータ処理系であるImpalaやSparkを用いれば良いかが“明確に”わからない。

このような問題を解決するには，「Hadoopなどのデータ処理系を深く理解すること」が重要であり，これが本連載のテーマです。

本連載の目的

Hadoopをはじめとするデータ処理系は，複数の計算機を用いて並列にデータを処理をすることよりスケーラブルなデータ処理を実現し，加えて，一部のデータ処理系においては，データやデータに対する手続きをデータ処理の最中にバックアップしておくことにより，ハードウェアなどに障害が発生した場合においても，フォールトトレラントなデータ処理を実現します。すなわち，当該データ処理系を用いたシステムでは，アプリケーション開発者（当該データ処理系の利用者）がスケーラビリティやフォールトトレランシに関する処理を記述する必要はありません。

データ処理に関するシステムソフトウェアは複雑化の一途を辿っているため，アプリケーション開発者が当該データ処理系の仕組みを理解しておらずともスケーラブルでフォールトトレラントなデータ処理を記述できるという方向性は，極めて正しいと考えられますが，他方で，どのような動作原理で当該データ処理を実現してるかを理解することは，たとえば「はじめに」で示した点で，とても重要であると言えるでしょう。

このような考えに基づき，本連載では，Hadoopをはじめとするデータ処理系の基本である並列データベース技術や分散システム技術を解説し，読者のみなさんに当該ソフトウェアを深く理解していただきます。

データ処理とは

本連載ではデータ処理系の動作原理を説明する，と言いましたが，そもそも「データ処理」とは何でしょうか。非常に抽象的な言葉であり，人によって捉え方が異なるかもしれないので，念のため，まずはじめに本連載が対象とする「データ処理」をかんたんに定義しておきます。「定義」というと仰々しいですが，読者のみなさんが共通認識を持っておくための事前準備という程度のものですので，さらっと流し読みしていただければ結構です。

本連載におけるデータ処理は，「（HDDやSSDなど）から読み出して，主記憶に格納し，当該データを用いて演算処理などを行い，何らかの結果を取得するもの」であるとします。よって，本連載におけるデータ処理においては，後から参照するために結果や中間状態を二次記憶装置などに書き出す場合はありますが，トランザクションなどの書き出し処理は行いません。なお，この一連の処理は，基本的には複数の計算機を用いて並列に実行されるものとし，当該データ処理を特に並列データ処理と呼ぶこととします。

並列データ処理においては，複数の計算機を用いて並列に処理をするため，計算機の台数に比例してシステム全体の性能が向上する（すなわち，スケーラブルである）ことが望ましいと考えられます。また，複数の計算機を用いる場合，1台の計算機を用いる場合と比較して，システム全体としての故障率が増加するため，一部の計算機が故障した場合であっても，システムが正常に動作し続ける（すなわち，フォールトトレラントである）ことが望ましいと考えられます。

本連載では，このような並列データ処理における望ましい性質を実現するための技術について解説していきます。

今後の流れ

本連載は次のような流れで進めていく予定です。まず第1部では，並列データ処理の基本である並列データベース技術や分散システム技術を，Hadoopなどのデータ処理系の設計や実装との関連性に言及しつつ解説していきます。次に第2部において，それまでの習得した知識を用いて，それぞれのデータ処理系ごとに，その設計と実装を読み解いていきます。

第1部　並列データベース・分散システムの基本: はじめに（今回）; 並列データ処理の歴史; 並列と分散; データ処理の方法; データ処理の並列化; データ処理における並列アルゴリズム; データ処理のモデル化; クエリ最適化; データレイアウト; ロギング; レプリケーション; コンセンサスアルゴリズム; 中間まとめ
第2部　Hadoop処理系の設計と実装: Hadoop; Impala，Presto; Dryad，Tez; Spark; 最後のまとめ

「HadoopやImpalaの動作原理をすぐに知りたい」という方にとっては，少し遠回りしているように思えるかもしれませんが，当該データ処理系は深い技術をベースにしていますので，まずはその根幹の技術をしっかり押さえることが望ましい，という意図でこのようなトップダウン的な流れにしました。しかし，当然第1部においても，可能な限り現状のデータ処理系の実装を踏まえつつ説明していければと思います。

「Hadoopなどを使用していて，もう一段深く理解したい」という方や，「Hadoopなどは使用していないが，まずその動作原理を理解して使い始めたい」と思っている方，または「単純に並列データベースや分散システムなどの基盤システム技術に興味がある」という方などに楽しんでいただける内容にできればと考えています。

Hadoop, データ処理系, 並列分散処理

著者プロフィール

山田浩之（やまだひろゆき）

日本アイ・ビー・エム株式会社を経て，ヤフー株式会社にて分散型全文検索エンジンの研究開発に従事。2008年上期未踏IT人材発掘・育成事業において高性能分散型検索エンジンの開発によりスーパークリエータに認定。現在は東京大学生産技術研究所にて高性能並列データ処理系の研究開発に従事。博士（情報理工学）。

著書に『検索エンジン自作入門』。

バックナンバー

Hadoopはどのように動くのか ─並列・分散システム技術から読み解くHadoop処理系の設計と実装

第1回　なぜ，Hadoopはどのように動くのか，を学ぶのか

トラックバック

このエントリのトラックバック URI

コメントの記入

お名前
メールアドレス
タイトル
コメント

ピックアップ

サイバーエージェントを支える技術者たち: 「アメーバブログ」などを展開するAmebaを運営するサイバーエージェントの技術者に，多くの魅力的なサービスを支える秘密を伺いました。
開発スピードに限界を感じたときの処方箋: 「JIRA」をはじめとするアトラシアンのツール群。多くのオープンソースソフトウェアを継続して提供する支えとなっている使い易さを探ってみます。
Webプログラマ／デザイナが本気で遊べるガジェット登場！: auから鳴り物入りで登場したスマートフォン「Fx0 LGL25」は，Mozillaが開発した「Firefox OS」を搭載したスマートフォンです。
OpenStack Days Tokyoの歩き方: 2015年2月3，4日に開催される「OpenStack Days Tokyo 2015」。本記事では関係者の方々に見どころと意気込みをお聞きしました。
OpenStack Days Tokyo：ミラクル・リナックスが考えるクラウド管理の決め手: 「OpenStack Days Tokyo 2015」でミラクル・リナックスが提案するOpenStackの運用管理の新しい形を紹介します。
あなたのスマホアプリ開発レベルはどのぐらい？スマ検を受けよう: スマートフォンの普及とともに高まるアプリ開発者のニーズに合わせて開発された「スマートフォンアプリ開発技術検定試験」に関して解説します。
エンジニア向けQAサイト「teratail」とは: 昨年7月にオープンした新たなWebサービス（というよりメディア）の立ち上げ秘話やサービス内容をあますところなく紹介します。

その他の連載

Hadoopはどのように動くのか ─並列・分散システム技術から読み解くHadoop処理系の設計と実装: Hadoop動作のデータ処理系の基礎である並列データベース技術や分散システム技術を解説し，データ処理系の設計や実装を読み解いていきます。
2in1 PCと旅する絵日記 in Hawaii: きたみりゅうじがお絵かき用2in1 PCを手にハワイを巡るつれづれを絵日記風にレポート。役立つ海外IT事情も織り交ぜてお届けします。
『電網恢々疎にして漏らさず網界辞典』準備室！: とあるネット起業の1プロジェクトとして，ネットを通じて世界を網羅する辞典を作ることが始まった。それが「電網恢々疎にして漏らさず網界辞典」である。
玩式草子─ソフトウェアとたわむれる日々: Plamo Linuxのメンテナンスの傍ら，Linuxやオープンソースソフトと日々を過ごす著者が，その魅力とつきあい方を，エッセイ風味でお届けします。
決済会議: リアル店舗の決済を中心に，ネットショップの決済やO2Oなどについて，ときには事例やサービス事業者へのインタビューなどを交えつつ，ゆるく紹介します。
MySQLをチューニング，そしてスケールアップ／スケールアウトへ: 本連載では，現在MySQLを利用していて，チューニングやより大規模な環境に向けた構成の拡張を体系的に説明することを目的としています。
モヤモヤ議論にグラフィックファシリテーション！: 絵筆を持って壁に向うエプロン姿の一人の女性。『グラフィックファシリテーター』として活動中の“ゆに”。研修や会議，ワークショップ，プロジェクトなど，さまざまな議論を≪描き取る≫ 現場から，彼女が実践するグラフィックファシリテーションを紹介します。
MilkcocoaでBaaSを体験！～バックエンドの仕組みと使い方～: 本特集はBaaSを紹介し，Milkcocoaを使用して，BaaSを利用したアプリケーション開発について紹介いたします。