Hadoopはどのように動くのか ─並列・分散システム技術から読み解くHadoop処理系の設計と実装

第2回　並列データ処理系の歴史と重要性

2015年4月15日

山田浩之

この記事を読むのに必要な時間：およそ 2 分

はじめに

前回は，本連載の目的や，本連載で扱う並列データ処理の定義について説明しました。今回は，並列データ処理系の歴史や重要性について見ていきます。技術を学ぶうえで，その技術の歴史や重要性について理解しておくことはとても良いことですので，かんたんな読み物を読むつもりでお付き合いください。

並列データ処理系の進展

並列データ処理系における基本的なアルゴリズムや処理方式は，並列データベースと称される並列化された（※1）データベースシステムにおける技術に基づいています。

並列データベースに関する研究・開発は，1970年代からの並列データベースマシン（Parallel Database Machine）［1，2，3］と称されるデータベース処理専用の並列計算機に遡ることができます。並列データベースマシンは，データ処理用途にカスタマイズされたプロセッサや記憶装置を用いていたため，必ずしも価格に見合った性能が得られなくなったことから，その後，汎用ハードウェアとその上で動作する並列データベースソフトウェアへと形を変えたものの，その過程において，1990年代の中盤頃までに，結合アルゴリズムの並列化方式や問い合わせ最適化方式などに関する数多くの研究・開発が行われてきました。

2000年代に入り，Netezza（現 IBM PureData）をはじめとするデータウェアハウス（DWH）アプライアンスの登場により，並列データ処理系は一般企業においても広く利用されるようになりました。さらにこの流れは，Google MapReduceのオープンソースクローンであるHadoopの登場により加速の一途を辿っているとみることができます。DWHアプライアンスやHadoopは，基本的には1990年代までの並列データベースの技術に基づいた並列データ処理系であると考えられるものの，ハードウェアの高性能化や新たな需要を踏まえ，その中核をなす技術は少しずつ進展を遂げつつあると考えられています。

※1）: 本連載における「並列」という言葉の定義は次回に行います。今のところは，並列の一般的な意味の通りに捉えていただいて結構です。

並列データ処理系のアーキテクチャ

並列データ処理系におけるシステムアーキテクチャとしては，これまでさまざまなものが考案されてきましたが，おもに次の3つに大別することができます［4］。

共有メモリ型（シェアードメモリ）アーキテクチャ
共有ディスク型（シェアードディスク）アーキテクチャ
無共有型（シェアードナッシング）アーキテクチャ

図1　並列データ処理系のアーキテクチャ（P，M，Dはそれぞれ，P：プロセッサ，M：メモリ（主記憶装置），D：ディスクドライブ（二次記憶装置）を意味します）

共有メモリ型のシステム（図1：中）においては，複数の計算機は1つのメモリシステムを共有し，また，共有ディスク型のシステム（図1：右）においては，複数の計算機は複数のディスクドライブなどの二次記憶装置から構成される1つのストレージシステムを共有します。一方，無共有型のシステム（図1：左）においては，複数の計算機はメモリシステムならびにストレージシステムを一切共有しません。

当然，それぞれのアーキテクチャにはほかと比べて優れている点があると考えられています。たとえば，共有メモリ型のシステムにおいては，メモリ空間が共有されているため，プログラミングが比較的容易であり，また，共有ディスク型のシステムにおいては，複数ディスク間の負荷分散が比較的容易であると考えられています。一方，無共有型のシステムは，共有資源への競合が少ないことから，高いスケーラビリティを有すると考えられています［5］。

今日においては，DWHアプライアンスやHadoopなどをはじめとする多くの並列データ処理系が，無共有型のアーキテクチャを採用しています（※2）。本連載における並列データ処理系に関する説明は，おもに，この無共有型のアーキテクチャを対象とします。

※2）: 近年の単一計算機の多くは共有メモリ型アーキテクチャ（SMP型）であるため，多くのデータ処理系や並列データベースは共有メモリ型アーキテクチャに対応した機能を有していると考えられます。共有ディスク型のアーキテクチャに対応した並列データベースとしては，Oracle RACなどが挙げられます。

並列データ処理系の重要性

並列データ処理系が広く利用されるに至るには，それなりの理由があるからでしょう。計算機システムを構成するハードウェア技術の潮流を見ると，その一端を知ることができます。

たとえば，プロセッサコアにおいては，その動作周波数の向上は2008年からほぼ停滞し［6］，また，磁気ディスクドライブのレイテンシの低減は年率5％以下に留まっています［7］。同様に，単一ハードウェアコンポーネントにおけるレイテンシ低減の停滞は，メモリモジュールならびにネットワーク装置を構成するハードウェアにおいても見られます［8］。すなわち，これらの単一のハードウェアコンポーネントから構成される計算機システムにおいては，今後著しい性能向上は期待できないと考えられ，計算機システムの高性能化の実現には，複数のハードウェアコンポーネントを効率的に活用することが重要となると考えられます。

企業においては，たとえば共有メモリ型や共有ディスク型のアーキテクチャのような，ハードウェアを高密度に集積した大型システムが広く利用されている一方で，複数のコモディティサーバを高速なネットワークで接続した無共有型のクラスタシステムが利用されるケースも少なからず見られ，昨今のビッグデータ解析においては，価格性能比の点から，後者が広く利用されつつあることが伺えます。

おわりに

今回は，並列データ処理系の歴史や並列データ処理系が広く普及しつつある背景について解説をしました。次回は，これまで明確に説明してこなかった「並列」という用語を定義し，本連載の対象である並列データ処理系がどのようなものであるかをより明確にしていきます。

参考文献: ［1］D. DeWitt, R. Gerber, G. Graefe, M. Heytens, K. Kumar, M. Muralikrishna. “GAMMA - A High Performance Dataflow Database Machine” Proc. VLDB, pp.228～237, 1986.; ［2］G. Copeland, W. Alexander, E. Boughter, T. Keller. “Data Placement in Bubba,” Proc. SIGMOD, pp.99～108, 1988.; ［3］S. Fushimi, M. Kitsuregawa, H. Tanaka, “An Overview of The System Software of A Parallel Relational Database Machine GRACE”, Proc. VLDB, pp.209～219, 1986.; ［4］M. Stonebraker. “The Case for Shared Nothing”, Database Engineering, Volume 9, pp.4～9, 1986.; ［5］D. DeWitt, J. Gray, “Parallel database systems: the future of high performance database systems”, Commun. ACM 35, 6, pp.85～98, 1992.; ［6］C. Kozyrakis, A. Kansal, S. Sankar, K. Vaid. “Server Engineering Insights for Large-Scale Online Services”, IEEE Micro, Volume 30, pp.8～19, 2010.; ［7］E. Eleftheriou, R. Haas, J. Jelitto, M. Lantz and H. Pozidis. “Trends in Storage Technologies”, IEEE TCDE, 2010.; ［8］D. A. Patterson. “Latency lags bandwith”, Commun. ACM 47, Issue 10, pp.71～75, 2004.

Hadoop, 並列データ処理, データベース

著者プロフィール

山田浩之（やまだひろゆき）

日本アイ・ビー・エム株式会社を経て，ヤフー株式会社にて分散型全文検索エンジンの研究開発に従事。2008年上期未踏IT人材発掘・育成事業において高性能分散型検索エンジンの開発によりスーパークリエータに認定。現在は東京大学生産技術研究所にて高性能並列データ処理系の研究開発に従事。博士（情報理工学）。

著書に『検索エンジン自作入門』。

バックナンバー

Hadoopはどのように動くのか ─並列・分散システム技術から読み解くHadoop処理系の設計と実装

第2回　並列データ処理系の歴史と重要性
第1回　なぜ，Hadoopはどのように動くのか，を学ぶのか

トラックバック

このエントリのトラックバック URI

コメントの記入

お名前
メールアドレス
タイトル
コメント

ピックアップ

サイバーエージェントを支える技術者たち: 「アメーバブログ」などを展開するAmebaを運営するサイバーエージェントの技術者に，多くの魅力的なサービスを支える秘密を伺いました。
開発スピードに限界を感じたときの処方箋: 「JIRA」をはじめとするアトラシアンのツール群。多くのオープンソースソフトウェアを継続して提供する支えとなっている使い易さを探ってみます。
Webプログラマ／デザイナが本気で遊べるガジェット登場！: auから鳴り物入りで登場したスマートフォン「Fx0 LGL25」は，Mozillaが開発した「Firefox OS」を搭載したスマートフォンです。
OpenStack Days Tokyoの歩き方: 2015年2月3，4日に開催される「OpenStack Days Tokyo 2015」。本記事では関係者の方々に見どころと意気込みをお聞きしました。
OpenStack Days Tokyo：ミラクル・リナックスが考えるクラウド管理の決め手: 「OpenStack Days Tokyo 2015」でミラクル・リナックスが提案するOpenStackの運用管理の新しい形を紹介します。
あなたのスマホアプリ開発レベルはどのぐらい？スマ検を受けよう: スマートフォンの普及とともに高まるアプリ開発者のニーズに合わせて開発された「スマートフォンアプリ開発技術検定試験」に関して解説します。
エンジニア向けQAサイト「teratail」とは: 昨年7月にオープンした新たなWebサービス（というよりメディア）の立ち上げ秘話やサービス内容をあますところなく紹介します。

その他の連載

Hadoopはどのように動くのか ─並列・分散システム技術から読み解くHadoop処理系の設計と実装: Hadoop動作のデータ処理系の基礎である並列データベース技術や分散システム技術を解説し，データ処理系の設計や実装を読み解いていきます。
インフラセキュリティの処方箋: 本連載はネットワーク管理者，インフラエンジニアなど向けの情報として，昨今のセキュリティの問題や対策方法を記して行きます。
Ubuntu Weekly Recipe: Ubuntuの強力なデスクトップ機能を活用するための，いろいろなレシピをお届けします。
MySQLをチューニング，そしてスケールアップ／スケールアウトへ: 本連載では，現在MySQLを利用していて，チューニングやより大規模な環境に向けた構成の拡張を体系的に説明することを目的としています。
Serf／Consulで管理を自動化！　～実践的な手法を紹介～: Serfはクラスタ管理用のツールです。Consulはさらにメンバー管理・監視や，システム全体の可用性を高める仕組みが導入されています。
エンジニアの生存戦略: Webエンジニアのキャリアにはどんな道があるのか。自身のキャリアを模索し続けるクックパッドCTOの舘野祐一氏が，先頭を走り続けるエンジニアたちを訪ねます。
デジタルブランドマネジメント: デジタルはどのようにブランドに貢献することができるのか？デジタル一つ一つの要素がブランドに与える利益について検証していきます。
MilkcocoaでBaaSを体験！～バックエンドの仕組みと使い方～: 本特集はBaaSを紹介し，Milkcocoaを使用して，BaaSを利用したアプリケーション開発について紹介いたします。