ビッグデータのキーワードに
振り回されないために
ビッグデータの時代に必要な技術は多くある。我々はそれぞれの技術が何をしてくれるのか、その限界は何かを正しく知らねばならない。さまざまな専門用語が飛び交っているが、技術のキーワードだけに振り回されてはならない。
Hadoop/MapReduce
Hadoop(ハドューブ)やMapReduce(マップリデュース)は、多数のサーバーの上で巨大なデータを並列に処理するソフトウェア・フレームワークである。ビッグデータと関連してよく耳にする言葉である。その意味では、「ビッグデータ」とは、狭義では「Hadoop/MapReduce(または大きなクラスタ)で解く問題」と言えそうだ。しかし、このような技術で解ける問題は意外と少ない。理由は2つある。
1.非常に大きなデータがあった場合、ランダムサンプリングを行えば母集団の統計的性質をきわめて正確に推定することができる。したがって、もし手元の計算機で手に負えないような大きなデータが得られた場合には、まずはランダムサンプリングを行うべきである。
2.線形な計算量を必要とする分析アルゴリズムがあったとしよう。データ量が100~1012バイト程度のものは、単一の計算機で解けるだろう。一方、1016バイトを超えるものは、1000台のクラスタでHadoopを動かしたとしても解くのは難しいだろう。だから、Hadoopで解けるのは、データ量がたまたま1013~1015バイトくらいに落ちてくれる問題に限ることになる。
ランダムサンプリングがうまくいかない問題とは、対象の特性値(パラメターp)の数がきわめて多いために、大量のデータを必要とするようなものである。このような問題は新NP問題と呼ばれる[1]。例えば遺伝子のマイクロアレイ解析や、大量の消費者の個別消費行動モデルを推定するような問題がこれにあたる。
機械学習
ここ10年近くに渡って、大量のデータから法則を学習する統計的機械学習の技術が急速に進化している[2]。Googleは機械学習をクラウド上で実行するサービスを提供している[3]。また、日本のソフトウェア・ベンチャー企業であるPreferred Infrastructure社は分散機械学習を可能にするオープンソースのフレームワーク「ユバタス」を開発している[4]。機械学習のアルゴリズムは多種多様であり、与えられた問題に対してどの手法を適用すべきかについては、まだ多くの定式化されていない知識が必要である[5]。
- 最終回 データ分析型企業への変革は まずトップから (2013.02.05)
- 第7回 ビッグデータの時代に 一番欠けているのは人財である (2013.01.31)
- 第6回 ビッグデータのキーワードに 振り回されないために (2013.01.29)
- 第5回 経営資源・知財として ビッグデータを最大限に活かす (2013.01.24)
- 第4回 経営者はデータ活用に 明確なビジョンを持つこと (2013.01.22)