適切なデータ分析アプローチを
選択せよ
このようなデータ分析は自動化するのは難しい。何が「面白い」発見であるかを予め決めておくことは、その性質上困難だからだ。面白さを決めるのは多くの場合人間であり、そのため、Descriptiveなデータ分析は通常は人間と機械の協調作業となる。統計データ分析パッケージで各社がデータの視覚化に力をいれているのはそのためだ。
逆に、これらのツールを使いこなす人間の側に要求されるのは、データの裏にあるストーリーを描き出してみせる想像力だ。かつて筆者がセキュリティのコンサルタントをしていたときに、攻撃を受けたあるサイトの調査を依頼されたことがあった。大量のログデータを分析し、攻撃者がいつどのような方法で攻撃を行い、どれだけの機密情報を盗み出したかを再構成するのは、想像力を働かせて仮説を立て、それをデータで検証する、という作業の繰り返しであった。
2. 予測的データ分析(Predictive)
「ある日にビールを買った人が400人、オムツを買った人が350人いて、そのうちの300人はオムツとビールの両方を買った」という面白い事実を教えてくれるのはデータ・マイニングである。しかし、別の日にビールを買う人が250人になったら、どうだろうか? 1000人になったら? それらが30代の男性だったら? ビールを買う人に関するパラメターに対して、それらのうちの何人がオムツを買うか、という予測をする数式を立てることは、予測的データ分析である。
データ・マイニングは確かに何か面白い事象をデータの中から探してきてくれるが、そのような事象が常に起きるかどうかについては、語ってくれない。あくまでも過去に起きたことを見せてくれるだけである。将来に何が起きるか、このまま行くと中南米の市場シェアは下がるのか、あるいは生産力を増強すれば利益があがるのか、そういうことをあなたは知りたいだろう。このためには、過去のデータから法則性を導き出し、それを使ってまだ見ぬデータを推測するしかない。この「法則性を導き出す」ことを統計の言葉で「モデル化」という。回帰分析など多くの統計の手法は、このモデル化そのものである。
- 最終回 データ分析型企業への変革は まずトップから (2013.02.05)
- 第7回 ビッグデータの時代に 一番欠けているのは人財である (2013.01.31)
- 第6回 ビッグデータのキーワードに 振り回されないために (2013.01.29)
- 第5回 経営資源・知財として ビッグデータを最大限に活かす (2013.01.24)
- 第4回 経営者はデータ活用に 明確なビジョンを持つこと (2013.01.22)