スモールデータから知見を見出す「スパースモデリング」

スパースモデリングの実践--データから本質を抜き出す

大関真之 2016年01月20日 07時00分

  • このエントリーをはてなブックマークに追加

今日からできるスパースモデリング

 連載第2回目では実践編といこう。スパースモデリングを駆使することで、データからの本質部分を抽出することができるということを第1回で紹介した。さらにさまざまな要因でデータの取得量が制限されてしまう場合に、少量のデータからでも、その性質を生かして満足のいく精度で知見を得ることが可能であることを説明した。

 スパースモデリングの言葉と物語を知るだけではなく、その威力を実際に試し、「あのデータを使って面白いことができないだろうか」と考えを巡らせてもらいたい。もちろん目的によって、どんな解析手段が適するかは変わってくる。しかし、その根底となるやり方は共通しているというのがスパースモデリングの強みである。今回はその基本部分を紹介することで、更なる追求の出発点にしよう。

従来のデータ追従型の解析法

 実験的にある入力をしたときに、出力が得られたとする。このときにこの入力と出力のセットもいくつか得られた。どうもこれは何かの法則に従っているように思う。その背後にある法則を知りたい(「ビールとおむつが一緒に売れる」のようなデータを法則に落とし込むことこそ、ビジネスの現場で必要だ)。例えば前回あげたフックの法則などがその典型例だ。バネにつけたおもりを増やしていくと、バネの長さが伸びる。このときにバネについけたおもりの個数とバネの長さの関係を知りたいとする。

 それでは表1のようにデータが得られたとしよう。図1のようにグラフに示すと、直線の関係がありそうだな、と見当がつく。それぞれの点に合うように画面にボールペンをかざして探ってみたくなる。これはいわゆる直線によるフィッティング、回帰問題と呼ばれるものである。これはさまざまな直線を当てはめて、どんな傾きが良いか、どんな切片(グラフと座標軸の交点)が良いかを探り、最適なものを選択することに対応している。

表1:バネにつけたおもりの個数とバネの長さの関係
X(おもりの個数)12345
Y(バネの長さ)7.05989.257811.648813.782315.9804

 さて皆さんは、人間だ。機械とは違う。柔軟にボールペンをかざして、何となく気に食わないからと傾けたり、上下左右に動かしたりして、どの点にも近い直線を見つけることが何となくできる。点と直線がちょっとズレて、気に食わないなあと思うかもしれない。このズレの大きさを最も小さくなるようにする計算方法を「最小二乗法」と呼ぶ。

 観測データに対して最も近い数式を求めるには、この観測値と平均の差を最小化した計算式が有効であり、「回帰分析」を利用できるため、これまでのデータ解析の基本として利用されてきた。いわば既存の概念の代表格といえる。この人間ができることを代わりにさせるというのが機械学習の発想の基本であり、データ解析の現場で行われていることだ。


図1:バネの長さ(Y)とおもりの個数(X)の関係
  • このエントリーをはてなブックマークに追加

関連ホワイトペーパー

SpecialPR

連載

CIO
内山悟志「IT部門はどこに向かうのか」
データドリブンな経営
情報通信技術の新しい使い方
米ZDNet編集長Larryの独り言
谷川耕一「エンプラITならこれは知っとけ」
田中克己「2020年のIT企業」
大木豊成「Apple法人ユースの取説」
林雅之「スマートマシン時代」
デジタルバリューシフト
モノのインターネットの衝撃
松岡功「一言もの申す」
三国大洋のスクラップブック
大河原克行のエンプラ徒然
今週の明言
アナリストの視点
コミュニケーション
情報系システム最適化
モバイル
モバイルファーストは不可逆
通信のゆくえを追う
スマートデバイス戦略
セキュリティ
ベネッセ情報漏えい
ネットワークセキュリティ
セキュリティの論点
OS
XP後のコンピュータ
スペシャル
より賢く活用するためのOSS最新動向
HPE Discover
Oracle OpenWorld
AWS re:Invent 2015 Report
「Windows 10」法人導入の手引き
北川裕康「データアナリティクスの勘所」
Windows Server 2003サポート終了へ秒読み
米株式動向
マーケティングオートメーション
AWS re:Invent 2014
Teradata 2014 PARTNERS
Dreamforce 2014
Windows Server 2003サポート終了
実践ビッグデータ
VMworld 2014
中国ビジネス四方山話
日本株展望
ベトナムでビジネス
アジアのIT
10の事情
エンタープライズトレンド
クラウドと仮想化
NSAデータ収集問題