スモールデータから知見を見出す「スパースモデリング」

画像や音声、文章にも応用可能--実は身近なスパースモデリング

大関真之 2016年04月06日 07時00分

  • このエントリーをはてなブックマークに追加

 連載第4回目では少ないデータから意味を見出すための方法論「スパースモデリング」(スパース性)を実感できる題材として画像処理における利用例を紹介しよう。

 顔はいくつかのパーツに分かれており、それらの組み合わせにより、ある1つの顔ができている。福笑いという遊びがまさにそれだ。少し傾けたりすると途端に違う顔になったり、おかしな顔になったりと変幻自在で愉快な思いをする。そう思うと人の顔というのは実は単純な構造をしているものだ。

 画像は今やスマートフォンや携帯電話に、風景や食べ物など気軽に保存しているデータである。顔の画像も同じように扱われる。しかし、よくよく顔に限定して考えてみると、目、鼻、口、といった明確なパーツに分かれており、そのパーツを組み合わせれば、立派な顔なのだから、どのように組み合わせればいいかを明らかにすれば、人の多種多様な顔を単純に表現できるのではないか。

人間の多様な顔も実はスパース

 そんな福笑いのような発想の研究成果が、1999年のNature誌(Nature 401, 788-791)に掲載されている。当時Bell研究所のDaniel D Lee(現在ペンシルバニア大学)とマサチューセッツ工科大学のH. Sebastian Seung(現在プリンストン大学)らによるものだ。

 非常に多くの人の顔の画像から、顔を表現するための代表的な要素を抽出して、それらをうまく組み合わせれば、個人の顔の画像ができるということを示したものである(図1)。


図1:代表的な顔のパーツとして抽出されたもの

 思惑は確かに予想できるし、結果もうなずけるものだろう。興味深いのは、その顔の表現のための組み合わせ方だ。

 連載を通して、送ってきたメッセージは、たくさんあるデータの中で本質的に効いている部分はどこかをはっきりとさせるのが「スパース性」の役割だとしてきた。今回の対象は、たくさんの人間の画像である。Nature誌に掲載された論文内で使われたデータは2500人に及ぶ顔画像(19×19ピクセルと小さい画像だがデータ数は大きい)から抽出してみると、たった49個の代表的な要素で十分精度よく顔の画像を作り上げることができることを示している。

 しかもその49個の代表的な要素の全てを使うわけではない、いくつかの要素を足し上げて、使わないものもある。つまり重要なものと必要でない要素があるのだ。一方で多様な人間の顔を表現するためには、その全ての代表的な要素は必要なのだ。非常に少ない構成要素で、多様な顔を表現できているというわけだ。

 多様な顔を表現する本質的な部分の抽出、すなわちスパース性が見え隠れしている。当時はスパース性について、強く意識されていなかったものの、今日のデータ解析の1つの大きな流れを構築した論文として非常に多くの研究論文において引用されている。(2016年3月2日時点で6365回であり、驚異的な数字である。)

  • このエントリーをはてなブックマークに追加

関連ホワイトペーパー

SpecialPR

連載

CIO
内山悟志「IT部門はどこに向かうのか」
データドリブンな経営
情報通信技術の新しい使い方
米ZDNet編集長Larryの独り言
谷川耕一「エンプラITならこれは知っとけ」
田中克己「2020年のIT企業」
大木豊成「Apple法人ユースの取説」
林雅之「スマートマシン時代」
デジタルバリューシフト
モノのインターネットの衝撃
松岡功「一言もの申す」
三国大洋のスクラップブック
大河原克行のエンプラ徒然
今週の明言
アナリストの視点
コミュニケーション
情報系システム最適化
モバイル
モバイルファーストは不可逆
通信のゆくえを追う
スマートデバイス戦略
セキュリティ
ベネッセ情報漏えい
ネットワークセキュリティ
セキュリティの論点
OS
XP後のコンピュータ
スペシャル
より賢く活用するためのOSS最新動向
HPE Discover
Oracle OpenWorld
AWS re:Invent 2015 Report
「Windows 10」法人導入の手引き
北川裕康「データアナリティクスの勘所」
Windows Server 2003サポート終了へ秒読み
米株式動向
マーケティングオートメーション
AWS re:Invent 2014
Teradata 2014 PARTNERS
Dreamforce 2014
Windows Server 2003サポート終了
実践ビッグデータ
VMworld 2014
中国ビジネス四方山話
日本株展望
ベトナムでビジネス
アジアのIT
10の事情
エンタープライズトレンド
クラウドと仮想化
NSAデータ収集問題