これまでの放送
~統計学ブームのヒミツ~
買い物客で、にぎわう商店街。
街の人たちに、ある質問をしてみました。
ある食べ物を食べることを禁止すべきか、という質問です。
心筋梗塞で死亡した人の95%が、この食べ物を摂取していた。
そして、がん患者の98%。
強盗など、凶悪犯罪者の90%が犯行前、24時間に摂取していた食べ物。
これは禁止すべきか否か。
街の人
「やっぱり禁止すべきだね、私だったら。」
街の人
「95%ですもんね。
禁止したほうがいいような気がする。」
街の人
「すごい好きなものだったら、どうすんの?」
街の人
「禁止すべきですよね。
これだけの結果が出てるってことはね。」
答えは、なんと、ごはんです。
街の人
「えー!
うそ!」
街の人
「だましたな。
よくも。」
ちまたにあふれる洪水のような数字。
振り回されないために今、統計学が注目されています。
出版界では、統計学の入門書が、5か月で25万部超えの大ヒット。
数字やデータの扱いに悩む人々が、改めて学び始めているのです。
男性
「こんなに必要になるとは思ってなかった。」
ビジネスでも、ビッグデータ時代。
膨大な情報をどう扱えばいいのか悩む、多くの企業が統計学のプロに殺到しています。
統計学の力とは何か。
今夜(3日)は、ブームの秘密を探ります。
街の中で目に留まるさまざまな数字のカラクリを、統計学の観点から解き明かす、大阪大学教授の狩野裕さんです。
例えば、大学の周りでよく見かける、アパートの広告。
その中に、受験の際に仮契約すると、合格率が、なんと7割を超えるという売り文句がありました。
大阪大学教授 狩野裕さん
「こういうのをパッと見せられると、1%でも有利にならないかという親心がでる。」
親も学生も、思わずすがりたくなる、この数字。
狩野さんが、この不動産屋に確認したところ、うそではありませんでした。
しかし、うのみにしてもいけません。
そこには、統計学の初歩が分かれば、簡単に見抜けるカラクリがあります。
受験生は、合格ラインを越える実力を持つ学生から、記念受験の人まで、その学力には大きな開きがあります。
しかし、合格前にアパートを仮契約するほど自信があるのは、実力のある受験生が大半です。
不動産屋のうたう高い合格率は、データのもとになる学生に偏りがあったのです。
大阪大学教授 狩野裕さん
「これが数字のからくり。
予約をしたら、合格率が高まると思わせてる。
そこが非常にうまい。」
私たちが、あふれる数字に惑わされないためには、さらに統計学の基礎の1つ、適切に比較するということも重要です。
街の人
「心筋梗塞で死亡した人の“95%”が、この食べ物を摂取していた。」
例えば、番組冒頭街で聞いた、この食べ物は禁止すべきかどうかの質問。
「答えは、これなんですけど。」
街の人
「あれ?」
街の人
「俺も今、これ言おうかなと思ったんだよ。」
街の人
「そう、お米ですか!」
街の人
「ごはん!」
街の人
「そうか、そうだよね。」
街の人
「えっ、なんで?」
街の人
「だから、日本人はごはんを食べるじゃない。
毎日ごはんを食べるでしょ。
そうやって考えれば、こういう統計になるよね。」
このとき、もし統計学の比較という考え方を知っていたら…?
街の人
「そうだよね。」
仮に、心筋梗塞で亡くなった人の95%がごはんを食べていたというデータがあったとしても、健康な人と比較し、同じくらいの割合で食べていれば、ごはんが病気の原因だとは言えません。
おまけに、今回20人の皆さんからいただいた答えも、統計的にお見せします。
結果は、16人対4人。
偏った意見だけを伝えているわけではありません。
しかし、本来はもっとランダムに、場所や時間に偏りなく、少なくとも1,000人にアンケートをとらないと、正しい傾向は見えないといいます。
数字の偏り、そして比較。
これだけでは、ちょっともの足りないというテレビの前のあなた、理科系の大学生レベルの知識を、大阪大学の狩野さんの授業で学びましょう。
大阪大学教授 狩野裕さん
「今日のテーマは、これ。」
この日、統計学の授業で取り上げたのは、プロ野球でボールがひそかに変えられ、ホームランの数が増えた、あの統一球問題。
ホームランが増えたのは偶然ではないことが、統計学を使うと分かるというのです。
着目したのは、ホームランの数の急激な増え方です。
去年(2012年)は、1年間で881本だったのに対し、今年(2013年)は、2か月余りで、512本に達していました。
そこで狩野さんは、カイ二乗検定と呼ばれる、少し専門的な手法で確かめました。
すると、去年と同じボールで、512本ものホームランが偶然出る確率は、僅か1%以下。
つまり、ホームランの増加は偶然ではなく、別の理由があると考えることができるのです。
大阪大学教授 狩野裕さん
「当局が真実を隠しても、データは、うそをつかない。」
大阪大学教授 狩野裕さん
「物事は、重要なことが、やはり隠されていることがあるということですね。
それをこう発見していくというような、そういう姿勢ですよね。
それを、まずはデータをとって眺めてみる、分析してみるというのが、物事の、やっぱりスタートラインでしょうと。」
大量の情報やデータが身の回りに氾濫する中、数字の裏に潜む事実を見抜く、統計学的なセンスが今、私たちに問われています。
●数字を目の前にすると、だまされやすいですね
そうですね、やっぱり数字というのは、必ずカラクリがあるわけですね。
ただ、それに気付かない人が意外と多いんですね。
(しかし、先ほどの比較をしてみると、あっ、なんだっていう。)
そうですね。
数字っていうのは、必ず誰かが、ある目的を持って集めていたりするわけですね。
つまり、誰がどんな方法で集めたのかっていうのが分かってないと、その数字は信用できないということですね。
例えば、3%という数字があるとします。
その3%っていうのは、3%ではないんですよ。
つまり、その周囲に誤差がありますね。
例えば、視聴率なんかの場合ですと、7%とか3%とか言いますが、それが誤差が2%あるという場合であれば、その幅があるんですね。
あと、その幅のほかに、背景となる、実は分布っていうものがあるんですよ。
ですからそういった、なんて言うんでしょう、統計学のキーワードと言いますか、それを知っているか、知っていないかで、数字にだまされるかどうかっていう、それが分かれ目ですね。
●“誤差”と“分布”とは?
ちょっとここにフリップを持ってきたので、これで説明したいと思いますが、これは日本人の貯蓄高ですね。
これ、ですから横軸が貯蓄高で、上、例えば3,000万円とか書いてありますね。
こちらの縦軸が、世帯のパーセンテージですね。
これ、平均値っていうのは、1,664万円というふうに言われているんですが、これ、ちょっと違和感がありますよね?
つまり、自分の周囲に、この1,664万円を貯蓄してる人って、そんなに多くないんですよ。
おかしい。
これはつまりですね、上から数えて、あるいは下から数えて、ちょうど真ん中に来る人が、いくら貯蓄してるかと。
これはですね、ここにちょっと今、剥ぎますが、中央値という、実は別の指標があるんですね。
つまり、真ん中の人は、991万円なんですよ。
恐らく、これのほうが実感としては正しいわけですね。
(100万円未満の方、あるいは100万から200万の方が多いと?)
非常に大勢いると。
それから、こちらの4,000万円以上の方、この方が平均値を引っ張り上げちゃってるんですね。
これはつまり、こういう形の分布で、べき分布と言いますけれども、この場合は、中央値と平均値、両方見ないと分からない。
この分布というのが背景にあるんだっていうのを知らないと、だめなんですね。
例えば、これがこういう形で、ベルカーブと言いますけど、チリンチリンと鳴る鐘ですね。
ああいう形の分布であれば、ちょっと今ずれましたが、平均値と中央値は大体、同じに来るわけです。
その場合であれば、平均値だけを語ってもかまわないんですが、こういう貯蓄なんかの場合ですと、これはいろんな指標と、それから分布ですね。
これを語らないと、データというのは読めないですね。
●どれだけの母数で捉えたものなのかも、大事なわけですね?
そうですね。
調査の数が多くなればなるほど、誤差は小さくなります。
ただですね、これ、全数調査と言いますが、全部調査することはできないので、サンプル調査になってしまいます。
偏ったデータであると、また、それが意味がないんですね。
なので、無作為抽出ということばを使いますが、ランダムなデータ、それをある程度の数、集めないと、その数字は信用できないってことなんですね。
(誤差もしっかりと書いてないと、信用できないと?)
そうですね。
誤差が書いてないデータは、科学データにあらずということですね。
先月(6月)中旬、東京都内で開かれた、統計学のシンポジウムです。
集まったのは、さまざまな業種の企業150社のマーケティング担当者たち。
皆が、その登場を待っていたのは、データサイエンティストの工藤卓哉さんです。
統計学を駆使して、ビジネスのさまざまな課題を解決するプロ。
工藤さんは、日本の第一人者と言われます。
データサイエンティスト 工藤卓哉さん
「ビッグデータ時代の戦い方は、統計の力なのかなと。」
工藤さんは、現在30社ものクライアント企業を抱えていますが、新しい依頼が毎週、舞い込んでくるといいます。
「21世紀で一番セクシーな職業と言われていますが?」
データサイエンティスト 工藤卓哉さん
「いや、セクシーじゃないですね、これは。
ドロドロですね、これ。」
ビッグデータをどう活用すればいいか分からない企業が多く、工藤さんら、データサイエンティストに注目が集まっているのです。
それにしても、なぜ、かくもデータサイエンティストが人気なのか。
それは、膨大なデータへの正しいアプローチを見抜き、誰も気付いていない事実ビッグXを見つけることができるからです。
例えば、効果的に客を呼び込む方法を考えてほしいという、あるチェーン店からの依頼。
企業から工藤さんに託されたデータは、街を歩く人々の、4億件以上にもなる地理空間情報。
それを地図に落とし込むと…。
しかし、これでは何をどうしたらいいのか分かりません。
データサイエンティスト 工藤卓哉さん
「左はデータのゴミというか、海みたいになってる。
それを統計のアルゴリズム(計算方法)を入れることによって、人の大体の流れというのが集約して、右のように見えるようになる。」
工藤さんは、たくさんの統計モデルの中から、ビジネスの世界で、まだほとんど使われていないという、最先端の隠れマルコフモデルを使い、分析を行いました。
これによって、ねらった顧客層が、どの場所をどの方向に向かって歩くのかなど、収益につながる人の流れの傾向が浮かび上がりました。
このビッグXによって、工藤さんは、どこに集中的に広告を出せばいいのかなど、最小のコストで、最大の効果が得られる戦略をクライアントに提案したのです。
データサイエンティスト 工藤卓哉さん
「ビッグデータの中から、何か示唆を得る。
これが、だいご味。
ただ、これ(データ分析)で終わっても、ふーんとなってしまうので、ちゃんと『施策』をつなげる所を作っていくというのが、だいご味。」
しかし、クライアントが出してくるデータのほとんどが、そのままでは分析できないのが現状です。
その理由は、データの欠損。
これが多いと、ビッグデータと言っても、ゴミの山。
それを宝の山に変えなければなりません。
数千もの欠損値を、統計学のスキルやヒアリングで類推し、補完していく。
ビッグXを見つけ出すのは、気の遠くなるような仕事なのです。
データサイエンティスト 工藤卓哉さん
「データサイエンスが複雑だとか、謎めいているとか言われるけど、そうじゃなくて、地道な作業の繰り返し。」
企業の中には、数多くのデータサイエンティストを集め、競争に打ち勝とうとするところも出てきました。
この情報サービス企業では去年、専門のチームを作り、社内外から90人以上も集めました。
チームのリーダーで、データサイエンティストの西郷彰さんです。
統計学を使って、極めて小さい誤差で予測を行う達人です。
データサイエンティスト 西郷彰さん
「どう説明したら、わかりやすいかなと思って。」
広告費を効率化せよ、という経営課題。
西郷さんは、そのために、ウェブサイトに登録する人の数の推移を、できるだけ正確に予測します。
もとになるのが、この数式。
ロケットや衛星の軌道を予測する、これまた最新の統計モデルを組み込みます。
ウェブ広告やテレビ広告、景気など、Xは、登録者数の増減に影響する要素です。
西郷さんたちは、このXを、実に100まで作り出しました。
気温、天気、災害、そして、政策や株式市場の変動、オリンピックなど。
一見、登録者数には関係のなさそうな、世界中の森羅万象が網羅されています。
しかも、それらが日々変化するのも反映されるよう、設計されているのです。
データサイエンティスト 西郷彰さん
「95%の確率で(誤差が)この範囲に収まります。」
数式に現実の数字を入れた登録者予測が、こちら。
この先1年半、極めて小さな誤差で予測でき、それによって、時期ごとの広告費の予算配分が最適化できるといいます。
大勢のデータサイエンティストの手による高度な予測モデルで、勘や経験ではなく、根拠に基づいた未来予測が可能になりました。
データサイエンティスト 西郷彰さん
「きちんと(登録者数が)この範囲におさまりますとか、この範囲外になることは確率として95%ありませんよ、と説明できる。
安心して意思決定とか、投資判断が出来る。」
●データサイエンティスト 引く手あまたの状況をどう見る?
そうですね、データの量と種類が結構、最近、ものすごく増えているということですね。
つまり、昔は実験とか調査をやって、その結果をコンピューターに入れて、それを分析するっていう、そういう流れだったんですけど、最近では、一人一人がデータを入力している。
例えばコンビニでカード決済したりとか、あるいは最近ではセンサーっていうのがあって、いろんな種類があって、千差万別なんですけれども、そういった自動的にデータをとるというテクノロジーが、本当に発達してきていると、そういうこともデータが爆発的に増えているという理由ですね。
もう1つは、官公庁、やっぱりデータを使ってほしいということで、かなりいろんなものを出してきているということがあって、そういったものを、データをいかに分析するかっていう、そういったノウハウを持った人材が、やっぱり今求められてると、そういうふうに考えております。
●データはあっても、欠損してるものが多々見られる?
データって言いましたけれども、データっていうのは基本的には、数値情報、最近では、テキスト情報とかあるんですけれども、数値と、それの背景情報があると。
今おっしゃった欠損に関しても、なぜそれが欠損したかっていう情報があれば、その欠損したところをなんとか埋めることができるということで、分析に使える。
ですから、何も知らないと、欠損してると、これ、慌ててしまうんですけれども、そういった背景情報があり、そういったものを埋めるテクノロジーがあれば、データとして使えると、そういうふうになっているわけです。
(どうやって、いつ、なぜ、取られたか等を、しっかり知ることも大事ですね。)
そうですね。
やっぱり、データが、どうとられたかということを知ることが大事です。
最近では、昔は例えば巨人、大鵬、卵焼きみたいな、皆さんの嗜好(しこう)も結構均一だったんですけど、最近では価値観が非常に多様化してきていて、いろんな方々が、消費者とかいらっしゃるということですね。
そういったところに例えば、ダイレクトメールを送るといった場合でも、一様に送ったんでは効果がない。
だから、こういったグループには送れば効果がある、こういったグループはあんまり送っても意味がないというのであれば、広告費が結構抑制できるし、効果が上がると、そういうことが言えると思います。
(そういったものがビッグXというわけですね?)
そうですね、そういったものがもし見つかれば、非常にありがたいということですね。
●ビッグXを、公共政策などで導き出せる可能性は?
これは先ほど、いちばん最初にやった比較っていうことがあったと思うんですけど、やっぱり政策とかプログラムというのがあって、政策プログラムなんかを、効果をきちんと把握するということが非常に重要でありまして、例えば今だったら、職業訓練プログラムがあって、そこに入って、アンケートとって、よかったですかという話になるんですけれども、そうではなくて、そこに入る人と、入らない人をランダムに分けて、そしてそこで、そのプログラムの効果をきちんとデータとして扱うというようなことが、これからますます重要になると。
やっぱり財政が、ちょっと財政難なんかの場合には、やっぱり、そういった税金とか、そういったものを効果的に使うためにも、統計学は非常に重要だと思います。
(費用対効果ということですね。)
●日本は、統計学を使える人たちが少ない?
そうですね。
やはり人材の育成というのが、もう急務だというふうに考えております。
(本当に統一した統計学科もないということですよね?)
ぜひそういったものを作りたい、われわれも思っておりますけれども。