現在、シカゴ大学の大学院で教鞭をとる気鋭の経済学者が因果推論について解説した入門書。数式を使わない初学者向けのスタイルでありながら、因果関係を考えるポイントについて的確に指摘しています。
 最近出た、中室牧子・津川友介『「原因と結果」の経済学』とかぶる内容ですが、新書ながらこちらのほうがやや硬めかもしれません(お互いに補うところもあるので、興味があれば両方読んでみるといいでしょう)。

 目次は以下の通り。
第1章 なぜデータから因果関係を導くのは難しいのか
第2章 現実の世界で「実際に実験をしてしまう」――ランダム化比較試験(RCT)
第3章 「境界線」を賢く使うRDデザイン
第4章 「階段状の変化」を賢く使う集積分析
第5章 「複数期間のデータ」を生かすパネル・データ分析
第6章 実践編:データ分析をビジネスや政策形成に生かすためには?
第7章 上級編:データ分析の不完全性や限界を知る
第8章 さらに学びたい方のために:参考図書の紹介

 中室牧子・津川友介『「原因と結果」の経済学』と同じく、この本でもまずは因果関係を推定する難しさを指摘した上で、ランダム化比較実験(RCT)の説明から入っています。
 例えば、広告を出したらアイスクリームの売上が増えたとしても、それは広告のせいではなく、暑さのせいかもしれませんし、口コミなどによるものかもしれません。広告の純粋な効果というのはなかなか推定しにくいものなのです。
 そこで、ランダムに広告を出す地域と出さない地域をつくり、それを比較してみようというのがRCTのやり方です。これによって「もしも広告を出さなかったら…」という介入を受けなかった比較グループをつくり出すことができ、その比較によって因果関係を推定できるのです。

 この本では、オバマ大統領が選挙のときに行ったウェブサイトのデザインの実験(どの写真やメッセージが寄付金を集められるか?)や、著者たちが行った北九州での電力に関する実証実験などが紹介されています。
 この北九州での実験では、ピーク時に価格を引き上げる価格政策が節電効果をもつこと、モラルに訴える節電要請もそれなりに効果を持つが、その効果は価格政策位比べて徐々に薄れていってしまうことなどが示されています。

 しかし、RCTには手間と費用がかかります。そうかんたんには行えないのが実情です。
 そこで、「まるで実験が起こったかのような状況を上手く利用する」のが「自然実験」と呼ばれる手法です(116p)。
 この本では「RDデザイン(回帰不連続設計法)」、「集積分析」、「パネル・データ分析」という3つの手法を紹介しています。

 RDデザインは「不連続」あるいは「境界線」という概念に注目します。
 例えば、日本の医療保険制度では70歳の誕生日を境に医療費の自己負担の割合が変化します(この本で紹介されている実験が行われた時は3割→1割、現在は3割→2割)。
 もし、患者が自己負担額によって医者にかかる回数を変化させるならば、70歳の人は69歳の人よりも医者に多く行っているはずです。
 実際に調べてみると65~69歳いかけて徐々に増えていった外来患者数は70歳でジャンプするようなかたちで増えています(120p)。69歳から70歳になると外来患者数は約10%増えており、これによって自己負担割合が低下すると医者に行く人が増えるという因果関係を示すことが出来たのです。

 他にもこの本ではカリフォルニア州オレンジ郡のなかで2つの電力会社のサービス地域境界線が引かれていることを利用して、電力価格の上昇が電力使用の低下をもたらすということを明らかにした著者たちの研究が紹介されています。

 集積分析は何らかのインセンティブが階段状になっているケースに注目します。例えば、日本の所得税の税率などは収入が高くなるほど階段状に上がっていきます。
 こうした例の中に自動車の燃費規制があります。日本では自動車の燃費は自動車の重量に従って階段状に規制がかかっており、重量が軽いほど燃費の規制が厳しくなっています。
 ですから、自動車メーカーが燃費の基準をクリアーしようとする時、燃費を向上させるという方法だけではなく、自動車の重量を重くするという方法も存在するのです。

 実際に日本で発売された車の重量を調べてみると、ちょうど基準の上限を少し超えたところに集中していることがわかります(156pのグラフを参照)。
 つまり燃費規制によって本来は意図しなかった自動車重量の増加が起きているのです。
 自動車重量が増加すると、燃費規制は当初の意図ほど効果を発揮しませんし、事故のときに相手により大きなダメージを与えることになります。著者たちの研究によると、この事故のときの安全性の点だけでも年間約1000億円の社会的損失になっているそうです(165p)。
 このように集積分析では、実際に運用されている制度から因果関係を推定することが出来るのです。

 パネル・データとは、複数のグループに対し、複数の期間のデータが手に入る場合のデータを指します。履歴的なデータが手に入る時、それを分析することで因果関係が推定できる場合があるのです。
 デンマークでは1991年に税制改正があり、年間所得が10万3000クローネ(約1200万円)を超える外国人労働者の所得税が大幅に低くなりました。もし、多くの人がこの制度改正のもたらすインセンティブに反応したとするなら、91年を境に年間所得が10万3000クローネ以上の外国人労働者が伸びているはずです。
 そして、実際にデンマーク政府のもつ納税データを分析してみると、91年以降、年間所得が10万3000クローネにわずかに届かないグループに比べて、年間所得が10万3000クローネ以上のグループの伸びが目立っています(181pのグラフを参照)。
 これをもって「税率の変更が移民に影響を与えた」という因果関係が推定できそうですが、この本ではそれまでのトレンドや、他の要因(他国で高所得者層への増税があった、など)を分析してみないと因果関係があるとはいえないということに注意を向けています。

 第6章では、本書で紹介したデータ分析の手法が実際にどのように使われているかということが紹介されています。
 特にウーバー社のビッグデータを用いた、価格と客の利用状況についての分析は興味深いです。ウーバーでは地域内で路上に出ている車よりも利用者が大幅に増えた場合、価格を1.2倍、1.5倍、2倍などを引き上げて需要を抑制しています。
 この引き上げはウーバーの計算する需要逼迫指数によって決めれらるのですが、この変化は階段上に行われており(一定の逼迫指数を超えると価格が次の段階へ引き上げられる)、先述のRDデザインの要件を満たしていると考えられます。
 この研究ではデータ分析によってウーバーのリアルな需要曲線を描くことに成功しています(230pのグラフ)。需要曲線や供給曲線は一種の「お約束」として捉えられがちなので、こういった実際のデータに基づくものを見ると「おおっ」となりますね(ちなみに神取道宏『ミクロ経済学の力』では平均費用や限界費用の曲線を東北電力の費用曲線を例にして見せてくれていて「おおっ」となった)。

 第7章では、それぞれの手法の注意すべき点やその限界が述べられています。特に実験参加者に対する因果関係が導かれているかという「内的妥当性」とそれが他のグループにも適用できるかという「外的妥当性」の問題についてはわかりやすく紹介されており、RCTが必ずしも万能ではないということが示されています。
 「内的妥当性の観点から言えば、RCTは王様」ですが、「外的妥当性を考慮すると、RCTが最も優れた分析手法とは言い切れなくなる場合も」あるのです(247p)。

 このようにデータからの因果推論の考え方を丁寧かつ鋭く教えてくれています。
 中室牧子・津川友介『「原因と結果」の経済学』に比べると紹介されている分析方法は少ないですが、RDデザインなどの説明はより丁寧かつ明解だと感じました。『「原因と結果」の経済学』が因果推論についてキャッチーな題材を使ってカタログ的に紹介してくれているのに対して、本書はもう少し手法の細かい点にまでこだわった紹介になっています。
 入門書でありながら、ある程度知識のある人にも重要なポイントを明確にし、新しい知見を与えてくれる優れた本だと思います。


データ分析の力 因果関係に迫る思考法 (光文社新書)
伊藤 公一朗
4334039863