はじめに
すでに一部の書店や電子書籍では発売されていますが、1月18日に技術評論社から「効果検証入門〜正しい比較のための因果推論/計量経済学の基礎」が発売されました。
著者はサイバーエージェント AILabの経済学チームのリーダーの安井さん、監修はホクソエムです。
あるご縁でこちらの書籍の執筆時のレビューに、因果推論の初学者という立場で、すこ〜〜〜しだけ参加させていただきました。
実務や研究等で実際に効果検証/分析ができることを目指しており、入門書としては内容が充実した、非常に良い本だと思います。
仕事で効果検証を行いたいと考えている人、計量経済学を学び始めた人、データ分析に興味が出てきた人など、様々な方に対しておすすめできる本です。
今回は、簡単に内容とおすすめポイントを紹介しようと思います。
が、書きたいこと多くて思ったより長いです笑
内容紹介
日々様々な場面で「効果」という言葉を見たり聞いたりすることがあると思います。
その効果とは、本当にそのものの効果を測定して得られた結果でしょうか。もしかしたら思い込みによるものかもしれません。
この時、効果検証つまりデータ分析を行う必要があります。すでに多くの企業や研究においてデータ分析を行い効果検証が行われいています。
しかし、そこには落とし穴があったり、適切な効果検証を行われていなかったりすることが多いです。
本書は、実務や研究において効果検証を適切に行うことを目指してます。
効果検証を適切に行うには、因果推論や計量経済学の知識が非常に役に立ちます。
これらの分野の書籍の多くは、理論的な内容に偏りがちで初学者にはとっつきにくいことが多いです。
一方で、本書のコンセプトとして安井さん自身が学生の時の自分に向けた、初学者にわかりやすい内容にしようという考えがあります。
そのため、因果推論/計量経済学の理論の詳細よりも、活用を目指してバイアスを除くための考え方や各手法で行えること、気をつけるべきことの理解を重視しています。
このような内容の書籍は、なかなかなかったと思います。
本書で紹介しているのは、効果検証に必要な概念や計量経済学で代表的な手法です。
目次は以下の通りです。
- 嘘っぱちの結果とそれを見抜けないデータ分析
- 1章 セレクションバイアスとRCT
- 2章 介入効果を測るための回帰分析
- 3章 傾向スコアを用いた効果の推定
- 4章 差分の差分法(DID)とCausalImpact
- 5章 回帰不連続デザイン(RDD)
- 付録 RとRstudioの基礎
- 因果推論をビジネスにするために
紹介している各手法を利用して、実際のデータを用いたRによる分析を行っています。
- ダイレクトメールによって売り上げは上昇したのか
- 大規模な禁煙キャンペーンは、タバコの売り上げにどの程度影響があったのか
- 学費の割引券の配布が就学にどのような影響があったのか
それぞれの分析では、段階を追って丁寧に分析を行い、気をつけるべき点についても解説がなされています。
そのため、実際に自分でデータ分析を行う際の参考になります。私も非常に参考にさせていただきました。
ちなみに"私はpython派なんだけど"という方はこちらのブログを参考にされると良いかもしれません。
次に、それぞれの章の内容とおすすめポイントを簡単に紹介しようと思います。
1章 セレクションバイアスとRCT
効果検証/因果推論を行っていく際に最も重要な現象/考えの一つに、セレクションバイアスがあります。
セレクションバイアスとは、観察する対象や介入群に割り振られる集団が、母集団の状態とは異なる偏った状態にであるために発生するバイアスです。
実務においてセレクションバイアスを潜在的には気にしている人も多いですが、きちんと理解し対策を適切に考えられる人は少ないのではないのでしょうか。
本書では、このセレクションバイアスはどのような時に発生し、なぜ気をつけてかないといけないのかを、メールマーケティングを例に丁寧に説明しています。
そして、理想的な効果検証の方法であるランダム化比較実験(RCT)も紹介しています。
現在RCTは、A/BテストとしてUIの施策評価等によく使われています。
しかし、A/Bテストでなぜ効果が推定できるのかや気を付けるべき点については、あまりフォーカスされないような気がします。
なぜ、A/Bテストが理想的な効果検証の方法であるのかを理解するのに一助になると思います。
2章 介入効果を測るための回帰分析
回帰分析による因果推論のついて詳しく説明されています。
一番好きな章かもしれません。
最近見かける因果推論をテーマにした書籍では、回帰分析による因果推理についてわかりやすく紹介しているのは見かけないなと個人的には思っています。
その中でも、脱落変数と呼ばれている本来モデルに必要だが含まれていない変数についても紹介しています。
この脱落変数が因果効果の推定に与える影響や、どのような脱落変数をモデルに加えればより良い因果効果の推定ができるのかを詳しく説明しています。
また、実際に回帰分析を行う際に出てくる気になる点についての解説もおこなっており、この章は実務で回帰分析を行う全ての人の手助けになると思います。
3章 傾向スコアを用いた効果の推定
傾向スコアによる分析は、近年色々なところで紹介されていると思います。
介入確率である傾向スコアを推定し、それで介入群の共変量(背景情報)を調整して、純粋な因果効果を推定しようとする手法です。
この傾向スコアを用いた分析の基本的なアイディアから実際に用いるところまで丁寧に説明が行われています。
特筆したいのは、傾向スコアによる重み付けが何を意味しているのかの直感的な説明があるという点です。
この直感的な説明を行っている書籍等はなかなかなかったと感じます。
この直感的な意味合いを理解しておくことは、実際の傾向スコアを用いた分析の手助けになると考えています。
4章 差分の差分法(DID)とCausalImpact
差分の差分の分析とそれを応用したCausalInpactを紹介しています。
時系列データにおけるある施策や変化の効果を測るのに用いたれる代表的な分析方法です。
また、CausalImpactはGoogleが提供している、差分の差分の分析を応用した分析手法です。
これらは比較的実際に適用しやすい手法であると思います。しかし、そこには強い条件が存在しており、実務でその条件に対応していくかのかや気を付けることが紹介されています。
5章 回帰不連続デザイン(RDD)
回帰不連続デザイン(RDD)は、介入が特定の閾値で決定される場合に介入の因果効果を推定する方法です。
RDDで推定できる因果効果は、閾値付近のデータで決まってしまうという特徴も紹介しています。
また、閾値付近のデータを変化させた時に推定される因果効果がどのように変化するのかまで説明しています。
RDDを簡単に紹介している書籍やブログ記事等では、ここまで説明している場合は少ないと思います。
実際にある企業でRDDを用いて行った分析も紹介しており、こちらも参考になりました。
最後に
簡単に内容とおすすめポイントを紹介させてもらいました。
少しでも興味を持っていただければと思います。
本当に良い本だと思いますので、気になる方は一度書店などで中身を確認してみてください。
(あと、たくさん売れてたとしても、私の懐に入るものはないです笑)