(cache) あなたが知らないランダム化比較実験にある落とし穴: ニュースの社会科学的な裏側

Facebookが被験者に無断で情動感染実験を行ったことが問題になったが、医学などに限らず人間を被験者として使う社会実験では、よく倫理的な問題が話題に上がる。

ランダム化比較実験（RCT）^*1が定番で、これはランダムに被験者をトリートメント群とコントロール群をわけて、トリートメント群にだけ何かを処置し、トリートメント群とコントロール群の差を測定する方法だ。こうしないと薬を飲むのは病人だから、薬を飲む人は不健康と言った同時性の問題に悩まされる事になる。しかし、薬の効果を見るために病人の半数に偽薬を与えて何も措置をしないと言うのは、非人道的な側面がある。

1. RCTは統計的な問題も抱える

RCTは統計的には望ましいが倫理的には悩ましいと一般には思われているのだが、実は統計的にも問題を抱え込む可能性があると言う指摘が、Ziliak and Teather-Posadas(2014)でされていた。FT誌の記事で参照されていた論文なのだが、同誌では倫理面に重点を置いており、計量的な問題の紹介が軽かった。しかし、無視していいような問題でもないようだ。

2. RCTはシンプソンのパラドックスが発生しやすい

シンプソンのパラドックスとは、母集団での傾向が、母集団を分割した集団では異なって観察される現象だ。こう書くと意味が分からないであろうから、論文から具体例を転載したい。

まずは全ての被験者のデータが含まれる母集団の結果を見てみよう。

全ての被験者
T/C	成功	失敗	成功率
トリートメント群	40	40	80	50%
コントロール群	32	48	89	40%

全体で見ると、トリートメント群の成功率が高い。

男性
T/C	成功	失敗	成功率
トリートメント群	36	24	60	60%
コントロール群	14	6	20	70%

男性だけで見ると、トリートメント群の成功率が低い。

女性
T/C	成功	失敗	成功率
トリートメント群	4	16	20	20%
コントロール群	18	42	80	30%

女性だけで見ると、トリートメント群の成功率が低い。

トリートメント群の成功率が低い男性と女性のデータをあわせると、トリートメント群の成功率が高い全体のデータができてしまう。一体何が起きているのであろうか？

数字を注意深く見ると男女は80づつで同数で、トリートメント群とコントロール群も80づつ同数だが、男性のトリートメント群と女性のトリートメント群、男性のコントロール群と女性のコントロール群の数が異なる事が分かる。不十分な層化抽出方法だと、こういった偏りが出て来やすい。

単なる確率的な偏りだけではなく、調査員や被験者の行動によって偏りが入り込む可能性もある。論文では中国のメガネによる視力矯正の効果を測る実験の例があげられていたが、調査員の男女に対する態度が異なっていたようだし、教員や村の重鎮の子供はメガネを受け取らなかったそうだ。

RCTとは言え、しっかり層化抽出をしないと結果は信頼できない。

3. RCTは選択バイアスが入りやすい

これも意外な感じがするが、RCTは選択バイアスが入りやすいことが古くから知られていた。RCT発案者で最尤法の発明者のフィッシャーと、t検定の発明者のゴセットの論争があったそうだ。フィッシャーは最後まで納得しなかったそうだが、経験的に認識されている。

作物栽培学の具体例があげられていたので見てみよう。農地を分割して、肥料や農薬の効果を観察することを考える。農地は右の方が肥沃で作物が良く育つが、それは事前には観察できていない。

さて、RCTでトリートメント群（図中でT）とコントロール群（図中でC）を分割すると、これも論文中で紹介された例なのだが、ランダムなので以下のようになる場合もある。

左から5列目まではTとCの数は同じだが、右から4列目まではTが左側、Cが右側によっている。相対的にTが痩せた土壌にあることになるので、バイアスが入ってしまう。しかも、どの区画がTで、どの区画がCなのかが分かりづらいので実験が煩雑になってしまう。

この問題に関するゴセットの解決方法は以下になる。もはやランダム化していないが、結果的には均等に抽出する事が出来ている。また、TとCの区画は明確に分かれるため、実験の煩雑さは最小限に抑えられる^*2。

大標本があればランダム化した方が望ましい。もしかしたら、4、5列目だけが肥沃である可能性もあるからだ。ゴセットの方法ではバイアスが入ってしまう。しかし、小標本ではRCTは収束が遅いのであろう^*3。ゴセットの方法のほうが現実的に、選択バイアスを排除できる。

社会実験でゴセットの方法が望ましいとは限らない。経済学クラスタの政治学者に指摘されたのだが、「有権者名簿つかってそれやると，成人男女のペアにより構成される世帯が多いので，男女が処置群と対照群に偏って分かれたりする」からだ。しかし、調査対象の性質を考えて、非無作為抽出を行った方が良い場合は多いであろう。

何はともあれRCTに選択バイアスが入りやすいのは変わらない。なお、予算や時間の都合などで意図的にサンプルを削ってバイアスが入っているケースもあるそうだ。

4. RCTにある落とし穴

どちらも小標本である事と不適切な実験デザインに起因するわけだが、シンプソンのパラドックスと選択バイアスが生じやすい事は、RCTにある落とし穴として知っておく方が良いと思う。上の論文では実際に幾つもの論文のレビューを行い、少なからず疑義が含まれている事を示している。

その代替となるPSMやIVにも悩ましい問題があるので、RCTを避けるべきと言うわけではないが、RCTだからと言ってバイアスとは無縁と考えない方がいいのは確かなようだ。少しテクニカルな議論ではあるが、社会実験からの知見が政策的に重視される傾向はあるので、計量分析の専門家で無くとも政治に関心のある人は、この辺の癖を知っておく方が良いとは思う。

え、こんなことは全部知っていたって？ ─ ご拝聴ありがとうございました(´･ω･`) ｼｮﾎﾞｰﾝ

*1関連記事：汝、ランダム化比較試験を知ることなく現代科学を語ることなかれ

*2統計的にはモザイク状にするのが望ましいが、実行するには管理が煩雑になりすぎるのだと思われる。

*3円の面積を求めるモンテカルロ・シミュレーションでも、完全にランダムにサンプルの点を採取するより、等間隔に区切った点を採取したほうが収束は早くなる。