プロペンシティスコア(Propensity score; 以下PS)に関するお話の後半はこの方法論に関する誤解に関してご説明したいと思います。PSはローゼンバウムとルービンが1980年代に開発した方法論であり、私はハーバード大学でルービンの因果推論を勉強し、そのフレームワークの中でPSを習いました(実際にはルービンの弟子に習い、ルービンはゲストとして1回来ただけでしたが・・・)。疫学の授業でもPSを習ったことがあり、それらを対比することでアメリカでもPSがしばしば間違って用いられていると思いました。ほとんどは1983年のローゼンバウムとルービンの論文をきちんと読んで理解していないための誤解だと思います。PSはきちんとした統計学的理論に基づいた方法論ですが、間違った方法で用いると正しい因果推論はできなくなってしまいます。PSに関する誤解をここでまとめたいと思います。
(1)PSは万能??
×PSを使うことでありとあらゆるバイアスを取り除ける
○PSはPSモデルに投入された因子のみ対処できる
PSでマッチングするとありとあらゆるバイアスを取り除けると言う誤解がありますが、それは真実ではありません。実際にはPSは観察された交絡因子しか調整できません。それどころか、PSはPSモデルに投入された因子しか対処していません(つまり観察されていて測定されていてもPSモデルに含まれていなければ何もしていないのと同じです)。PSモデルに含まれていない因子は対応できませんし、いわんおや観察されていない交絡因子(unobserved confounder)には全く無力です。以前のブログでもご説明したように、観察されていない交絡因子の影響を取り除くことができるのはRCTとIVの2つだけになります。
PSのそもそもの前提条件として、全ての交絡因子が測定されておりデータとして手元にあることが必要となります。もし重大な交絡因子が測定されておらず、データとして入手することができないのであれば、PSは(少なくとも完全な形では)使うことができません。逆にPSを用いてマッチングをすることで、観察されていない交絡因子の2群間のバランスが悪くなると言う人達もいますが、それも正しくありません(詳しい説明は省略させて頂きます)。
(2)PS vs. 重回帰分析
×PSも重回帰分析も得られる結局のところ結果はほとんど変わらない
○PSは重回帰分析よりも優れた点がいくつかある
PSと重回帰分析(Multivariable regression)はほとんど変わらないと言う誤解がありますが、それも正しくありません。少なくとも2つの点においてPSの方が優れている方法であると考えられています。一つ目は、PSではPSのスコアがオーバーラップする部分であるコモンサポート(Common support)にある人のデータしか使いません。つまり、いかなる状態でも必ず治療群に含まれる人、およびいかなる状況でも必ずコントロール群に含まれる人は解析から除外されます。これらの人達に反事実Counterfactual(治療群に含まれた人でしたらもし仮に治療を受けなったらアウトカムがどうなっていたか、そしてコントロール群の人だったらもし仮に治療を受けていたらどうなっていたか)がありません。この「もし仮に・・・」のシナリオが存在しないからです。PSによる解析ではこのコモンサポートの外にある人達のデータは使わないので、より厳格な因果推論を行うことができると考えられています。重回帰分析ではこのようなコモンサポートの外にいる人もあたかもCounterfactualがあるかのように扱い、その他の人達と同じようにデータに含まれてしまいます(というか区別することすらできません)。このような解析は英語ではExtrapolation(外挿)と呼ばれ好ましくないことであるとされています。二つ目は、PSでは間違ったモデルを作ってしまう(misspecification)可能性が低く、データの分布に関してもよりフレキシブルであると考えられます。例えばアウトカムが血圧であり、連続変数であるため線形回帰分析が用いられたとします。説明変数に年齢と性別が入っていたとします。年齢を連続変数で用いた場合には、血圧と年齢が線形の相関にある(Y軸を血圧、X軸を年齢としてグラフを書くとこの2つは線形である)ことを仮定してしまいます。でもこれが正しいかは分かりません。年齢と性別の間で相互作用(interaction term)が必要かどうかは誰も教えてくれません。PSの強みは、PSモデルに含まれる変数が2群間でバランスが得られるまでPSモデルを作り直し続けます。その過程の中で年齢の2乗、3乗が必要であることが分かるかもしれませんし、相互作用が必要になるかもしれません。2群間でバランスが得られるということ自体が、そのPSモデルが正しい(misspecificationが無い)ということの証明になっています。そのため、回帰分析ほどはモデルが間違っているリスクを心配する必要がありません。逆に言うと、コモンサポートを無視して、PSモデルに線形でしか変数を投入しなければ(2乗、3乗などを用いず、相互作用も使わなければ)、確かにPSも重回帰分析も結果はほぼ同一になると考えられます。
(3)PSモデルに含めるべき変数は?
×PSモデルには交絡因子だけ含まれていれば良い
○PSモデルには交絡因子だけでなくアウトカムの予測因子も含めるべきである
疫学者の中にはPSモデルには交絡因子だけ含まれていれば良いと考えている人達がいます。実際に私もハーバード公衆衛生大学院のミゲル・ハーナン教授と直接ディスカッションしたことがありますが、彼にも交絡因子だけ含まれていれば良いと言われました。しかし、ルービンによるとPSモデルには交絡因子とアウトカムの予測因子の両者が含まれている必要があります。確かにPSモデルに交絡因子が全て含まれていれば、交絡は完全に取り除くことができ、RCTと同じであると考えることができるかもしれません。しかしながら、無作為割り付けの失敗(Randomization failure)と同じような状況になってしまうリスクがあります。つまり、PSモデルに交絡因子のみを含んだ解析を100万回行えば、平均すると(on average)比較可能な2群を作りだすことができます。一方で、自分の目の前にある一つのデータセットにおいてはたまたまアンラッキーなことに2群が比較可能ではないというリスクがあります。治療を医療保険、アウトカムを糖尿病の発症率だとします。交絡因子であるためには、治療(医療保険)とアウトカム(糖尿病の発症率)の両者の共通の原因である必要があります(詳しくは以前のブログをご覧ください)。仮に糖尿病の家族歴があるかどうかが、その人が医療保険を持っているかに全く関係がないとします(オバマケアによって医療保険会社はカバーすることを拒否することができなくなったので十分あり得るシナリオです)。そうすると、糖尿病の家族歴は治療(医療保険)の原因では無くなるので、交絡因子ではありません。PSモデルに糖尿病の家族歴を含めなければ、高率に2群間でバランスが悪くなります。糖尿病の家族歴がある人の割合が、医療保険を持っていない群で50%、持っている群で20%だったとします(この割合はランダムですのでどのような割合でもあり得ます)。医療保険を持っていない群でアウトカムである糖尿病の発生率が5年で10%、医療保険を持っていない群で5%だったとします。医療保険が糖尿病を引き起こしているのでしょうか?明らかに違うことが分かって頂けると思います。あくまでアウトカムの予測因子が十分に2群間でバランスが取れていないため、バイアスを伴った推定をしてしまっただけであると考えられます。PSでは、RCTのテーブル1のようにアウトカムの予測因子が2群間でバランスが取れていることを示すことが第一段階です。RCTにおいて2群間でバランスが取れていることを示す必要があるのはアウトカムの予測因子ですので、PSでもアウトカムの予測因子をPSモデルに含める必要があります。それでは、交絡因子・アウトカムの予測因子以外のありとあらゆる変数をPSモデルに含めるのはどうでしょうか?重要な変数に関して2群間でバランスを達成するのもけっこう大変ですので、あまり重要ではない変数までバランスを確保するのはかなりの労力が必要となります。その割にバイアスを減らすことも、推定の精度も高める(推定の信頼区間を狭くする)ことも無いので(PSモデルでは点推定値Point estimateしか用いないため)、そのメリットはほとんど無いと思われます。さらには治療の予測因子であるもののアウトカムの予測因子ではない操作変数(IV)のような変数はPSモデルに含めない方が良いとされています。
(4)良いPSモデルとは?
×良いPSモデルとは治療の割り付けを正確に予測することのできるモデルである
○良いPSモデルとは2群間の変数のバランスが得られるモデルである
もう一つの大きな誤解は多くの人がPSモデルがいかに良好に治療の割り付けを予測できるかがとても重要であると多くの研究者が思っていることです。前回のブログでも書いたようにPSモデルに含まれた変数の分布を2群間で似かたよったものにすることがPSの最終的な目標です。そのため、PSモデルの治療の割り付けの予測能力は重要ではありません。PSモデルがどれくらい治療割り付けと相関があるかを検証する必要すらありません。ルービンら(Pattanayak、Rubin、Zell、2011)によるとこの注意点は下記のように説明されています。
Importantly, a proposed observational study design should not be evaluated based on how closely the propensity score model fits the data or how well the propensity score model describes the presumed true decision-making process. Estimating the propensity score model is one step toward creating well-balanced subclasses or matches, and the best propensity score model is the one that leads to the design with the best covariate balance.
(5)PS vs. IPW
×PSはサンプルサイズが小さくなってしまうので、重み付け(IPW)の方が優れている
○PSはマッチングか層別化で用いた方が良い(少なくともPSの開発者であるルービンはそう考えている)
前述のように、PSではコモンサポートの外に相当する人達を除外しますので、サンプルサイズが小さくなってしまいます。これは多くの研究者にとってデメリットであると思われているようです。それを解決する方法として、PSを用いてマッチングや層別化する代わりに、逆確率重みつき推定法(Inverse probability weighting; 以下IPW)という方法論を用いることを推奨している研究者たちがいます。ざっくりとご説明すると、各々の人が実際に受けた治療を受ける確率の逆数を逆確率(Inverse probability;以下IP)と呼び、各人をその人のIPで重み付けした後に2群間でアウトカムの平均値を比較するのがIPWになります。IPWで用いられる確率は「その人が実際に受けた治療を受ける確率」であり、PS=「その人が治療を受ける確率」とは違います。実際に治療を受けた人達(治療群)においては、IPWの確率とPSは同一です。その一方で、実際には治療を受けなかったコントロール群に含まれる人達にとっては、その人が「コントロール群に割りつけられる確率」になります。
IPWは一見素晴らしい方法なのですが、一つの問題を内包しています。本来だったらどう考えても治療を受けていないはずの人(Aさん)がいて、その人のPSが0.5%だったとします。一方で、まあ順当に行けた治療群に入っている人(Bさん)がいて、その人のPSは50%だったとします。IPWで重み付けすると、Aさんには1/0.005=200、Bさんには1/0.5=2の重みが与えられ、全体の推定値にはAさんがBさんよりも100倍も影響力があるというおかしなことが起きてしまいます。ちなみにこのAさんはおそらくPSマッチングをした場合には、コモンサポートが含まれないということで解析から除外されてしまうでしょう。IPWは確かに数学的には正しい結果を導き出すはずなのですが、このような反事実の存在しないような極端なサンプルに過大な影響力を与えてしまうと言うことで(これに関して詳しくはBasu’s elephantsをご参照ください)、PSの開発者であるルービンはIPWを否定しています。ちなみにルービンはPSを回帰分析の一つの変数として用いることにも否定的です。ルービンの言葉を借りると「PSはそのような目的のために開発されたものではない」ということです。ルービンによると、PSはマッチングと層別化の2つの解析方法にのみ限って用いられるべきものなのです。