(cache) 統計モデルに観測値と観測値の割り算値を入れても問題ない: ニュースの社会科学的な裏側

2014年7月31日木曜日

統計モデルに観測値と観測値の割り算値を入れても問題ない

『「データ解析のための統計モデリング入門」6.6章割算値はなぜダメなのか？』と言うエントリーが出ていて、タイトルにある署名の本の6.6章「割算値の統計モデリングはやめよう」に、タイトルの通りの疑問が呈されていた。

問題の本は生物系研究室の常識が詰まっているようなのだが、一般の統計利用ではやや窮屈な側面もあるようで、以前も離散データだから最小二乗法が使えないと言うような誤解を招いていた。今回の御題は統計モデルに観測データ同士の割り算値を持ち込めるかと言う事だが、大半のケースでは問題ないから気にするのはよそう。

「比率にすることで元のスカラー値の情報が失われる」と言うのは、計量モデルで何を見たいかと言う問題で、例えば男女比が学級崩壊を引き起こすかのような仮説を立てたら、観測データ同士の割り算値を持ち込まざるを得ない。経済系はもちろん、実験データの処理などでも見かける操作である。みんなガシガシと割っている。

バイアスが入るかもと思うかも知れない。「値それぞれが分布を持っている場合、それらの割り算値の分布がよくわからない」と言うのがそれであろう。観測データxとyが確率変数であって誤差が正規分布に従うとしよう。x+yは正規分布だが、x/yは正規分布になるとは限らない^*1。こう書くと厄介そうに思えるが、実際にはx/yの誤差はそうは大きく無いだろうし、実は簡単な計算で正規分布で近似できる事が分かるから、あまり気にしなくていい^*2。

むしろ割ったほうが望ましいケースもある。経済データがそうなのだが、規模が大きくなると誤差項の分散も大きくなっていく事は良くある。この不均一分散が出るようならば、観測データ同士の割り算値を使う方が望ましいかも知れない。某大学のレジュメをみると、貯蓄と所得の推定で、所得の平方根で貯蓄と所得を割っている。

もちろんx/yのyにゼロが含まれる場合は割ったらダメだが、それ以外のケースでは大きな問題にはならないであろう。不安であれば、推定結果の誤差項の分布が対称分布になっているか、正規分布に近い形になっているか確認すれば良いと思う。ブログ主はシミュレーションしているので、大した誤差にならない事は分かっていると思うが。

*1標準正規分布の割り算であれば、とても扱いが厄介そうなコーシー分布になる。

*2計算しようかと思ったが、検索したら「変数X,Yが互いに独立で正規分布に従うとする。X~N(10,1),Y~N(2,4)との時、Y/Xの確率分布の近似を求めよ。ただし、Y/X < r ≒ (Y-rX)> 0 を用いる」と言う質問と回答が溢れているので、そちらを参照して欲しい。