(cache) 推定回帰式の評価

２００９年度演習２（山田）　2009年06月08日月曜日　配布レジュメ＃１７

推定回帰式の評価

　問題：　２変量の大きさｎのデータが与えられている。記号で書けば；
　　　　　　　（Ｘ_１，Ｙ_１），（Ｘ_２，Ｙ_２），～　，（Ｘ_ｎ，Ｙ_ｎ）
この２変量の間に　Ｙ＝α＋βＸ　なる線形関係がある考えて，データからα，βの値を推定した。
この推定値は本当に信頼できるのだろうか？

　１．残差

　　　　　Ｙ_ｉ－ａ－ｂＸ_ｉ　　　　　ｉ＝1,～ ,n

の２乗和を最小にする最小２乗推定量は

＝（Σｘ_ｉｙ_ｉ）／（Σｘ_ｉ^２）

＝ｍ_ｙ－ｍ_ｘ（Σｘ_ｉｙ_ｉ）／（Σｘ_ｉ^２）

ただし，
　ｍ_ｘ＝（ΣＸ_ｉ）／ｎ　　　←Ｘの平均
　ｍ_ｙ＝（ΣＹ_ｉ）／ｎ　　　←Ｙの平均
　ｘ_ｉ＝Ｘ_ｉ－ｍ_ｘ　　　　　　←Ｘの平均回りの偏差
　ｙ_ｉ＝Ｙ_ｉ－ｍ_ｙ　　　　　　←Ｙの平均回りの偏差

となることをレジュメ＃１４で示した。これを導出するのに用いた一階の条件（正規方程式）は，

　(1)　　　　　　　　　　ｎａ＝ΣＹ_ｉ－ｂΣＸ_ｉ

　(2)　　　　　　　　　　ａΣＸ_ｉ＝ΣＸ_ｉＹ_ｉ－ｂΣＸ_ｉ^２
であった。したがって下の図で，

青の点はデータ（Ｘ_ｉ，Ｙ_ｉ）であり，赤い線上の点は，

(3)　　　　　　　　　　＝＋Xi　　　　　ｉ＝1,～ ,n　　

であるから，変数を用いて，赤い線（推定回帰線）を

(4)　　　　　　　　　　＝＋X

と書くことにする。

　２．(1)式より，

(5)　　　　　　　　　　ｍ_ｙ＝＋ｍ_ｘ

であるから，回帰線(4)は（ｍ_ｘ，ｍ_ｙ）を通る。また，回帰線からの残差は，

(6)　　　　　　　　　　ｅ_ｉ＝Ｙ_ｉ－　　　　　ｉ＝1,～ ,n

であり，(3),(5)式より，

(7)　　　　　　　　　　Σｅ_ｉ＝Σ（Ｙ_ｉ－）＝０

であることが分かる。

　３．被説明変数Ｙを説明変数Ｘで説明するわけだけれど，Ｙの変動を推定したでどれだけ説明できるかを考えてみる。
　ゼロからの変動でもいいが，平均値からの変動を考える。変動ゆえに２乗の和を考える。これを全変動ＳＳＴ（ｔotal sum of squares）と呼ぶ。次の式が成立する：

(8)　　　　　　　　　　ＳＳＴ＝ＳＳＥ＋ＳＳＲ

ここで，ＳＳＥ（error sum of squares），SSR（regression sum of squares）で，

　(9)　　　　　　　　　　ＳＳＴ＝Σ（Ｙ_ｉ－ｍ_ｙ）^２　　←全変動
(10)　　　　　　　　　　ＳＳＥ＝Σ（Ｙ_ｉ－）^２　　←で説明できなかった変動
(11)　　　　　　　　　　ＳＳＲ＝Σ（－ｍ_ｙ）^２　 ←で説明された変動

（8）式の証明は，ＳＳＴ＝Σ（Ｙ_ｉ－＋－ｍ_ｙ）^２と変形でき，Σ（Ｙ_ｉ－）（－ｍ_ｙ）がゼロであることを(1)，(2)，(7)式より示せることからできる。

(12)　　　　　　　　　　ＳＳＲ／ＳＳＴ＝（ＳＳＴ－ＳＳＥ）／ＳＳＴ

を決定係数（coefficient of determination）と呼び，この回帰式の説明力と解釈する。

　４．ちなみに決定係数は，(3)，(5)式，，を利用すれば

(13)　　　　　　　　　　ＳＳＲ／ＳＳＴ＝Σ^２／Σｙ_i^２＝（R_ｘｙ）^２

となる。ただし，
　　　　　　　　　　　　　Ｒｘｙ＝Cov(X,Y)／｛√Var(X) √Var(Y)｝

　　　　　　　　　　　　　　Σ(X ｉ - mｘ )(Y ｉ - mｙ )
　　　　　　　　　　＝────────────────
　　　　　　　　　　　　　√Σ(X ｉ - mｘ )^２ √Σ(Y ｉ - mｙ )^２

すなわち，レジュメ#1２でみた相関係数を２乗したものである。

注意：相関係数は　Ｒｘｙ＝（Σｘ_ｉｙ_ｉ）／（√（Σｘ_ｉ^２）√（Σｙ_ｉ^２））であったから、上で出した回帰係数＝（Σｘ_ｉｙ_ｉ）／（Σｘ_ｉ^２）と関係がある。すなわち、
　　　　＝Ｒｘｙ・√（Σｙ_ｉ^２）／√（Σｘ_ｉ^２）
である。

　５．実際のデータには誤差（撹乱）があるから，たとえＹ＝α＋βＸなる線形関係があるとしても一直線上にないことが分かる。これを正確に表現すれば，

(14)　　　　　　　　　Ｙ_ｉ＝α＋βＸ_ｉ＋ｕ_ｉ　　　　　ｉ = 1,～ ,n

となる。ここで u は確率変数。

　６．撹乱項ｕは，平均ゼロ，分散σ^２，共分散ゼロ［ｃｏｖ（ｕ_ｉ，ｕ_ｊ）＝０，i≠j］で他の説明変数と統計的に独立な分布をすると仮定される。この時：

Ｅ（）＝β 　　Ｅ（）＝α 　　Ｖar（）＝σ^２／Σｘ_ｉ^２　　Ｖar（）＝σ^２ΣＸ_ｉ^２／ｎΣｘ_ｉ^２

が導出でき，最小２乗推定量はＢＬＵＥ（Best Linear Unbiased Estimator）であることがわかる。　また，分散σ^２は残差から次のように推定され，

(15)　　　　　　　　　^２＝Σｅ_ｉ^２／（ｎ－２）

これは不偏であることが示される。

注意：導出については，たとえば，Johnston: Econometric methods など参照。

　７．撹乱項ｕが上述の仮定に加えて，正規分布すると仮定しよう。この時は，，も正規分布することが示せるから，次の統計量

(16)　　　　　　　　　ｔ＝（－β）／√Ｖar（）

は自由度ｎ－2 （ データ数－推定パラメータ数 ）のｔ分布に従うことが証明される（たとえば，Mood,Graybill & boes : Introduction to the Theory of Statistics, pp.249-51）。これを用いて，帰無仮説Ｈ_０「ｂ＝０」を検定することができる。今，自由度を６０とすれば，

　　　　Ｐｒ（－２＜ｔ＜２）＝0.95

自由度を∞とすれば，

　　　　Ｐｒ（－1.96＜ｔ＜1.96）＝0.95

であることから，

　　　　abs( ｔ )＝abs(（）／√Ｖar（）) ＞２

であれば，帰無仮説は棄却されると見てよい。すなわち，回帰係数をその標準誤差で割ったもの（これを　ｔ比 と呼ぶ）が２以上であれば回帰係数はゼロであるとは言えないという結論をうる。

　８．経済学への応用

　本日の課題：　平成１９年度国民経済計算の統合勘定より国内総生産と民間最終消費支出の時系列データを用いて，消費関数を推定し，限界消費性向を求めて下さい。また，資産勘定より国富と先の民間最終消費支出の時系列データを用いて資産の消費関数を推定して下さい。

内閣府経済社会総合研究所
　http://www.esri.cao.go.jp/jp/sna/h19-kaku/21annual-report-j.html

よりデータを引き出しましょう。

山田ゼミナール・ホームページへ　

 全画面表示