2009年度演習2(山田) 2009年06月08日月曜日 配布レジュメ#17
(C) Katsuhiro Yamada
問題: 2変量の大きさ n のデータが与えられている。記号で書けば; ( X1,Y1),( X2,Y2),〜 ,( Xn,Yn) この2変量の間に Y=α+βX なる線形関係がある考えて,データからα,βの値を推定した。 この推定値は本当に信頼できるのだろうか? |
ただし, mx=(ΣXi)/n ←Xの平均 my=(ΣYi)/n ←Yの平均 xi=Xi−mx ←Xの平均回りの偏差 yi=Yi−my ←Yの平均回りの偏差 |
青の点はデータ(Xi,Yi)であり,赤い線上の点は,
(3) =
+
Xi i=1,〜 ,n
であるから,変数を用いて,赤い線(推定回帰線)を
(4) =
+
X
と書くことにする。
2.(1)式より,
(5) my=+
mx
であるから,回帰線(4)は(mx,my)を通る。また,回帰線からの残差は,
(6) ei=Yi− i=1,〜 ,n
であり,(3),(5)式より,
(7) Σei=Σ(Yi−)=0
であることが分かる。
3.被説明変数 Y を説明変数 X で説明するわけだけれど, Y の変動を推定した でどれだけ説明できるかを考えてみる。
ゼロからの変動でもいいが,平均値からの変動を考える。変動ゆえに2乗の和を考える。これを全変動SST(total sum of squares)と呼ぶ。次の式が成立する:
(8) SST=SSE+SSR
ここで,SSE(error sum of squares),SSR(regression sum of squares)で,
(9) SST=Σ(Yi−my)2 ←全変動
(10) SSE=Σ(Yi−)2 ←
で説明できなかった変動
(11) SSR=Σ(−my)2 ←
で説明された変動
(8)式の証明は,SST=Σ(Yi−+
−my)2と変形でき,Σ(Yi−
)(
−my)がゼロであることを(1),(2),(7)式より示せることからできる。
(12) SSR/SST=(SST−SSE)/SST
を決定係数(coefficient of determination)と呼び,この回帰式の説明力と解釈する。
4.ちなみに決定係数は,(3),(5)式,,
を利用すれば
(13) SSR/SST=Σ2/Σyi2=(Rxy)2
となる。ただし,
Rxy =Cov(X,Y)/{√Var(X)
√Var(Y)}
Σ(X i - mx )(Y i - my )
=────────────────
√Σ(X i - mx )2 √Σ(Y i - my )2
すなわち,レジュメ#12でみた相関係数を2乗したものである。
注意:相関係数は Rxy=(Σxiyi)/(√(Σxi2)√(Σyi2))であったから、上で出した回帰係数=(Σxiyi)/(Σxi2)と関係がある。すなわち、
=Rxy・√(Σyi2)/√(Σxi2)
である。
5.実際のデータには誤差(撹乱)があるから,たとえY=α+βX なる線形関係があるとしても一直線上にないことが分かる。これを正確に表現すれば,
(14) Yi=α+βXi+ui i = 1,〜 ,n
となる。ここで u は確率変数。
6.撹乱項uは,平均ゼロ,分散σ2,共分散ゼロ[cov(ui,uj)=0,i≠j]で他の説明変数と統計的に独立な分布をすると仮定される。この時:
E( |
---|
が導出でき,最小2乗推定量はBLUE(Best Linear Unbiased Estimator)であることがわかる。 また,分散σ2は残差から次のように推定され,
(15) 2=Σei2/(n−2)
これは不偏であることが示される。
注意:導出については,たとえば,Johnston: Econometric methods など参照。
7.撹乱項uが上述の仮定に加えて,正規分布すると仮定しよう。この時は,,
も正規分布することが示せるから,次の統計量
(16) t=(−β)/√Var(
)
は自由度 n−2 ( データ数−推定パラメータ数 )の t
分布に従うことが証明される(たとえば,Mood,Graybill & boes : Introduction to the Theory of
Statistics, pp.249-51)。これを用いて,帰無仮説H0「b=0」を検定することができる。今,自由度を60とすれば,
Pr(−2<t<2)=0.95
自由度を∞とすれば,
Pr(−1.96<t<1.96)=0.95
であることから,
abs( t )=abs(()/√Var(
)) >2
であれば,帰無仮説は棄却されると見てよい。すなわち,回帰係数をその標準誤差で割ったもの(これを t 比 と呼ぶ)が2以上であれば回帰係数はゼロであるとは言えないという結論をうる。
8.経済学への応用
本日の課題: 平成19年度国民経済計算の統合勘定より国内総生産と民間最終消費支出の時系列データを用いて,消費関数を推定し,限界消費性向を求めて下さい。また,資産勘定より国富と先の民間最終消費支出の時系列データを用いて資産の消費関数を推定して下さい。 |
内閣府経済社会総合研究所
http://www.esri.cao.go.jp/jp/sna/h19-kaku/21annual-report-j.html
よりデータを引き出しましょう。