2009年度演習2(山田) 2009年06月08日月曜日 配布レジュメ#17

(C) Katsuhiro Yamada  

→レジュメ#16  →レジュメ#18  

推定回帰式の評価


 問題: 2変量の大きさ n のデータが与えられている。記号で書けば;
        ( X,Y),( X,Y),〜 ,( X,Y
この2変量の間に Y=α+βX なる線形関係がある考えて,データからα,βの値を推定した。
この推定値は本当に信頼できるのだろうか?


 1.残差
      Y−a−bX     i=1,〜 ,n
の2乗和を最小にする最小2乗推定量は

=(Σx)/(Σx

=m−m(Σx)/(Σx

ただし,
 m=(ΣX)/n   ←Xの平均
 m=(ΣY)/n   ←Yの平均
 x=X−m      ←Xの平均回りの偏差
 y=Y−m      ←Yの平均回りの偏差

となることをレジュメ#14で示した。これを導出するのに用いた一階の条件(正規方程式)は,
 (1)          na=ΣY−bΣX
 (2)          aΣX=ΣX−bΣX
であった。したがって下の図で,

青の点はデータ(X,Y)であり,赤い線上の点は,

(3)          Xi     i=1,〜 ,n  

であるから,変数を用いて,赤い線(推定回帰線)を

(4)          X

と書くことにする。

 2.(1)式より,

(5)          m

であるから,回帰線(4)は(m,m)を通る。また,回帰線からの残差は,

(6)          e=Y     i=1,〜 ,n

であり,(3),(5)式より,

(7)          Σe=Σ(Y)=0

であることが分かる。

 3.被説明変数 Y を説明変数 X で説明するわけだけれど, Y の変動を推定した でどれだけ説明できるかを考えてみる。
 ゼロからの変動でもいいが,平均値からの変動を考える。変動ゆえに2乗の和を考える。これを全変動SST(total sum of squares)と呼ぶ。次の式が成立する:

(8)          SST=SSE+SSR

ここで,SSE(error sum of squares),SSR(regression sum of squares)で,

 (9)          SST=Σ(Y−m  ←全変動
(10)          SSE=Σ(Y  ←で説明できなかった変動
(11)          SSR=Σ(−m  ←で説明された変動

(8)式の証明は,SST=Σ(Y−mと変形でき,Σ(Y)(−m)がゼロであることを(1),(2),(7)式より示せることからできる。

(12)          SSR/SST=(SST−SSE)/SST

を決定係数(coefficient of determination)と呼び,この回帰式の説明力と解釈する。

 4.ちなみに決定係数は,(3),(5)式,を利用すれば

(13)          SSR/SST=Σ/Σyi=(Rxy

となる。ただし,
             Rxy =Cov(X,Y)/{√Var(X) √Var(Y)}

              Σ(X i - m )(Y i - m )
          =────────────────
             √Σ(X i - m ) √Σ(Y i - m )

すなわち,レジュメ#12でみた相関係数を2乗したものである。

注意:相関係数は xy=(Σx)/(√(Σx)√(Σy))であったから、上で出した回帰係数=(Σx)/(Σx)と関係がある。すなわち、
    xy・√(Σy)/√(Σx
である。

 5.実際のデータには誤差(撹乱)があるから,たとえY=α+βX なる線形関係があるとしても一直線上にないことが分かる。これを正確に表現すれば,

(14)          Y=α+βX+u     i = 1,〜 ,n

となる。ここで u は確率変数。

 6.撹乱項uは,平均ゼロ,分散σ,共分散ゼロ[cov(u,u)=0,i≠j]で他の説明変数と統計的に独立な分布をすると仮定される。この時:

  E()=β
  E()=α
  Var()=σ/Σx
  Var()=σΣX/nΣx

が導出でき,最小2乗推定量はBLUE(Best Linear Unbiased Estimator)であることがわかる。 また,分散σは残差から次のように推定され,

(15)         =Σe/(n−2)

これは不偏であることが示される。

注意:導出については,たとえば,Johnston: Econometric methods など参照。

 7.撹乱項uが上述の仮定に加えて,正規分布すると仮定しよう。この時は,も正規分布することが示せるから,次の統計量

(16)         t=(−β)/√Var(

は自由度 n−2 ( データ数推定パラメータ数 )の t 分布に従うことが証明される(たとえば,Mood,Graybill & boes : Introduction to the Theory of Statistics, pp.249-51)。これを用いて,帰無仮説H「b=0」を検定することができる。今,自由度を60とすれば,

    Pr(−2<t<2)=0.95

自由度を∞とすれば,

    Pr(−1.96<t<1.96)=0.95

であることから,

    abs( t )=abs(()/√Var()) >2

であれば,帰無仮説は棄却されると見てよい。すなわち,回帰係数をその標準誤差で割ったもの(これを t 比 と呼ぶ)が2以上であれば回帰係数はゼロであるとは言えないという結論をうる。

 8.経済学への応用


 本日の課題:
 平成19年度国民経済計算の統合勘定より国内総生産と民間最終消費支出の時系列データを用いて,消費関数を推定し,限界消費性向を求めて下さい。また,資産勘定より国富と先の民間最終消費支出の時系列データを用いて資産の消費関数を推定して下さい。

内閣府経済社会総合研究所
 http://www.esri.cao.go.jp/jp/sna/h19-kaku/21annual-report-j.html

よりデータを引き出しましょう。


山田ゼミナール・ホームページへ 

全画面表示