統計解析
〜第3回〜
12.回帰式の検定と残差の検討
・詳細については,「回帰式の検定と残差の検討」を参照のこと
(1) まず,第2回の“10.直線による回帰式”を行う. このシートは後でも使用するので適当な名前をつけて保存しておく.
(2) 次のような分散分析表を作成する. この結果から有意確率(p値)= 0.002299 < 0.05 であるから回帰式に意味があると言える.
[セルの内容]
(3) 下図のように,予測値,残差,標準化残差を求める. 13番目のデータ(27,57) の標準化誤差が,3.0869… であり,はずれ値であると判断される.これ以外のデータは,標準化残差で−3以下,3以上のものは見られないため,はずれ値はないと考えてよい. また,標準化誤差はほぼ3であるとみなすことができるため,以下では(27,57) も併せて解析を行うものとする.
(※はずれ値であると判定されたデータを除いてデータをするのが一般的)
[セルの内容]
(4) B列,C列,D列のデータを使って,「強度(横軸)と予測値(縦軸)」および「強度(横軸)と残差(縦軸)」の散布図を作成する.
結果から,どちらの散布図にも何の傾向も見られないため,回帰式の妥当である可能性が高いことを示している.
(5) 残差が正規分布に従うかどうかを検討するために,正規確率プロットを行う. まず,D列に計算済みの残差を新しいワークシートのA列に複写する. 新しいワークシートに貼り付けを行う場合は,「編集」→「形式を選択して貼り付け」を行うことに注意する.
(6) 「形式を選択して貼り付け」の画面が出るので,次のように「(貼り付け)値」と「(演算)しない」のみチェックを入れて残りを全てはずし,「OK」をクリック.
(7) 貼り付けを行ったら,順位,確率,縦軸を計算する. 順位の計算においては,同順位の時に順位が一つずつずれるように, 例えば,1位,2位,2位,3位と関数RANKによって計算された時には, 1位,2位,3位,4位となるように, COUNTIF($A$2:A2,A2)-1 で補正している.
[セルの内容]
(8) A列が横軸,D列が縦軸となるように散布図を作成すると,正規確率プロットが作成できる.
正規確率プロット上の点がほぼ直線に並んでいると見られるときには,データの分布は正規分布とみなすことができる. この例では,残差は正規分布に従っているとみてよい.
13.母回帰式の信頼区間と予測区間の計算
・詳細については,「回帰式の検定と残差の検討」を参照のこと
(1) “12.回帰式の検定と残差の検討”で保存しておいたファイルを開き,G列の前に1列挿入しておく.また,自由度n-2のt分布における5%点,硬化剤の量の平均値,平方和(それぞれ,t(n-2,0.05), XBAR,
S(XX)で表す)を書き加える.
[セルの内容]
(2) 「予測値」,「信頼上限」,「信頼下限」を求める.
[セルの内容]
(3) 予測区間の「予測上限」と「予測下限」を求める.
[セルの内容]
14.重回帰分析の適用
・詳細については,「重回帰分析」を参照のこと
(1) データ3-3をダウンロードする.
(2) 下図のように,「X1とYの散布図」を描く. 同様にして,「X2とYの散布図」,「X3とYの散布図」を描き, どのような関係が見られるか,あるいは,はずれ値がないかどうかを観察する.
(3) 第2回の“11.多項式による回帰式の計算”で行ったやりかたで,回帰式を求める.
ただし,第2回では説明変数が2つであったために,あらかじめ選択する列は3列であったが, ここでは説明変数が3つあるために選択する列は4列になることに注意する. 行は第2回と変わらず,3行でよい.
結果から,回帰式は, となり,寄与率は 0.918 となることがわかる.
15.多重共線性
・詳細については,「重回帰分析」を参照のこと
(1) データ3-4をダウンロードする.
(2) 「X1とYの散布図」および「X2とYの散布図」を描き,ともに正の相関があることを観察する.
(3) X1のみを説明変数とした回帰式「X1とYの回帰式」とX2のみを説明変数とした回帰式「X2とYの回帰式」を求める.
すなわち,単回帰分析を行う(第2回の“11.多項式による回帰式の計算”で行った方法を使用すればよい).
結果から,求められた回帰式は, となり,回帰係数は正となっている(正の相関をもつという上の結果と一致する).
(4) X1とX2の両方を説明変数とした回帰式「X1およびX2とYの回帰式」を求める.
結果から,求められた回帰式は, となる.
一方,散布図や単回帰分析の結果では,X1とYの関係は正であったが,偏回帰係数を見ると,X1の係数が負になるという不可解な現象がおきている. これは,説明変数であるX1とX2の間に強い相関があるからと考えられる.
(5) 実際,説明変数であるX1とX2の相関係数を求めると0.9864となり,非常に強い正の相関があることがわかる.
[セルの内容]
16.回帰診断(散布図の視察)
・詳細については,「重回帰分析」を参照のこと
(1) データ3-5をダウンロードする.
ファイルを開くと,4つのデータが現れる.
(2) 4つのデータ全てについて,XとYの回帰式を求め,すべての回帰式がほとんど同じであることを確認する.
(3) 4つのデータ全てについて散布図を描き,ほとんど同じ回帰式であるにも拘らず,データの散布図は大きく異なっていることを確認する.
このことからも,単に回帰式を求めるだけでなく,散布図を描くことが重要であることがわかる.
17.回帰診断(残差の視察)
・詳細については,「重回帰分析」を参照のこと
(1) データ3-6をダウンロードする.
このデータは,第2回の“11.多項式による回帰式の計算”で扱ったデータと同じデータである. 第2回では,この回帰式は説明変数の2乗の項を入れることによって多項式回帰を行っているが, 2乗の項を入れずに直線で回帰式を計算した場合にどのような結果になるのかを観察する.
(2) “11.多項式による回帰式の計算”で行ったやり方で,「xとyの回帰式」を求める.
(3) “12.回帰式の検定と残差の検討”の(3)で行ったのと同様に,予測値,残差,標準化残差を求める.
(4) 横軸を説明変数,縦軸を残差にして,散布図を作成する.
この結果から,上に凸の2次関数のような形をしているため,説明変数の2乗の項を入れるのが適当であると判断できる.