前回は回帰における正規方程式の意味するところを解説しました。
今回は回帰において重要な決定係数に関して解説します。
エクセルで散布図を作図すると、近似曲線を引くことが出来る機能があるのですがその適応度合いをみるためにR2を表示する機能はご存知でしょうか。
このR2のことを決定係数と呼びます。
「R2って相関係数と同じでしょ?」
と思われる方もいらっしゃると思いますが、実は目的が異なります。
今回は決定係数の成り立ちから、相関係数とどのような違いがあるのかを紹介していきます。
こちらの本を元に解説しています。
動画でも解説しています。
決定係数を導こう!
各成分における分散
体重yと身長xの例で説明していきます。身長が高い人ほど体重が重いと考えられるので、ここには回帰関係があると考えます。
そんな中で分散を考えると、まず身長xを考慮せずにあるn人の集団の体重yの分散を考える場合、その式は
ただしはyの平均値です。
この数値は、この集団のすべての分散(=総分散)と言えます。
しかしその集団の中で、身長xに依存している体重yが存在する場合、
・身長に依存する体重
・身長に依存しない体重
がそれぞれ存在しているはずです。
ここで身長に依存しない体重を考えてみます。
この身長に依存しない体重の分散は、以下の式で表されます。
ただしはxiに対応する平均体重です。
そして分散の加法性から、総分散から身長によって決定されない分散を引くと、必然的に身長によって決定される分散が導かれます。
以下のイメージを見て頂くと、分かりやすいかもしれません。
決定係数の算出
ここで身長xに依存する分散sr2と全部の分散sy2の比率を示すことが出来れば、分散のうちに身長xがどれだけ寄与しているかを知ることが出来ます。
つまり
で示されるr2は、全部の分散yのうちxによって決定される分散の割合を示す数値と言えます。
このr2を決定係数と言います。
決定係数は0≦r2≦1の間を動きます。
0の場合はxがyの値をまったく決定しないことを示します。
1の場合はxがyの値をすべて決定することを示します。
つまり0に近いとxと無関係になり、1に近いとxに決定される度合いが増えます。
決定係数は、その名の通りxによって、yが決定されるか否かを示した指標になります。
さて、この一定の範囲でxとyの依存度を示す数字として、別の代表的な指標が存在します。
そう、それは相関係数です。
この二つの指標は、非常に強い関連を持つ値同士でありながら、微妙に示している事象が異なるという間柄になります。
決定係数と相関係数の関係
相関係数は-1≦r≦1ですが、0と1の関係は同じです。
実は相関係数を2乗すると決定係数になります。逆に決定係数の平方根を取ると相関係数になります。
この場合相関係数の符号ですが、回帰式
のbの符号と一致します。
2乗か否かだけの違いに見えますが、式のアプローチの仕方が異なります。
相関係数は4事象のうちの数値の集まり具合に注目しています。
決定係数は回帰式の変数xによる分散の比率に注目しています。
ここで注意が必要で、
・相関性を見る場合には相関係数を使う
・回帰式の当てはまり具合を見る場合は決定係数を使う
必要があります。
簡単に相関係数0.5という数値で考えてみます。
相関係数0.5というと中々相関性が取れていると言える数値と言えます(検定で見解が変わる可能性はありますが)。
しかしながら決定係数で考えると0.5を2乗するので0.25となります。かなり小さい数値です。
つまりこの場合は
「相関性はありそうだけど、回帰式での数値の予測は難しそう」
となります。
ここで相関係数と決定係数を混同して考えてしまうと
「相関係数で0.5で相関性は強そうだから回帰式で数値の予測も出来そうだ!」
と誤った結論を出してしまう可能性が出てしまうのです。
また、相関係数は-1~1の数字ですので、2乗する決定係数との関係は常に
|相関係数| ≧ 決定係数
となります。
これは単に相関性を示すよりも、yを導ける式(回帰式)の適合は厳しいという実態を良く表している関係性であると言えます。
まとめ
今回は決定係数の導出を解説しました。
相関係数が目的変数と説明変数の依存ぶりを示す値なのに対して、決定係数は回帰式の信用度を示します。
この辺りの区別がつかず、yとxの依存度を決定係数で計ってしまう人ってかなり多いと思います。
エクセルの近似曲線で簡単に表示されやすいですから。
故にこの辺りを明確に区別できるようになると、統計リテラシーが一つ上のレベルに上がります。
ぜひ決定係数と相関係数を使い分けて、正しい分析を実施しましょう。
youtubeのメンバーシップはじめました
仕事で使える統計学をyoutubeで解説しています。
さらに、メンバーシップ限定で
・エクセル、R commanderの実践動画
・私が仕事で使った統計学の応用
・さらに難易度の高めの統計の解説
を発信しています。
教科書等の本を読むよりも、動画による学習のほうが効率が良いとされています(ラーニングピラミッド)。
統計学を勉強しているけれど、自分の仕事への活かし方が分からない。
本だけでは、どうしてもニュアンスが分からない。
そんな方にもってこいの情報を発信しております。
youtubeのチャンネルと別でメンバーシップを作った理由ですが、それは
youtubeのチャンネルでは、本当に専門的な内容は閲覧されないからです。
「少し専門的でニッチだけど、ほかのどこにも無い動画を出したぞ!」
と、気合を入れたものほど、あんまり見られないです(MSAの動画とかヒドいもんです)。
割とマジ悲しい・・・
かといって、再生目的で狙っていって、簡単な動画だけを出しても、私のやりたいこと
「見ている人の統計リテラシーを底上げして、お仕事の役に立ちたい」
は、実現できないと思うんです。
ゆえに!
youtubeを見てもらって、私の解説に興味を持ってもらい、お金を払ってでも本気で勉強したい方に、より深い内容をお届けする。
という運営方針をとることにしました。
金額も月額2000円越えと、決して安くはありません。
ですが、その金額に見合った活動を行っていきます。
期待外れだった、飽きた、もう教わることは何もないとなったら、いつでも解約してもらってOKです。
将来的には、個別ケースに対してのアドバイス配信もやっていきたいと考えています。
統計を活かして、よりハイレベルな仕事をしていきたい、アナタへ。
一緒に勉強していきましょう!!
コメント
すみません。
==========================================================================
また、相関係数は-1~1の数字ですので、2乗する決定係数との関係は常に
相関係数 ≧ 決定係数
となります。
==========================================================================
とありますが、こちら、正確には
==========================================================================
また、相関係数は-1~1の数字ですので、2乗する決定係数との関係は常に
|相関係数| ≧ 決定係数
となります。
==========================================================================
ではないでしょうか?
例えば、相関係数が -0.9 だった場合、決定係数は 0.81 になるので、
相関係数 ≧ 決定係数
の式が、成立しないと思うのです。
確かにおっしゃる通りです。
近日修正します。
あと、初めてのコメントだったので、何気にうれしかったです。
ありがとうございます。
熊野コミチさんこんにちは
いつも動画見ています。
製造業で品質管理に関する仕事をしているので参考にさせていただいています。
一点質問させて下さい。
業務中にExcelでR~2値がいくつだったら相関があると言えるのか?
という話になり、いろいろと調べてもこれといったものがなく困っています。
(社内で標準化すべきものなのかとも思っています。)
動画とブログから相関があるかは決定係数(xの値からyの値を推測した時の信頼度?)ではなく相関係数で議論すべきものなのかとは理解しました。
ただ、相関係数がいくつならどの程度相関があるのかという点については理解が及んでいません。
例えば
ランダムなサンプルで散布図を作った時に
サンプル数=nで
相関係数がA以上となるのは
何%かというのは求めることはできますでしょうか。
これが分かれば
サンプル数2000で相関係数=0.7
これが偶然に発生するのは5%以下なので相関があると言える
というような話ができるのですが。
遅れてスイマセン。
一応こんな記事書いてますので、参考にして頂ければ。
https://sigma-eye.com/2020/03/16/r-sample-size/
ただ、上記記事でも触れてますが、信頼区間を出すにしてもNが多すぎるので、あんまし基準になり得ないかなと個人的には思ってます。
感覚的にですが、
グラフの形で明らかに直線を描いている
+
相関性なら0.5以上あれば関係あり。
数字の予測を回帰分析で行いたいならR2>0.9は必要
こんな感じで、私は見ています。
ちなみに、標準化として相関係数を設定するのは、避けた方が良いと思います。
この手の数字を標準化すると、数字が基準を満たしていれば良いとして、グラフ化しておかしくても盲目的に製品が通ってしまいクレームの元になりかねないからです。
相関係数にしても、その他の手法にしても、グラフや統計量など複数の指標で総合的に判断しないと大変な事になります。