相関係数について

相関係数の注意点(1)…散布図を見て分かること

相関係数がどのようなものであるか、これに関しての説明は別に必要ないと思います。どの統計の教科書にも、それなりに分かりやすく書いてあると思うので、ここでは省略します。以下ではとりあえず相関係数を出してみたけれどそれに関して注意してみることは何なのか、これについて述べてみたいと思います.相関係数は因子分析など多変量解析の一番根幹をなす統計量です.しっかりとその問題点を弁えておく必要があると思います.

まず、相関係数を取ったときの基本は「散布図を見ること」です。案外これを行っていない人がいます。統計ソフトでは散布図を出力するのが少し面倒くさいことも一因でしょう。しかしながら、散布図を見ない限り得られた相関係数が本当に意味のあるものか、判断することは非常に困難です。相関をとったら絶対に散布図をみるクセをつけましょう。もちろん多変量解析のように恐ろしくなるくらい相関行列があるのであるならばまた別だと思いますが…(ただしこの場合も相関行列すら見ない人がいるのは問題だと思います).

では、散布図で何を見ればいいのでしょうか? まずとにかく「外れ値」の発見、これに尽きます。相関係数というものは非常に外れ値の影響を受けやすい値です(逆にこのような影響を受けにくい統計指標を「頑健な(Robust)」指標といいます).一つの外れ値で正負の符号までもが入れ替わってしまうことだって往々にしてあります.
外れ値をなんらかのアルゴリズムを使って取り除く方法はないわけではないですが,やはり実際に見てアナログで除去することが一番大切でしょう.しかしながら除去する時にもなぜそのような外れ値が生まれたのか(ただの入力ミスとか)を考える必要はあります。また,除去するのではなく、順位相関係数を使って対処するという方法もあります.この場合各変数の値が順序に変換されるので、外れ値の影響は受けにくくなります.


外れ値を見た後には何をすればいいのでしょうか? 次に見るべきなのは,分布形が線形(直線的)なのか非線形(曲線的)なのか,ということです.統計の教科書で相関係数について少し理解していたならばすぐわかると思いますが、相関係数は変数間の線形的な関係を前提としています.例えば分布の形がU字型のような時、U字型には何らかの意味はあるはずですが、相関係数を取ると0近くになってしまうことだってあります。このような場合には相関係数を示すのではなく記述的に論文に書くか,もしくは非線形用の統計指標(この場合は相関比)を用いるべきです.

さて,次に気をつけないといけないのが,分割相関の問題です.すなわち,いくつかのグループに分割した時に、このような相関が本当に存在するのか、ということです.たとえば小学校全体で年齢と50メートル走の速さの相関をとったとします.当然正の相関が見られるでしょう.しかしここでこの散布図を学年ごとに分割し、その学年ごとで相関係数をとったらどうなるでしょうか? 図で示せないのが残念ですが.同じ学年であるなら年齢(この場合月齢の方がよい)と50メートル走の速さの相関は大分低くなっているのではないでしょうか(等質化による希薄化).グループの分割により相関が大きく変わる一例です.また,有名なフィッシャーの「アイリスデータ」は集団の分割によって相関の正負が逆転している好例です(やはり図で見せたいところです…).分割による相関係数の変化は.他に「選抜効果」が有名です(後述)。これらは集団の分割による相関の変化ですが、逆に合併により相関が変化することもあります.


さて、以下は散布図では対処できない様々な相関係数の問題点です。大変だとは思いますが、どうぞ読み進めていってください。


2.相関係数の注意点(2)…散布図を見ても分からないこと

さてさて,散布図を見終わってもまだまだ相関係数の注意点は続きます.
まず、有意な相関係数が得られた場合の注意点です。よく研究で、有意な相関係数を得ただけで嬉々として「関係が見られた」と記述しているものがありますが,その前に一歩立ち止まってみる必要があるでしょう.有意な相関係数とは何でしょうか? 相関が少なくとも0ではなさそうだ,ということに過ぎません。ですから、有意である相関と、研究上意味(意義)のある相関は違うということを肝に銘じる必要があります。特に被験者が多ければ多いほど相関係数は有意になりやすくなります。相関係数を見る時には、その値だけでなく信頼区間なども参照しながら、慎重に解釈をすることが必要となります.ちなみに,相関係数を二乗すると,片方の変数の分散がもう1つの分散を説明する割合を示す指標になります(分散説明率).これも相関係数を解釈する際の1つの有力な情報になるでしょう.

また、相関係数は両者の関係を表しているだけで、決して因果関係を表しているわけではありません。また第三変数の影響によって生じた擬似相関(本当は相関がないにも関わらず、相関があるように見えること)である可能性もあります。研究者は相関研究で得られた値に関しつねに第三変数の存在を視野に入れながら検討する必要があります。また、第三変数が介在することが分かった時、第三変数の影響を取り除いた(パーシャルアウトした)「偏相関係数」というものを求めることが可能です.このような偏相関係数も相関関係を深く考察するためのよいツールになるでしょう.積極的に第三変数の影響を取り除き,より有意味な相関係数を求めることが,よい研究に繋がると思います.この点に関してはまた重回帰分析の章で触れます。
ちなみにつきつめて考えていくと変数間の相関はすべて擬似相関であるということになってしまい、因果関係とは何か、予測とは何かという深い問題にぶつかると思います。この点に関してはfprメーリングリストで興味深い議論がなされたので、是非ともご覧下さい(「きゃーるが鳴くんで…」というタイトルのスレッドです)。

相関係数の希薄化という問題も等閑視することはできません。相関係数の希薄化とは、信頼性の低い項目間で相関をとると、実際(真の値の間の)相関係数よりも低い値が生じてしまうことを指しています。つまり信頼性の低い尺度を作って相関をとっても、相関係数は低くなるのが当たり前なのです。このような希薄化は「希薄化の修正公式」というもので修正することができます。しかしながらこれは信頼性係数が分かっていなければ適用できませんし、先述したようにα係数で希薄化の修正を行うことには問題があります。妥当性係数は相関係数で推定することが多いと先述しましたが、信頼性の低い検査同士では妥当性係数も希薄化する、すなわち信頼性は妥当性の必要要件であることもこのことから分かるでしょう。

選抜効果というものもあります。これは例えば入学試験の得点と入学後の成績をとるような場合に生じます。入学後の成績というものは、当然入試に合格した人間においてだけ得られるものです。このように選抜を通して等質化した集団で上記のような相関をとると、相関係数は非常に低まります。言い換えると集団の分割による相関係数の変化といえます。すなわちこの場合入試の得点と入学後の成績には相関が非常に低いことになり、入試に意味はない(入試の予測的妥当性がない)といったような誤った議論を生み出しかねません.選抜効果と言うと心理の調査研究をしている人は,「私には関係ない」と思うかもしれません.しかし,選抜効果の本質は「等質な集団で相関係数が低下する」ということです.例えば,1つの大学で調査研究をした場合,もっと多くの大学でデータを取る場合より相関係数が低まっていることがあるのです.従って,選抜効果は,ほとんどの心理学調査研究につきまとう問題だと考えることが出来ます.選抜効果を防ぐために,できるだけ多様な集団でデータをとり,分散の大きいデータ(これはあくまで真値の分散であり,誤差の分散ではありません)を得る必要があります.



またよく相関係数の解釈でよくある誤りが個人間の相関を個人内の相関としてしまうことです。たとえば物理の勉強時間と数学の成績という変数を調査でとり、相関係数をとったところ、大きな相関が見られたとします。この相関というのは、あくまで個人間差に基いた相関です。それを「なるほど、物理を勉強すれば数学の成績があがるのか」というような個人内の相関と解釈してしまってはいけません。この場合、確かに物理の勉強時間が多い人は数学の点数も高いかもしれませんが(個人間としての見方)、ある人が物理の勉強を一生懸命したとしたら逆に数学の勉強時間がなくなって数学の成績が下がる可能性だってあるわけです(個人内としての見方)。今のように、個人間相関が正でも、個人内相関が負であることは往々にしてあります。個人差によって得られたデータを個人内連動をも包括するかのような誤った解釈がなされていることは結構あります。個人内連動と個人間連動の関係には,常に気を配るべきでしょう.なお,この個人間相関と個人内相関の話は,つきつめれば上記した第三変数の問題に相当することも付け加えておきたいと思います.実験研究は個人間データなのに,個人内変動の推測が可能なのは,この第三変数がすべて統制されているからです.


最後に、相関と独立の違いについて言及します。よく無相関であることを以って両者を独立とする場合がありますが、これは基本的に誤りです。2変数が独立ならばかならず相関は0ですが、相関が0だからといって両者が独立とは限りません。独立は無相関よりはるかにつよい概念です。
独立とは、片方の変数がどのような値をとっても、もう片方の変数の分布は変わらないような状態を指します(多分…)。サイコロを2つ振って片方に何がでても、もう一方の目(がでる分布)には影響しないため、二つのサイコロの目は独立であるといえます。無相関とは、片方の変数がどのような値をとっても、もう一方の目の平均値が常に同じであるということを指しているに過ぎません(回帰直線が軸に平行な場合を考えると分かりやすいです)。極端な場合を考えてみると、例えば分布がU字型であっても、場合によっては相関係数が0になることは充分にありえます(回帰直線を考えてみましょう)。しかしこの場合片方の変数の値によってもう片方の変数の分布は変化しているので決して独立とはいえないでしょう。
このことはどのような場面で重要でしょうか。たとえば因子分析を斜交回転で行い、因子間相関が0になったとしても、この両者が独立であるということを保証するものでは決してないということを理解することができます(ただあまり厳密なことを言っても仕方ないので、独立として解釈することが殆どですが).


以上のように相関係数の注意点は本当に多彩です。他にも注意点はいくらでもあると思います.基礎的な統計量だからといって侮らず、正しい使い方を心がけましょう.


質問はこちらまで

Kouのホームページ   HOME