この本の紹介ページに戻る
この本の目次(詳細)へ
『子どもと情報メディア』をご購入された皆さんへ
−ご安心ください.統計処理に関する間違いはありません−
著者 村田育也
本書で説明している調査データの統計処理を元にした内容は、統計学的に全く問題はありません。ネット上で見られる「相関関係と因果関係を混同している」という批判は全く見当違いですので、ご安心ください。
本書で勉強している学生諸君もおり、その中には卒業研究でアンケート調査したデータを分析する人もいるでしょう。誤った知識を持たないように、初歩的なことだけを説明しておきます。卒業研究で実際に使う場合は、専門書を読み指導教員と相談しながら進めてください。
(1)「相関関係」とは何か
相関関係は、−1から1までの値で示される相関係数によって示すことができます。
ある中学校の期末試験で、国語の成績と英語の成績の関係を調べたいとします。国語の試験の点数Aを横軸にとり、英語の試験の点数Bを縦軸にとって、各生徒の成績を点で描きます。
このとき、たとえば、図1のように点が左下から右上に集まるように並んだとします。このとき、AとBは(正の)相関があるといいます。これらの点の最も近くを通る直線を描くことができて、これを回帰直線と言います。各点がこの回帰直線にどれだけ近いかを示す値を相関係数といいます。各点が回帰直線の近くに並ぶほど、相関係数は1に近づき、すべての点が回帰直線上にあるとき、相関係数は1(最大)となります。
図2のように点が全体に散らばっている場合は、相関係数は0に近くなり、相関はありません。
図3のように点が左上から右下に集まるように並んだときは、AとBは負の相関があるといいます。各点が回帰直線の近くに並ぶほど、相関係数は−1に近づき、すべての点が回帰直線上にあるとき、相関係数は−1(最小)となります。
(2)「相関関係」と「因果関係」は混同しやすい
相関関係が認められた場合、横軸データAが原因で、縦軸データBが結果だと思いこんでしまう場合があります。たとえば、図1の場合だと、「国語力があるから、英語の成績が高い」(注1)というような言い方をしがちです。これは、数学でグラフを書くときに、横軸に変数xをとり、縦軸に変数yをとって、yをxの関数として捉える習慣に因るものです。
しかし、すぐに気がつくことですが、AとBを逆にしてグラフを描いても、同じように回帰直線を描くことができます。つまり、Bを横軸にとり、Aを縦軸にとっても、相関係数は先ほどと全く同じなのです。すると、Bが原因で、Aが結果のように思えます。では、「英語力があるから、国語の成績が高い」と言えるのでしょうか。
AとBの間に相関関係が認められた場合、AとBの間に因果関係があるかどうかは、それらの内容を考えて判断することになります。たとえば、Aが人や物に付随した属性(年齢や性別など)で、Bが実験によって得られたデータだった場合には、Aが原因でBが結果だと言えることがあります。しかし、今考えているようにAもBも試験の点数である場合は、どちらが原因でどちらが結果かはわかりません。もしかすると、そのとき調査していなかったCという特性があって、AもBも原因Cの結果だと考える方が自然なのかもしれません。たとえば「IQの得点」とか「人と話すことが好き」とかというような特性です。
つまり、AとBに相関関係が認められた場合、AとBの間に考えられる因果関係は、以下のように3つあります(原因が複数ある場合も考えられますが、複雑になるので省きます)。
AとBの関係 |
因果関係の説明 |
|
Aが原因で、BがAの結果である場合。 |
|
Bが原因で、AがBの結果である場合。 |
|
調査では見えていない別の原因Cがあって、AもBもCの結果である場合。 |
(3)本書における「統計的に有意な差」について
本書は一般の方にも読んでもらえるように執筆しましたので、専門的な説明は意図的に省略しています。本書のあちこちに「統計的に有意な差」との表現がありますが、これも専門的な説明を省くためのものです。しかし、学生諸君が卒業研究で統計処理する場合には、必要になる内容ですから、ここで基本的な考え方を簡単に説明しておきます。
さて、本書では、上記(1)で示した相関関係は出てきません。したがって、相関係数を用いた議論を全くしていません。よく出てくるのは、下表のような2×2のクロス表で示された2値変数2つの場合です。2値変数(2分割変数、2項変数ともいいます)とは、2つの値しか持たない変数で、「はい」または「いいえ」で答えられるようなアンケート調査の回答データがそれに当たります。
|
Bである |
Bでない |
合計 |
Aである |
230 |
70 |
300 |
Aでない |
170 |
130 |
300 |
合計 |
400 |
200 |
600 |
2値変数の場合でも、上記(1)の特殊なケースだと捉えて、相関係数にあたるもの(φ係数といいます)を求めることができます。しかし、2つの値しか持たない変数と、上記(1)のように座標上に広がりを持った点で表せる変数とは性質が違いますから、通常異なる分析方法を使います。その方法とは、Bであるか否かの割合が、AであることとAでないことで違いがあるかどうかを統計的に調べる方法です。これは、有意性検定(注2)の一つで、アンケート調査でよく使われるものです。
ここで、ある別の例を使って、有意性検定の考え方を説明しましょう。たとえば、コインを投げて表が出る回数と裏が出る回数を数えるとします。均質な素材で作られた歪みのない普通のコインなら確率はどちらも2分の1のはずですから、表と裏の出る回数は同じになるはずです。しかし、投げる回数が少ないとき、たとえば10回投げたときは、表6回、裏4回になることは結構ありますし、表7回、裏3回になることだってあるでしょう。現実の事象はランダムに起こり、その結果には散らばりが生じます。3回投げて表ばかり出ることだってあるわけです。しかし、10回投げて、表9回、裏1回だったら、このコインは変だな(表が出やすいのかな)と思うかも知れません。このとき、そのコインが、表と裏の出る確率が同じなのかどうかを、統計的に調べるために有意性検定(注3)を用います。
まず、このコインは表と裏の出る確率が同じ(ともに2分の1)だと仮定します。これを帰無仮説といいます。そして、実際に起こった事象(表9回、裏1回)とそれより起こりにくい事象(この場合は表10回裏0回)が起こる確率を計算して合計します。この場合,その確率は約0.011です(注4)。この確率をp値といいます。p値が非常に小さいとき、帰無仮説を棄却します。つまり、このコインは、裏の出る確率より表の出る確率の方が大きいと結論します。帰無仮説を棄却するかどうかを判断する確率は、習慣的に5%(20分の1)か1%(100分の1)にします。この確率を有意水準(または危険率)といいます。有意水準5%で帰無仮説を棄却した場合、その判断が間違っている確率は5%未満であることを示しています。
これと同じことを、先ほどの2×2のクロス表で考えることができます(注5)。
まず、Bであるか否かの割合が、Aである場合とAでない場合で違いはないという帰無仮説を立てます。もう少し正確に表現すると、右図のように、Aである場合とAでない場合の両方とも、同一の母集団の中からランダムに標本(データ)を取り出したものだという仮説です。たとえば、母集団のBであることとBでないことの割合が2:1だったとします。300の調査データを集めれば、理想的には、「Bである」が200で「Bでない」が100になるはずです。しかし、現実の事象はランダムに起こりますから、230と70になったり、170と130になったりするかもしれません。
そして、そのようになる確率(注6)を求め、その確率が有意水準より小さいとき、帰無仮説を棄却します。つまり、起こりそうにないことが起こったので、帰無仮説が間違っていると判断するわけです。帰無仮説「同じ母集団からの調査データである」を棄却するので、右図のように、異なる母集団からの調査データだと判断し、Bであるか否かの割合は、Aである場合とAでない場合で違うと判断します。このとき、「有意水準5%で有意に異なる 」といいます。これが、本書で「統計的に有意な差がある」と表現していることです。
(4)「クロス表の検定」と「因果関係」
さて、2×2のクロス表で差異を検定することと、上記(1)の相関関係とは違うことを説明しましたが、因果関係を混同しやすい点では似ています。つまり、先のクロス表で「Aであるから、Bが多くなる」(注7)という言い方は、クロス表の見方を誤っています。
それは、(1)で横軸と縦軸を入れ替えたように、先ほどの2×2のクロス表を、行と列を入れ替えて書き直してみるとわかります(下図)。
|
Aである |
Aでない |
合計 |
Bである |
230 |
170 |
400 |
Bでない |
70 |
130 |
200 |
合計 |
300 |
300 |
600 |
このようにして検定を行っても、同じp値が得られます。つまり、全く同じようにして、帰無仮説を棄却して、「統計的に有意な差異」を主張することができます。すると、この結果から「Bであるから、Aが多くなる」という主張がおかしいことがわかります。
有意性検定を行ったクロス表から因果関係を読み取る場合は、(1)のときと同様に、それらの内容から判断することになります。判断できないときは、どちらが原因で、どちらが結果かは、わかりません。
(5)本書における唯一の「因果関係」に関する記述
私は、以上のことを承知したうえで原稿を執筆していますので、本書ではクロス表から単純に「因果関係」に言及した記述はしていません。ただ唯一、「因果関係」について触れている箇所があります。それは、67頁の一番下の段落(21〜28行)です。
このように、子どものケータイ所持と非行・逸脱行動との関連を示す調査データは、何年も前から示されているのです。非行・逸脱行動をする子どもが、非行・逸脱行動をしない子どもより先にケータイを持つようになったのか、あるいは、非行・逸脱行動をしない子どもが、ケータイを持ったために非行・逸脱行動をするようになったのかはわかりません。しかし、どちらが原因でどちらが結果かがわからなくても、ケータイを持つことで親や教員の目を盗みやすくなり、非行・逸脱行動が容易になることと、その特徴を利用している子どもたちがいることは確かだと言えます。
この文章を読んでいただければお分かりだと思いますが、本書の中での説明でも、ここで説明したのと同じように、クロス表から単純に因果関係を読み取ることはできないと説明しています。私が、ケータイ所持と非行・逸脱行動との関連から言いたかったことは、「ケータイを持つことで親や教員の目を盗みやすくなり、非行・逸脱行動が容易になること」と「その特徴を利用している子どもたちがいること」です。つまり、子どもがケータイを持つことで、子どもの行動と考え方に質的な変化が起こっていると考えられることを主張しています。「どちらが原因でどちらが結果かがわからなくても」と表記していることからわかるように、「ケータイを持つ(原因)から、子どもは非行・逸脱行動をする(結果)」と主張しているのではないことが、ご理解いただけると思います。
(注1)「国語の得点が高いほど、英語の得点は高い」は、間違いではありません。両者の関係を、グラフに表された通り客観的に表現しているからです。しかし,これを因果関係を表現していると勘違いして読んでしまうことがあります。注意が必要です。
(注2)有意性検定とは、2つ(あるいはそれ以上)の有限個の変数の間に、相関があるかどうかや、平均値に差があるかどうかなどを、統計的に判断する手法の総称です。
(注3)ここで紹介しているのは二項検定です。裏が出やすいかどうかを問題にせず、表が出やすいかどうかを検定しているので、このような検定を片側検定といいます。
(注4)通常は両側検定を行うので,この確率値を2倍します。
(注5)ここで用いる検定方法は,カイ二乗検定や直接確率法(正確確率検定ともいう) です。カイ二乗検定は,m×nの分割表の検定もできます。
(注6)この確率も、先述の二項検定と同じように、実際に起こった事象より起こりにくい事象を含めて計算します。
(注7)「Aであるものは、Aでないものより、Bである割合が高い」は間違いではありません。理由は注1と同じです。
この本の紹介ページに戻る
この本の目次(詳細)へ
この本のご購入は、現代図書へ
|