統計学を学ぶうえで欠かすことのできない値、標準偏差(standard deviation,SD)。
標準偏差という数値のおかげで、膨大な量のデータに対する評価の精度は飛躍的に高まりました。
ただ、この標準偏差。その求め方が少々複雑なこともあって「何を意味する数値なのか」「何に使う数値なのか」が分かりにくいという特徴があります。
そこで今回は、この標準偏差の求め方からその公式の意味・使い方を説明していこうと思います。
photo credit: Chris Potter
目次
標準偏差とは何か?その求め方
標準偏差とはデータのばらつきの大きさを表わす指標で、記号 σ または s で表わされる値です。
(母集団の例:日本人1億人全体。標本の例:アンケートに参加した3000人)
標準偏差は、「各データの値と平均の差の2乗の合計を、データの総数 n で割った値の正の平方根」という公式で求められます。>nの代わりにn-1で割った値との違いについて
さっそく、以下の4人(A,B,C,D)の点数について、数学の点数の標準偏差を求めてみましょう。
step①平均値を求める
まず初めに、平均値を求めます。
平均値は、データのすべての値を合計してデータの総数 n (今回は4)で割ることで求まります。
step②偏差を求めて、2乗する
平均値が求まったら、次は偏差を求めます。
今回は平均値が60点なので、各データの値から60を引くと偏差が求まります。
偏差が求まったら、それらをすべて2乗していきましょう。
step③偏差の2乗の合計をデータの総数で割る
次は、偏差の2乗の合計をデータの総数 n (今回はn=4)で割って、分散を求めます。
step④分散の正の平方根を求める
分散が求まったら、分散の正の平方根を計算すると、標準偏差が求まります。
ここから「4人の数学の点数の標準偏差は約16.96点だ」ということができます。
ごちゃごちゃしていて、すこし分かりにくいですよね。
「こんなのを丸暗記しなきゃいけないの!?」と思ったあなた。大丈夫、丸暗記する必要はありません。
実は、標準偏差の公式は「なぜこのような公式になるのか」を順を追って理解していくことで、カンタンに暗記することができるんです。
標準偏差を理解するために、まずは「なぜばらつきの大きさを表す数値を求めるのか?」から考えていきましょう。
平均点が60点のテストで70点を取るのはどのくらいスゴイ事?
皆さんは、子供が「平均点が60点のテストで70点取ったよ!」と言ったら、それがどのくらいスゴイ事なのか分かりますか?
おそらく、多くの方が「平均を超えているならそこそこ凄いんだろうな~」といった感想を持つはずです。
しかし、もしそのテストの点数分布が「0点、5点、10点、70点、80点、80点、82点、85点、93点、95点」(平均点60点)だとしたらどうでしょう?
「ごく一部の生徒が平均を下げただけで、普通に勉強したら80点以上取れるテストだったんだな」と思いますよね。
このようなテストでの70点はやや勉強不足。少なくともスゴイ事とは言えません。
では逆に、もしそのテストの点数分布が「50点、52点、54点、60点、60点、60点、61点、61点、70点、72点」(平均点60点)だとしたらどうでしょう?
クラスで2位の成績ですし、点数分布から「多くの生徒が間違えた超難問のうちの1つを正解した」と推測できます。
これは間違いなくスゴイ事ですし、おもいっきり褒めてあげるべきでしょう。
このように、平均という数字は情報量が少なく、それだけでは意外と役に立たない数字なんです。
そこで役に立つのが「ばらつきの大きさを表す数値」である標準偏差。
テストを平均点と標準偏差という2つの視点からみることで、「70点を取ったこと」がどのくらいスゴイ事なのかが一気に分かりやすくなるんです。
「上の例の標準偏差は約36.67点⇒ばらつきの大きいテスト⇒平均+10点はスゴくない」
「下の例の標準偏差は約6.68点⇒ばらつきの小さいテスト⇒平均+10点はスゴイ」
と判断できるようになります。
どうやってばらつきの大きさを数字で表現するのか?
では、どうすれば「ばらつきの大きさ」を数値化できるのでしょうか?
順を追って考えていきましょう。
(1)平均との差(偏差)の合計=0
例えば、平均点50点のテストで90点以上を取った人が何人もいたら「ばらつきの大きなテストだったんだろうな」と予想できますよね。
このように、ばらつきの大きさは「各データの値と平均値の差(偏差)がどれくらい大きいのか」で判断できます。
そこでまずは、「各データの値と平均値の差(偏差)」を合計してみましょう。
・・・どんなデータでも答えが0になってしまいますね。これでは役に立ちません。
(2)平均との差の絶対値の合計
利用したいのは「各データの値と平均値の差の大きさ」なので、今度は大きさを表す「絶対値」を使ってみましょう。
|0-60|+|5-60|+|10-60|+|70-60|+|80-60|+|80-60|+|82-60|+|85-60|+|93-60|+|95-60|=330
何となく良さそうな感じもしますが、このままだとデータの総数が増えれば増えるほど答えも大きくなってしまいます。
ばらつきの大きさを表す以上、「50,60,70」というテストよりも「53,55,60,65,67」というテストの方が数値が小さくなる指標でなくてはなりません。
(3)平均との差の絶対値の合計をデータの総数で割る
データの総数が答えに影響を与えないように、今度は先ほどの値を「データの総数」で割ってみましょう。
だいぶ良くなってきましたが、このままだとA:「40,45,60,75,80」とB:「30,55,60,65,90」のばらつきの大きさが同じと評価されてしまいます。
これはちょっと違和感がありますよね。
できれば、B:「30,55,60,65,90」の方がより広範囲にばらついていることを表現できる指標を利用したいところです。
(4)平均との差の2乗の合計をデータの総数で割る(=分散)
「平均との差がそこそこの値が2つあるよりも、平均との差がかなり大きい値が1つある方がばらつきが大きい」ことを表現するために、「平均との差の2乗」を利用してみましょう。
2乗した値はかならずプラスになるので、絶対値を使う必要も無くなります。
これで、ばらつきの大きさをキチンと表現できる指標になりました。
この値は分散と言って、標準偏差とともに「データのばらつきの大きさ」を表すのに利用されています。
分散はばらつきの大きさを表すのに便利な数値ではあるのですが、「2乗したせいで元のデータの数値と単位がそろわない」という欠点もあります。
(5)平均との差の2乗の合計をデータの総数で割った値の平方根(=標準偏差)
そこで、分散の平方根(=√)を利用して、元のデータの数値と単位をそろえてみましょう。
この分散の正の平方根に当たる値が、標準偏差です。
このように、元のデータの数値と単位がそろった「データのばらつきの大きさ」の指標を求めるために、(1)各データと平均との差を(4)2乗したものの合計を(3)データの総数で割った上で(5)平方根を利用したもの。
それが、標準偏差なんです。
実践的な標準偏差の使い方:68%95%ルール
もしかしたら、先の例を読んで「(4)=分散さえ求めれば十分なんじゃない?なんでわざわざルートを使って標準偏差を利用するの?単位なんてどうでも良いじゃん」と思った方もいるかもしれません。
確かに、分散だけでも「データのばらつきの大きさ」は分かります。
しかし、平方根(ルート)を利用して単位を元のデータの数値とそろえると非常に便利なことがあるんです。
それが、標準偏差の「68%95%ルール」。
もし、データの確率分布が正規分布と呼ばれる上図のような形をしていた場合
「平均-1×標準偏差」~「平均+1×標準偏差」内に、あるデータが含まれる確率が約68%
「平均-2×標準偏差」~「平均+2×標準偏差」内に、あるデータが含まれる確率が約95%
ということが分かっています。
あるテストの点数分布が正規分布に近似できて、平均点50点・標準偏差10点だったのなら
40点から60点の間に受験者の約68%が存在し
30点から70点の間に受験者の約95%が存在する
ということです。
この標準偏差の「68%95%ルール」、知っているとものすごく便利なんですよ。
なぜなら、データの総数が1000を超えた分布は、正規分布に近い分布になるケースが多いことが分かっているから。
つまり、この標準偏差の「68%95%ルール」は身近にある様々なデータに活用できるのです。
「どの塾に行った方が良いか」や「電車とバスのどちらを使うべきか」、「どう勉強すれば最も合格率が高いか」さえも計算できる可能性を秘めている。
それが、標準偏差の強みです。
標準偏差と「68%95%ルール」さえ理解しておけば、データ分析から出来ることの範囲はグッと広くなっていきますよ。
偏差値=「平均点50標準偏差10になるよう調整した時の点数」
標準偏差が活躍する身近な例としては、「偏差値」が挙げられます。
(偏差値の算出方法は下記記事を参考に)
偏差値は、平均点が50点・標準偏差が10点になるように調整した時のあなたのテストの点数を表しています。
この偏差値においても、先の68%95%ルールは利用できます。
偏差値60以上の人は、受験者全体の上位約16%に相当
偏差値70以上の人は、受験者全体の上位約2.3%に相当
体感的な偏差値の評価にかなり近いのではないでしょうか。
「平均60点のテストで70点取ったよ!」と言われてもどのくらいスゴイのかは分かりませんが、「偏差値60取ったよ!」ならスゴさが分かりますよね。
標準偏差のまとめ
①標準偏差とは「データのばらつきの大きさ」を表わす指標で、各データの値と平均の差の2乗の合計をデータの総数で割った値の正の平方根として求められる
②平均という数字は情報量が少なく、それだけでは意外と役に立たないので、標準偏差と組み合わせて使う必要がある
③標準偏差の求め方の公式は、丸暗記するよりも順を追って理解していった方が効果的
④正規分布において、標準偏差には68%95%ルールが存在する。これがすごく便利
⑤偏差値とは、平均が50点・標準偏差が10点になるように調整したときの点数。正規分布を仮定すると、偏差値60は上位約16%に相当する
標準偏差は、世の中にあふれる数字の意味を分析し、誤った判断を回避できる便利なツールでもあります。
逆に言えば、標準偏差を知らないと、知らず知らずのうちに損な選択をしているかもしれません。
パッと見は難しそうな指標ではありますが、一度理解してしまえばこれほど便利な数値もそうないので、ぜひ活用してください!
「できる限り数式を使わずに標準偏差の使い方を理解したい」という方には、完全独習 統計学入門 という入門書がオススメ。
図が豊富なうえ数式が少なめなので、初学者でもすぐ読み切れると思います。