「アタリマエ!」内でも何度も出てきたことのある、統計学の必須知識「標準偏差(SD)」。
標準偏差という数値のおかげで、膨大な量のデータに対する評価の精度は飛躍的に高まりました。
ただ、この標準偏差。その求め方が少々複雑なこともあって「何を意味する数値なのか」「何に使う数値なのか」が分かりにくいという特徴があります。
そこで今回は、この標準偏差の求め方からその公式の意味・使い方を説明していきます。
photo credit: Chris Potter
目次
標準偏差とは何か?その求め方
標準偏差とは「データのばらつきの大きさ」を表わす指標で、記号 σ または s で表わされる数値です。
標本の標準偏差は、「各データの値と平均の差の2乗の合計を、データの個数で割った値の正の平方根(=√)」という公式で求められます。>nの代わりにn-1で割った値との違いについて
ごちゃごちゃしていて、すこし分かりにくいですよね。
「こんなのを丸暗記しなきゃいけないの!?」と思ったあなた。大丈夫、丸暗記する必要はありません。
実は、標準偏差の公式は「なぜこのような公式になるのか」を順を追って理解していくことで、簡単に暗記することができるんです。
平均点が60点のテストで70点を取るのはどのくらいスゴイ事なのか?
皆さんは、子供が「平均点が60点のテストで70点取ったよ!」と言ったら、それがどのくらいスゴイ事なのか分かりますか?
おそらく、多くの方が「平均を超えているならそこそこ凄いんだろうなー」といった感想を持つはずです。
しかし、もしそのテストの点数分布が「0点、5点、10点、70点、80点、80点、82点、85点、93点、95点」(平均点60点)だとしたらどうでしょう?
「ごく一部の生徒が平均を下げただけで、普通に勉強したら80点以上取れるテストだったんだな」と思いますよね。
このようなテストでの70点はやや勉強不足。少なくともスゴイ事とは言えません。
では逆に、もしそのテストの点数分布が「50点、52点、54点、60点、60点、60点、61点、61点、70点、72点」(平均点60点)だとしたらどうでしょう?
クラスで2位の成績ですし、点数分布から「多くの生徒が間違えた超難問のうちの1つを正解した」と推測できます。
これは間違いなくスゴイ事ですし、おもいっきり褒めてあげるべきでしょう。
このように、平均という数字は情報量が少なく、それだけでは意外と役に立たない数字なのです。
そこで役に立つのが「ばらつきの大きさを表す数値」である標準偏差。
テストを平均点と標準偏差という2つの視点からみることで、「70点を取ったこと」がどのくらいスゴイ事なのかが一気に分かりやすくなるんです。
一般的なテストの標準偏差が10~25点程度と知っていれば標準偏差は何点か聞くことで
「上の例の標準偏差は約36.67点→ばらつきの大きなテスト→平均+10点はスゴくない」
「下の例の標準偏差は約6.68点→ばらつきの小さいテスト→平均+10点はスゴイ」
と判断できるようになります。
どうやってばらつきの大きさを数字で表現するのか?
では、どうすれば「ばらつきの大きさ」を数値化できるのでしょうか?
順を追って考えていきましょう。
(1)平均との差(偏差)の合計=0
例えば、平均点50点のテストで90点以上を取った人が何人もいたら「ばらつきの大きなテストだったんだろうな」と予想できますよね。
このように、ばらつきの大きさは「各データの値と平均値の差がどれくらい大きいのか」で判断できます。
例えば平均点が60点なら「10点の偏差は-50」「80点の偏差は+20」となります。
そこでまずは、「各データの値と平均値の差(偏差)」を合計してみましょう。
・・・どんなデータでも答えが0になってしまいますね。これでは役に立ちません。
(2)平均との差の絶対値の合計
利用したいのは「各データの値と平均値の差の大きさ」なので、今度は大きさを表す「絶対値」を使ってみましょう。
何となく良さそうな感じもしますが、このままだとデータの個数が増えれば増えるほど答えも大きくなってしまいます。
ばらつきの大きさを表す以上、「50,60,70」というテストよりも「53,55,60,65,67」というテストの方が数値が小さくなる指標でなくてはなりません。
(3)平均との差の絶対値の合計をデータの個数で割る
データの個数が答えに影響を与えないように、今度は先ほどの値を「データの個数」で割ってみましょう。
だいぶ良くなってきましたが、このままだとA:「40,45,60,75,80」とB:「30,55,60,65,90」のばらつきの大きさが同じと評価されてしまいます。これはちょっと違和感がありますよね。
できれば、Bの方がより広範囲にばらついていることを表現できる指標を利用したいところです。
(4)平均との差の2乗の合計をデータの個数で割る(=分散)
「平均との差がそこそこの値が2つあるよりも、平均との差がかなり大きい値が1つある方がばらつきが大きい」ことを表現するために、「平均との差の2乗」を利用してみましょう。
2乗した値はかならずプラスになるので、絶対値を使う必要も無くなります。
これで、ばらつきの大きさをキチンと表現できる指標になりました。
この「平均との差の2乗の合計をデータの個数で割った値」は分散と呼ばれ、標準偏差とともに「データのばらつきの大きさ」を表すのに利用されています。
(詳しくは下記記事を参考に)
分散は、ばらつきの大きさを表すのに便利な数値ではあるのですが、「2乗したせいで元のデータの数値と単位がそろわない」という欠点もあります。
(5)平均との差の2乗の合計をデータの個数で割った値の平方根(=標準偏差)
そこで、分散の平方根(=√)を利用して、元のデータの数値と単位をそろえてみましょう。
この分散の正の平方根に当たる値が、標準偏差です。
このように、元のデータの数値と単位がそろった「データのばらつきの大きさ」の指標を求めるために、(1)各データと平均との差を(4)2乗したものの合計を(3)データの個数で割った上で(5)平方根を利用したもの。
それが、標準偏差なんです。
実践的な標準偏差の使い方:68%95%ルール
もしかしたら、先の例を読んで「(4)=分散さえ求めれば十分なんじゃない?なんでわざわざルートを使って標準偏差を利用するの?単位なんてどうでも良いじゃん」と思った方もいるかもしれません。
確かに、分散だけでも「データのばらつきの大きさ」は分かります。
しかし、平方根(ルート)を利用して単位を元のデータの数値とそろえると非常に便利なことがあるんです。
それが、標準偏差の「68%95%ルール」。
もし、データの確率分布が正規分布と呼ばれる上図のような形をしていた場合
「平均-1×標準偏差」~「平均+1×標準偏差」内に、あるデータが含まれる確率が約68%
「平均-2×標準偏差」~「平均+2×標準偏差」内に、あるデータが含まれる確率が約95%
ということが分かっています。
あるテストの点数分布が正規分布に近似できて、平均点50点・標準偏差10点だったのなら、
40点から60点の間に受験者の約68%が存在して、
30点から70点の間に受験者の約95%が存在している
ということです。
この標準偏差の「68%95%ルール」、知っているとものすごく便利なんですよ。
なぜなら、データの個数が1000を超えた分布は、正規分布に近い分布になるケースが多いことが分かっているから。
つまり、この標準偏差の「68%95%ルール」は身近にある様々なデータに活用できるのです。
「どの塾に行った方が良いか」や「電車とバスのどちらを使うべきか」、「どう勉強すれば最も合格率が高いか」さえも計算できる可能性を秘めている。それが、標準偏差の強みです。
標準偏差と「68%95%ルール」さえ理解しておけば、データ分析から出来ることの範囲はグッと広くなっていきますよ。
偏差値=「平均点50標準偏差10になるよう調整した時の点数」
標準偏差が活躍する身近な例だと「偏差値」が挙げられます。
(偏差値の算出方法は下記記事を参考に)
偏差値は、平均点が50点・標準偏差が10点になるように調整した時のあなたのテストの点数を表しています。
この偏差値においても、先の68%95%ルールは利用できます。
偏差値60以上の人は、受験者全体の上位約16%に相当
偏差値70以上の人は、受験者全体の上位約2.275%に相当
体感的な偏差値の評価にかなり近いのではないでしょうか。
「平均60点のテストで70点取ったよ!」と言われてもどのくらいスゴイのかは分かりませんが、「偏差値60取ったよ!」ならスゴさが分かりますよね。
標準偏差のまとめ
①標準偏差とは「データのばらつきの大きさ」を表わす指標で、各データの値と平均の差の2乗の合計をデータの個数で割った値の正の平方根として求められる
②平均という数字は情報量が少なく、それだけでは意外と役に立たないので、標準偏差と組み合わせて使う必要がある
③標準偏差の求め方の公式は、丸暗記するよりも順を追って理解していった方が効果的
④正規分布において、標準偏差には68%95%ルールが存在する。これがすごく便利
⑤偏差値とは、平均が50点・標準偏差が10点になるように調整したときの点数。正規分布を仮定すると、偏差値60は上位約16%に相当する
標準偏差は、世の中にあふれる数字の意味を分析し、誤った判断を回避できる便利なツールでもあります。
逆に言えば、標準偏差を知らないと、知らず知らずのうちに損な選択をしているかもしれません。
パッと見は難しそうな指標ではありますが、一度理解してしまえばこれほど便利な数値もそうないので、ぜひ活用してください!
「できる限り数式を使わずに標準偏差の使い方を理解したい」という方には、完全独習 統計学入門 という入門書がかなりおすすめ。
図が豊富なうえ数式が少なめなので、初学者でもすぐ読み切れるでしょう。