統計学を学んでいる人なら「標準偏差」という言葉を1度は耳にしたことがあるでしょう。
標準偏差はデータを使って統計を出すときに、よく使われるのでしっかり押さえておくことがおすすめです。
そこで、今回は、標準偏差とはそもそも何なのか、どのように求めるのかについて詳しく解説していきます。
標準偏差と混同されやすい分散との違いも合わせて見ていきましょう。
この記事は、
- 標準偏差について基礎から押さえたい人
- 標準偏差を求める意味を知りたい人
- 標準偏差と分散の違いが分からない人
におすすめの内容です。
標準偏差とは?
標準偏差は対象データのバラつきの大きさを示す指標であり、「s」や「σ」で表されます。
「s」と「σ」はどちらも標準偏差を表す記号ではありますが、「s」のときは標本の標準偏差、「σ」は母集団の標準偏差として使用されることが多い傾向があります。
ちなみに、標準偏差=√分散となっているので覚えておきましょう。
標準偏差が大きいほど、対象のデータに数値的な散らばりが多いことを表しています。
標準偏差は統計学だけで使われる特別な値だと考えている人が多くいますが、実は学生のころによく耳にした「偏差値」も標準偏差の考え方を用いて算出されいています。
テストの得点データが正規分布に従うと仮定すれば、得点から平均点を引いた数値を標準偏差で割って10倍にした上で50を足すと偏差値が求められるのです。
それでは続いて、標準偏差の求め方を具体例を用いながら解説していきます。
標準偏差の求め方
標準偏差は対象データの値と平均との間にある差を2乗したものを合計した上で、データの総数で割った正の平方根から求められます。
文章で説明すると分かりづらいので、ますは標準偏差を求めるときに使用する公式を紹介します。
標準偏差の公式を見ると、「果たして自分に計算できるのか」と不安に思う人もいるでしょう。
そこで、標準偏差を求めるための具体的な手順も合わせて解説していきます。
1.データ全体の平均値を出す
2.偏差(各データから平均値を差し引いた値)を求める
3.2で算出した偏差を2乗する
4.3で出した偏差の合計を出す
5.偏差の合計をデータの総数で割って分散を求める
6.5で出した分散の正の平方根を求めて標準偏差を算出する
上記の手順で次の例題の標準偏差を求めてみましょう。
【例題】
4人のテストの結果は次の表の通りである場合の標準偏差を求めなさい。
Aさん | 55 |
Bさん | 70 |
Cさん | 35 |
Dさん | 80 |
まずは、データ全体の平均値を出して、偏差を求めた上で偏差の2乗を計算します。
平均値=(55+70+35+80)÷4=60
つまり、各人の偏差と偏差の2乗は次の表の通りになります。
偏差 | 偏差の2乗 | |
Aさん | -5(55-60) | 25 |
Bさん | 10(70-60) | 100 |
Cさん | -25(35-60) | 625 |
Dさん | 20(80-60) | 400 |
続いて、偏差の2乗の合計をデータの総数で割って分散を求めていきましょう。
偏差の2乗の合計は、25+100+625+400=1,150であり、これをデータの総数である4で割ると287.5になります。
最後に、分散の正の平方根を求めると√287.5=16.955…になるので、この例題の標準偏差は約16.96点となります。
標準偏差を求める公式を一見すると難易度が高く感じられるかもしれませんが、ひとつひとつ丁寧に計算していけば、誰でも簡単に標準偏差の値が求められます。
はじめは慣れないかもしれませんが、意味や流れを押さえるように意識することが大切です。
では続いて、標準偏差を求める意義について説明していきます。
標準偏差を求めるのはなぜ?
冒頭で説明した通り、標準偏差とは対象データがどれくらい散らばっているかを表す指標です。
標準偏差を求めておけば、全体的なデータの傾向が掴みやすくなるメリットがあります。
先に解説した例題を用いると、標準偏差は約16.96点であったので平均点に対して±16.96点の範囲で得点を取っている人が多いという認識を持てるというわけです。
ちなみに、正規分布であれば平均値と標準偏差の関係によって、範囲中に数値が存在する確率が異なります。
具体的には次の表の通りになります。
範囲 | 範囲中に数字が存在する確率 |
平均値±(標準偏差×3) | 99.7% |
平均値±(標準偏差×2) | 95.4% |
平均値±標準偏差 | 68.3% |
分散との違いは?
標準偏差と同様に、分散もデータにどれくらいバラつきがあるかを表した数値です。
先に少し触れたとおり、標準偏差の二乗は分散になるのでどちらかの値が分かっていればもう一方の算出は可能になります。
では、標準偏差と分散にはどのような違いがあるのでしょうか。
標準偏差は、現実的なデータのバラつき具合を把握したいときに使われることが多いです。
なぜなら、計算で用いられる元データの単位と標準偏差の次元が同じだからです。
具体的にいえば、標準偏差は「18点」というように表記できますが、分散は標準偏差の2乗なので「324点²」という表記になります。
一方、分散は数学的な主張である確率分布を表すときに使用されることが多くなります。
なぜなら、標準偏差を使って確率分布を表すよりも分散を使用した方が記述が美しくなると考えられているからです。
まとめ
統計学において標準偏差を求めることは基本中の基本です。
最初は理解するのに時間がかかるかもしれませんが、ひとつずつ丁寧に押さえていけばきちんと身に付けられる知識です。
今回紹介した内容を参考にしながら、標準偏差のポイントを掴んでおきましょう。
<参考>
- 標準偏差とは何か?その求め方や公式の意味・使い方をわかりやすく説明します(アタリマエ!)
https://atarimae.biz/archives/5379#i - 標準偏差の意味と求め方(全人類がわかる統計学)
https://to-kei.net/basic/glossary/standard-deviation/#i