「標準偏差とは何か」を知るには、データの平均値から標準偏差を求める一連の流れを理解することが重要です。
本日は、統計学にとって重要な役割を担う標準偏差について、図解を使い"サルでも分かる"を目指し、分かりやすく解説していこうと思います。
ここでは日常でもよく見聞きする指標「平均値」からスタートし、目標の「標準偏差」にたどり着くまでのステップを以下の4つの指標に分け、それぞれのポイントを押さえながら説明していきます。
最後まで読んでいただければ、平均値から標準偏差を求める流れが理解でき、「標準偏差とは何か」や「標準偏差はどうやって求めるのか」などがスッキリ頭に入っているはずです。
標準偏差の求め方
標準偏差は、各データの偏差平方を計算することが第一歩となります。
偏差平方とは、個々のデータの値から平均値を引き、2乗した数値のことです。
こうして得た偏差平方の平均値を取ることで分散を求めることができます。
そして、この分散の平方根こそが標準偏差になります。
以上が、標準偏差の求め方になります。
標準偏差の求め方が分かった方は、標準偏差とは何かという本質の理解を目指していきましょう。
では、まず標準偏差の本質を理解する上で、欠かせない平均値からポイントを図解していくことにします。
STEP1 平均値
まず、何らかの目的で集めたデータを加工する際、最もよく利用される指標の「平均値」について説明します。
平均値の求め方
平均値に関しては、テストの平均点などをイメージしてもらえば、計算式も問題なく頭に入ってくるかと思います。
平均値は、平均点や平均年収などを世の中の様々な場面で用いられているとても身近な指標ですが、その意味を見誤ると大きな失敗につながってしまいます。
以下の記事では平均値の意味を問う内容になっていますので、ぜひ参考にしてみてください。
平均値の意味
平均値の意味は、実は奥が深いのですが、ここではあくまで標準偏差への流れを理解することに主眼を置いて説明します。
標準偏差を理解するためには、平均値=普通の人と理解しておくといいでしょう。
基本的に、平均値という指標が有効に機能するためには、得られたデータの分布が正規分布であることが望ましいことが知られています。
正規分布とは、ざっくりいうと下図のよう平均値にデータが最も集まり、左右対称に裾野が広がっている山のような状態を指します。
身長や体重、センター試験の点数などが正規分布となります。
つまり、平均値の付近に所属するデータが最も多く、それを私たちは日常的に「普通」と捉えています。
以上より、平均値を求める意味としては、普通の人がどのような状態にあるのかを求めているとざっくりと理解しておきましょう。
STEP2 偏差
次に「偏差」という考え方をイメージ化していきましょう。
偏差の意味
偏差については求める式を示す前に、偏差の持つ意味について紹介します。
STEP1の平均値をとった人を「普通」とするならば、平均値から離れた値を取った人は、良い意味でも悪い意味でも「普通ではない人」と表現できます。
偏差という指標は、「普通ではない人=変人」と考え、その人がどれほど変人であるのかを数値化した指標であると言えます。
偏差の求め方
偏差とはどれほど「普通」から離れているのかを表している、と頭に入れておけば、この式自体がしっかり頭に残ると思います。
偏差は個人の指標
「偏差」という指標はあくまでクラスの一人ひとりがどれほど変人なのか、または普通なのかを表した数値となっています。
では、この一人ひとりの偏差の平均値をとれば、一人ひとりではなく、クラス全体の変人(普通)度合いが見えてくるのではないでしょうか。
偏差を平均するときの問題
しかし、ここに大きな問題が潜んでいます。
平均値からどれほど離れているのかを数字で表した偏差ですが、偏差は偏差の平均を取ると常に0になってしまうのです。
偏差の平均については、具体的な例を挙げて説明します。
今10点満点の数学テストをある8人の集団で行ったところ、次のような結果が得られたとします。
この8名の平均点は、STEP1で学んだ式で以下のように計算します。
(5+7+4+8+3+7+2+4)÷8=5点
平均点が5点と分かったので、各個人の偏差についてもSTEP2で学んだ式により計算します。
ここで得られた8人の偏差の平均値を取ります。
(0+2-1+3-2+2-3-1)÷8=0
このように偏差の平均を取ると、どのようなデータ群であったとしても「0」となってしまうのです。
ざっくり言うと、偏差にはプラスとマイナスの値がそれぞれ出現し、平均を取るとこれらがお互いに打ち消しあい、すべて加えると0になってしまうことで起こります。
この問題は平均値の意味を考えると、偏差の平均値が0になるのは当然と言えます。
偏差平方で問題解決
偏差を平均するとどんなデータでも0になってしまう問題を解決するために
- 平均をとったとき0にはならず
- データの特徴を把握できる
という指標に偏差を加工する必要があります。
それが「偏差平方」という考え方です。
偏差平方は、その名のとおり、偏差を平方(2乗)したものです。
偏差を2乗することでマイナスの値はプラスの値に【(ー)×(-)=(+)】変わり、平均を取っても0になることはなくなります。
このように偏差の問題点である平均を取ると0になるという特徴を克服した「偏差平方」という指標ができあがりました。
STEP3 分散
このSTEPでは、分散について説明します。
分散の求め方
分散は、偏差平方を平均することで求まる値です。
偏差の平均は常に0になってしまいましたが、偏差平方はその問題点を克服した指標ですので平均することで値が求まります。それが分散というわけです。
分散の意味
分散の意味は、その集団がどれだけ散らばった値(平均値から離れた値)を取ったのかを数値化した指標になります。
つまり、分散は偏差の意味であった「どれだけ変人なのか」を2乗して平均したものですから、集団としてどれだけ変人が集まっているのかを表すことになります。
具体例で分散まで求めてみよう
では、実際に具体的な事例をもとにSTEP1平均値からSTEP3分散まで計算してみましょう。
上でも取り上げた10点満点の数学テストをある8人の集団で行ったデータで分散を計算していきます。
各データの偏差を求めるところまでは上で説明しました。
ここでは偏差平方から分散を求めていきます。
上の表の偏差を2乗した偏差平方(一番右)の平均を取れば分散が求まります。
(0+4+1+9+4+4+9+1)÷8=4
このデータ群の平均値からの散らばり度合いは「4」と分散を計算することで数値化できたことになります。
分散の問題点
一見すると、分散には何の問題もないように思えるのですが、実はこの分散という指標には大きな欠点が潜んでいます。
分散の欠点は何かというと、次の2つのことが大きな問題となってしまいます。
- 値が大きくなりすぎてしまう
- 単位が変わってしまう
どちらの問題も分散を求める過程で行った偏差平方が原因といえます。
データを平方(2乗)するということは、扱うデータによっては非常に大きな数値を扱う必要が出てきてしまうのです。
上で紹介した数学の点数くらいなら大した問題になりませんが、扱う数値が年収だったとしたらどうでしょう。
年収1億円の人の偏差平方を計算すると「兆」という単位を超えるほど、むちゃくちゃ大きな数字になってしまいます。
いくら計算処理技能が向上したPCなどがあるといえども、あまりに大きな数字を使うことは決していいことではありません。これが分散の1つ目の欠点です。
2つ目の分散の欠点は、偏差を平方したことで単位が変わってしまうという点です。
例えば「㎝を」2乗した値は「㎠」です。
扱っている次元が変化してしまうわけですからこれは大変大きな問題です。
そこで、最後のステップとして「標準偏差」という指標が必要になってくるというわけです。
STEP4 標準偏差
分散の2つの欠点を、一瞬で解決してくれる考え方が数学には存在します。
それがルート(√)です。
分散で求めた値のルートを取ることで、分散の欠点である
- 数字が大きくなってしまう
- 単位が変わってしまう
という問題をどちらも解決してくれます。
標準偏差の求め方
分散の平方根を取ることで、分散の特性を残しつつも、大きくなりすぎしまう欠点も単位が変化してしまう欠点も解消してくれます。
標準偏差をエクセルで計算する方法
標準偏差の求め方が分かったところで、実用性を考え、Excel(エクセル)で標準偏差を求める方法を紹介します。
まず上のようにデータを表に打ち出します。
そして、標準偏差を出力させたいセル(ここではピンクのセル)をクリックします。
次に上部の「数式」というタブをクリックし、「関数の挿入」というアイコンをクリックします。
次に「関数の検索(S)」(赤枠で囲まれた箇所)に標準偏差と打ち込み、検索開始(G)ボタンをクリックしてください。
すると、下の関数名(N)にたくさんの英単語がズラーっと並びますので、その中から
STDEVP
※似たような単語がたくさんあるので注意
という単語を選び、OKボタンを押してください。
OKボタンを押すと、次のような画面に切り替わります。
この画面では、数値1という入力BOXの横にある赤枠で囲んだボタンをクリックします。
すると、「関数の引数」という画面が現れますので、標準偏差を求めたいデータをすべてドラッグして囲みます(ここでは上の青色の部分)。
これで準備完了です。
あとはOKボタンを押すだけで、面倒な標準偏差の計算をエクセルがしてくれ、出力してくれます。
平均値から標準偏差までの流れ
さて、本日学んだ「標準偏差」の求め方と意味は、理解できたでしょうか。
もう一度標準偏差を求める4つの指標の意味を紹介しておきます。
- 平均値で"普通"を知る
- 偏差で個人の"変さ"を知る
- 分散で集団の"変さ"を知る
- 分散は問題多いのでルートを取って標準偏差へ
いかがだったでしょうか。
本日は標準偏差とは何か、その意味と求め方について説明してきました。
この記事を読んで標準偏差が理解できた方は、次のステップとして2つのデータの関係を数値化する「相関係数」について学ぶことをおすすめします。
相関係数はここで学んだ標準偏差を使っていますので、標準偏差の学びがより深まります。
ぜひ、ここで一緒に勉強してきた平均値から標準偏差までの流れを理解し、実社会で意味を理解しながら使いこなせる標準偏差の達人を目指してください。