本日も、数学が苦手な方も目で見て分かり、楽しみながら学べる統計学の基礎知識を目指していきます。
当ブログでは現在、「40歳で成功するために、35歳から学び始める統計学」をテーマにいくつか記事を書いています。
社会人になると、何かと役立つ統計学の知識を筆者自身、一(いち)から学んでいますので、参考にしていただけたら幸いです。
本日は、記述統計学のテキストで初期段階に基礎知識として紹介される
という流れについて解説していきます。
この流れが理解できれば、得られたデータからデータのバラツキ具合を数値化することができるようになります。それぞれの指標のポイントを記事中で楽しみながら記憶に残すお手伝いができればと思います。
本日学ぶ統計学の知識
データ分析において、本日学ぶ初期段階の流れは非常に重要なのですが、この流れを理解するまでに、苦労し、勉強を初めてすぐに統計嫌いになる方も少なくないのではないでしょうか。
確かに何かと意味不明な式が並ぶ記述統計学の基礎ですが、ここをしっかりと押さえることで、その先にある実益が実感できる統計的指標や手法を手にすることができるわけです。
そこで、本日は記述統計学の基本となる平均値から標準偏差までの流れを、”サルでも分かる”よう(少々釣り気味なタイトルですが、それくらいの気持ちでとご理解ください)、図や表を駆使し、私の全力を持ってかみ砕いた説明を目指していこうと思います。
「ふつう」が分かる平均値
まず何らかの目的で集めたデータを加工する際、最もよく利用される指標が「平均値」だと思います。
平均値に関しては、以前記事にしているのでこちらを参考にしてもらえればいいかとおもいますので、ここでは、今後の流れに必要なことのみPickUpして簡単に紹介します。
平均値の求め方
平均値に関しては、テストの平均点などをイメージしてもらえば、計算式も問題なく頭に入ってくるかと思います。
平均値の意味
平均値の意味は、実は奥が深いのですが、ここではあくまで標準偏差への流れを理解することに主眼を置きますので、"平均値=ふつうの人"と理解していきましょう。
基本的に、平均値という指標が有効に機能するには、得られたデータの分布が正規分布であることが望ましいです。
正規分布とは、ざっくりいうと下図の青い線のようにデータが集まっている状態で、平均値を中心に左右対称になっています。
つまり、平均値の値付近に所属するデータが最も多く、それを我々は日常的に"ふつう"と捉えています。
以上より、平均値を求める意味としては、ふつうの人がどのような状態にあるのかを求めているとざっくりと理解しておきましょう。
「変さ」が分かる偏差
上で述べたように、平均値を取る人を「ふつう」と捉えるならば、平均値から離れた値を取る人は良い意味でも悪い意味でも「ふつうではない」と表現できます。
次のステップでは、「ふつうではない人=変人」と考え、その人がどれほど変人であるのかを数値化することを目指していきます。
このどれほど「変」であるかを数値化したものを「偏(差)」と統計では呼びます。
偏差の求め方
偏差とはどれほどふつうから離れているのかを表しているかと頭に入れておけば、この式もしっかり頭に残ると思います。
「偏差は、変さ」とイメージしておくといいかもしれませんね。
偏差の意味
さて、ここでもう一度本日の目標を思い出してみましょう。
本日は、データのバラツキ具合を数値化することが目標でした。
の目標を達成するために、ふつう(平均)という基準を定め、その基準からどれほど離れているか(変さ)を数値化したものが偏差でした。
そうであるならば、目標であるデータのバラツキ具合を数値化するには、この偏差を平均すれば、それこそが求めていた数値ではないかと考えるのが自然な発想ではないでしょうか。なぜなら、偏差が大きい集団というのは、データが散らばっている状態にあると考えることができそうですもんね。
しかし、ここに大きな問題が潜んでいます。
偏差の問題点
平均値からどれほど離れているのかを数字で表した偏差ですが、偏差には偏差の平均を取ると0になってしまうという大きな問題が潜んでいます。
偏差には、プラスとマイナスの値がそれぞれ出現し、平均を取るとこれらがお互いに打ち消しあってしまい、すべて加えると0になってしまうのです。
これでは、ある集団のバラツキ具合を偏差の平均という方法で求めることはできません。だって、どんな集団でも偏差の平均は0になってしまうわけですから、比べようがありませんもんね。
偏差の問題を解決する偏差平方
そこで、この偏差を平均が取れるように加工していきます。それが、「偏差平方」という考え方です。偏差平方は、その名のとおり、偏差を平方(2乗)したものです。
偏差を2乗することで、マイナスの値はプラスの値に変わり、平均を取っても0になることはありません。
こうして偏差の問題点を克服した偏差平方を用いることで、データのバラツキ具合を表した指標こそが、次のステップである「分散」になるわけです。
「バラツキ」を表す分散
こうして手にした分散こそが、まさに今回のテーマである「データのチラバリ具合を数値化した指標」になります。
分散の求め方
ここでは実例を挙げて、実際に分散を求めてみることにします。
10点満点の数学テストをある8人の集団で行ったところ、次のような結果が得られたとします。
まず、この集団の平均点を求めると、
(5+7+4+8+3+7+2+4)÷8=5点
となります。 つまり、この集団では平均点と同じ点数を取ったAくんがふつう(平均的)な人となるわけです。
続いて、それぞれがどれほど変人なのかを表す偏差を取ります。
偏差の値がプラスで大きければ、数学ができる変人。偏差の値がマイナスで小さければ、数学ができない変人。となるわけです。ここで、偏差の平均を取ってみると、
(0+2-1+3=2+2-3-1)÷8=0
とやはり、0となってしまうことが分かります。そこで、先ほど紹介した各データの偏差平方をとっていきます。
以上で、準備が完了です。
最後に出てきた偏差平方の平均値を取れば、分散になるわけですから、実際にこの集団の分散を求めると
分散=(0+4+1+9+4+4+9+1)÷8=4
と分かります。そして、この分散の値が大きければ大きいほど、集団の点数はバラツいているとなるわけです。
分散の問題点
一見これでなんの問題もなく目標達成といったように感じてしまうのですが、実はこの分散という指標には大きな欠点が2つあります。
分散を表現するのに、上の絵では燃え上がっている男の人を用いましたが、まさに分散は燃え上がった指標なのです。
どういうことかというと、分散を求める際に偏差平方を求めましたが、平方をするということは数値が非常に大きくなる場合があるのです。(まさに界王拳のように、自分の実力以上に燃え上がっているわけです。)
上で紹介した数学の点数なら大した大きさになりませんが、扱う数値が年収などだったらどうでしょうか。年収1億円の人の偏差平方が、むちゃくちゃ大きな数字になることは想像していただけると思います。
また、平方しているということは、単位が変わってしまうという欠点もあります。㎝の2乗は平方㎝ですから、扱っている次元が変化してしまうのです。
そこで、最後のステップとして、標準偏差が登場するというわけです。
「バラツキ」を表す標準偏差
分散の2つの欠点を一瞬で解決してくれる神のような存在が数学界には存在します。
そうです。ルート(平方根)です。
標準偏差の求め方
分散の平方根を取れば、分散のバラツキを数値化するという特性を残しつつも、大きくなりすぎしまう欠点も単位が変化してしまう欠点も解消してくれるのです。
これこそが標準偏差になるわけです。
平均値から標準偏差までの流れ
さて、本日学んだ統計学の知識は、理解できたでしょうか。
「サルでも分かる」は言い過ぎですが、統計学をこれから学ぼうと考えている予備知識0の方でも、理解してもらえるよう説明をがんばったつもりです。
- 平均値で"ふつう"を知る
- 偏差で"変さ"を知る
- 偏差平方を考え、分散を求める
- 分散はバラツキが分かるけど、問題多し
- 神様の一手√(ルート)で、標準偏差へ
登場したイラストにもそれなりに意味を持たせて解説をしたつもりですので、印象に残ってくれればと思います。
標準偏差を知ることで、この後に続く記述統計学の本流
- 偏差値
- 相関係数
- 各種検定
などへの理解が、グッと楽になっていくと思われます。ぜひ、ここで一緒に勉強してきた平均値から標準偏差までの流れを理解し、実社会で意味を理解しながら使いこなせるバラツキ達人を目指してくださいね。
今後も統計学の知識を分かりやすく説明することを目指していきますので、ぜひ読者登録&Twitterフォローしてみてください。