■ 標準偏差 ■ |
【4】標準偏差は富士山(正規分布)の形
を決めるマジックナンバーだった
いままではいくつかのサンプルから計算で標準偏差を求めましたが、
でてきた数値にはどのような意味があるのでしょうか。
たとえば、歴史の試験で平均点が50点、標準偏差が15点、などと
いう場合です。
直接この問題を考える前にひとつ説明させてください、、、
試験の点数は、平均点のまわりに厚くスコアが分布して、平均からはな
れるほど分布は薄くなっていきます。受験している生徒一人一人は自分
の得点は運と実力でどうにでもなると思っていることでしょう。個人か
ら見ると、自分が何点とるかはそのときどきの勝負で、確定しないよう
に感じますが(また実際そうですが)、全体から見ると、たとえば人数
を多くした1万人とかの場合ですが、その得点の分布はきれいに数式に
のります。
まあ、半数の人が共謀してわざと0点をとったりしたら数式からはずれ
ますが、全員が真剣勝負している限りきれいに数式にのります。このよ
うなとき、個人の自由度は大数の前では無力なわけで、すこしこわい気
もしますが、このような、一見ランダムな事柄の背後に数学的な構造が
あることはめずらしくありません。
ちょっとむずかしくなってきましたね。はなしを戻しましょう、、
このきれいにのった数式ですが、グラフにすると富士山のシルエットの
ようになります。これは正規分布と呼ばれています。日本語でこのての
専門用語を読むとわけがわからないですね、、、正規分布は英語で
normal distributionといいますが、、ノーマル分布といってもらうほ
うがわかりやすいです。
normal distribution(正規分布)の意味ですが、確率の世界には何
種類かの分布がありますが、その中で最も基本的な分布だという意味
で、このnormal distribution(正規分布)という名前が付けられて
います。
ちょっとみてみましょう
こんな感じです
この正規分布のかたちなんですが、たった2つのファクター(変数)
だけで決まります。球は半径がわかればきまりますよね、長方形は
縦と横、、でもこの複雑そうな曲線が長方形なみに2つのファクター
だけで完全に決まるというのは奇蹟みたいなものなんですよ。ほん
とうに。なんでかっていうと、もともと、この曲線は自然界でラン
ダムに発生していることの分布をあらわすものだったんで、、ラン
ダムなばらつき分布が1つの数式になること自体がおどろきなのに、
さらに、その数式には2つのファクターしかないわけですから、、
2つのファクターとは、平均と、標準偏差です。平均は対称軸(中央)
の場所を決めているのと、標準偏差の大きさを平均の何倍というよう
に意味づけていますが、曲線が横に拡がってつぶれているとか、ある
いは、とがっているというのは標準偏差が決めています(上図)。
実質、標準偏差がこの曲線の形を決めているといってもいいでしょう。
(平均は必要ですが)標準偏差は、正規分布の形を確定するマジック
ナンバーだったんです。
正規分布のファクターは平均と標準偏差の2つだけ
標準偏差は正規分布の形を確定するマジックナンバーだった
、、で、、だからどうしたんだといわれても、、、
初めの、歴史の試験の例を正規分布にのせてみましょう。平均が50点、
標準偏差が15点です
横軸は得点、縦軸は人数です。マイナス記号が見えにくいかも
しれませんが縦書きなのでご容赦ください。
上では、65点、80点、95点、、という点がでてきますが、
たとえば65点というのは、平均の50点に標準偏差15を足し
た値です。このように、『平均+標準偏差のなんとか倍』、と
いう数が正規分布では大切になります。書き出してみましょう
平均=50,標準偏差=15
平均+標準偏差の1倍=50+15=65
平均+標準偏差の2倍=50+30=80
平均+標準偏差の3倍=50+45=95
こんどは、平均-標準偏差の何倍か、です
平均-標準偏差の1倍=50-15=35
平均-標準偏差の2倍=50-30=20
平均-標準偏差の3倍=50-45=5
そして、
【平均値-標準偏差】 から、【平均値+標準偏差】
までの面積が全体の約『68%』になります
(35点から65点まで、下図)
ちょっと、図は裾野を強調して描いているので面積的におかしい
ですけどそのへんは差し引いて考えてください。
同じはなしが続きますが、
【平均値-標準偏差の2倍】 から、【平均値+標準偏差の2倍】
までの面積が全体の約『95%』になります
(20点から80点まで、下図)
さいごに、
【平均値-標準偏差の3倍】 から、【平均値+標準偏差の3倍】
までの面積が全体の約『99.7%』になります
(5点から95点まで、下図)
注意していただきたいのは、いままでのグラフの横軸の得点(5、
20、35、50、65、80、95点)は平均や標準偏差が変わ
ると違ってくるということです。変わらないのは、平均プラス
(マイナス)標準偏差の1倍(2倍、3倍)という点です。
また、今まで出てきた、68、95、99.7(%)というのは円周率
みたいなもので、定数です。最近のETS(GMAC)はなにか
信用できないところがあるので、この数字はおぼえてしまいましょう
ろくはち きゅうごう きゅうきゅうなな
です。おぼえかたですが、5から上の数を順番に書いていきます
5 6 7 8 9 9 9
このとき9だけは3つ書きます
このなかの偶数は6と8だけです → 68% ができました
のこりのかずは
5 7 9 9 9
ここからはなんとなくですが 95
そして 997(99.7) をつくってください
さいごにもうひとつだけ、、、
あたりまえそうですが、とても強調しておきたいことなのです
正規分布は平均を中心に左右対称です
(面積を求めるときに多用します)
今回はここまでです
つぎはここからいろいろな面積(%)を求めていきましょう。
お疲れさまでした。