ある集団についてのデータがどのように分布しているかを表すものとして、その集団の代表値(中心の値)を示す平均値及びそのばらつき具合を示す散布度がある。平均には算術平均が、散布度には標準偏差がよく用いられている。









1.度数分布表・ヒストグラム

 データがどのように分布しているかその実態を把握するには、データをその大きさによりいくつかの階級に区分し、その階級ごとの個数 (度数) をカウントして表にした度数分布表、あるいは、それを棒グラフにして表わしたヒストグラムが適している (表1、図1) 。
 例えば、年齢別人口や従業者規模別事業所数など多くの統計表は度数分布表の形で作成され、また、年齢別人口をヒストグラムにした人口ピラミッドは人口構造の分析等によく用いられている。

2.平均値


 一般に平均値には、単純平均

(X i ( i=1,2,3…n) :各データ、n:データ数)
が多く使われている。平均値は通常μ(ミュー) と表示される。

3.標準偏差と分散 (表2

 平均値だけでは、データがどのように分布しているかが分からなくなってしまうため、データの平均値のほか、データのばらつきの範囲を示す散布度を使用する場合が多い。
 データの散布度を示すものとして、データの平均値との差 (偏差) の2乗を平均し、これを変数と同じ次元で示すために平方根をとった標準偏差が最もよく用いられている。標準偏差は通常σ(シグマ)で表示される。また、平方根をとる前の値 (標準偏差の2乗) を分散といいσと表示される。

4.標準偏差の意味

 標準偏差はデータの分布の広がり幅 (ばらつき) をみる一つの尺度である。平均値と標準偏差の値が分かれば、データがどの範囲にどのような割合で散らばっているか (分布) がある程度明らかになる。図2のような平均値μを中心に左右対称の釣り鐘型の分布 (正規分布) では、平均値 (μ) と標準偏差 (σ) 及び度数の間に次の関係が成り立っている。


 これは平均値±標準偏差の範囲に全データの68.27%が、±標準偏差の2倍の範囲内に全データの95.45%が分布するという意味である。

5.偏差値 (表3

 学力テストの場合、素点自体よりも受験者全体の分布の中での個人の位置が問題とされることが多い。たとえば、数学と国語のテスト結果では、難易度が異なっているために素点では自分の位置を比較できないが、標準偏差を用いた共通のものさしで比較すればそれが可能となる。
 共通のものさしとしてよく用いられる偏差値 (T) は、(1)平均点には50を対応させ、(2)平均から標準偏差のZ倍だけ上回る (下回る) 点数には50にZの10倍を加えた (引いた) 数値を対応させて、規準化した数値のことで、次式で表される。

(偏差値の平均は50、標準偏差は10である。)

 偏差値は、平均点からの偏差を示す得点なので、異なるテストの得点であっても同一集団内での自分の位置を比較することが可能となる。また、全員の素点が正規分布に従うと考えられるとき、偏差値もまた正規分布に従う。μ±2σの範囲は (50±2×10より) 30から70であり、偏差値が30以下または70以上の人は、全体の4.55%(=100%−95.45%) である。70以上の人だけならば、半分の2.275%となり、100人中2位か3位までの順位と判断される。