多くの人はデータを要約する際に、平均値ばかりに目がいきます。しかし、平均値はデータがある程度、左右対称に分布をしている場合以外は、必ずしも良い要約の仕方ではありません。
例えば、総務省統計局(参照:http://www.stat.go.jp/data/sav/sokuhou/nen/index.htm)によると、2016年の日本の2人以上の世帯の平均貯蓄額は、1820万円とのことです。平均貯蓄額が1820万円とは、普通の人の感覚とはかなりかけ離れているのではないでしょうか?
実際には、日本の世帯の貯蓄額の分布は左右対称ではありませんので、平均値をとることは実態を把握する上でよい指標ではありません。
今回は、平均値、中央値、最頻値の3種類の定義を確認しながら、その違いを説明していきます。
【目次】
平均値の定義と問題点。
中央値とは何か?
最頻値とは何か?
平均値、中央値、最頻値のどれを見るべきか?
平均値の定義と問題点
平均値(mean,average)とは、データの総和をデータの個数で割ったものです。
この定義に関しては、常識の範囲内なので特に詳しい説明は必要ないかと思います。
問題は、ほとんどの人が、データを要約するために平均値を利用してしまうということです。上で紹介をしたように、平均値はデータが左右対称でない限り、意味のある要約ではありません。
2016年の日本の2人以上の世帯の貯蓄額の平均値は1820万円ですが、同じく総務省統計局によると、各世帯の貯蓄額は以下のように分布をしています。
(総務省統計局ホームページより)
この図を見て分かるように、貯蓄額の分布は大きく右に歪んでいます。そして貯蓄額4000万円以上といった、「外れ値」と呼ばれる、他のデータに比べて大幅に大きい値が存在します。
平均値は、このように貯蓄額4000万円以上といった極端な値の影響を非常に受けやすいのです。
例えば、日本の2人以上の全世帯から10世帯を抽出したとして、その10世帯の貯蓄額が以下のように分布していたとします。
100万円 | 200万円 | 300万円 | 400万円 | 500万円 |
600万円 | 700万円 | 800万円 | 900万円 | 2億円 |
この10世帯の平均値を計算すると、2450万円となります。このように、平均値は極端な値が一つあるだけでそれに引きずられ、実態を反映しない要約になります。
平均値を考える際は、データの分布が左右対称になっているものなのか?極端な値がないか?を意識することをお勧めします。
中央値とは何か?
中央値(メジアン、median)は、データを最小値から最大値までを順番に並べたとき、ちょうど真ん中にくる値です。データの個数が偶数の場合は、ちょうど真ん中にくる2つの値の平均をとります。
中央値は50パーセンタイルとも呼びます。50パーセンタイルは、データを最小値から順番に並べた時に、ちょうど50%のところに位置する値のことです。
世帯所得のように、歪んだ分布を持つデータを要約する際には、平均値よりも中央値を利用するのがベターです。
10世帯の貯蓄額のテーブルをもう一度見てみましょう。
100万円 | 200万円 | 300万円 | 400万円 | 500万円 |
600万円 | 700万円 | 800万円 | 900万円 | 2億円 |
この10世帯の中央値は550万円です。このデータの個数は偶数ですから、データを最小値から最大値まで順番に並べたときちょうど真ん中に来るのは500万円と600万円となり、中央値はその平均(500万+600万)/2 = 550万となるわけです。
この10世帯の平均値と中央値を比べてみましょう。
平均値 | 2450万円 |
中央値 | 550万円 |
比べてみると一目瞭然、平均値は2億円という外れ値に大きく影響をされているのにないし、中央値は外れ値の影響を受けません。これを「中央値は外れ値に対しロバストである」と言います。
このように、データの分布が左右対称でない場合や、外れ値が存在する場合には、平均値よりも中央値の方が実態を理解するために優れた要約値であると言えます。
なお、正規分布や一様分布のように、データが完全に左右対称である場合、平均値と中央値は一致します。
最頻値とは何か?
最頻値(mode,モード)とは、データや確率分布の中で最も頻繁に出現する値です。
改めて以下のように日本の2人以上世帯の貯蓄額の分布を見てみると、一番多いのは貯蓄が100万円未満の世帯で、なんと全体の10%以上になります。つまり最頻値は「0円〜100万円」ということになります。
(総務省統計局ホームページより)
最頻値を見る際、このデータのように数値が連続型に近い場合、一定の区間ごとに区切って、最も頻繁に数値が出現する区間を見ることが一般的です。
つまり、貯蓄額の場合は「0円の世帯」「1円の世帯」「2円の世帯」などと1円単位で数値を見てもキリがないので、100万円ごと、または10万円ごと、などの区間に区切るのです。
平均値、中央値、最頻値のどれを見るべきか?
データを理解する際、まずは平均値、中央値、最頻値などの要約を見るだけでなく、できる限りデータの分布を見るようにすることをお勧めします。
例えば、以下はある100名のクラスのテストの点数の分布です。
このデータは作ったもので、実際のデータではありませんが、実際の学校でのテストにおいても、点数がこれと似た分布をすることは多いです。
平均値 | 62.61 |
中央値 | 61.21 |
このデータの平均値と中央値は上記のようになりますが、このデータはバイモダルと呼ばれる頻出するデータの山が2つあるタイプの分布なので、分布を見ることなしに平均値と中央値を見ても、それだけではデータを理解することが難しくなります。
このデータの度数分布表を作成すると以下のようになります。
区間 | 度数 |
30 ~ 35 | 1 |
35 ~ 40 | 5 |
40 ~ 45 | 9 |
45 ~ 50 | 18 |
50 ~ 55 | 9 |
55 ~ 60 | 8 |
60 ~ 65 | 1 |
65 ~ 70 | 5 |
70 ~ 75 | 9 |
75 ~ 80 | 18 |
80 ~ 85 | 9 |
85 ~ 90 | 8 |
度数分布表を見ると45〜50点の間に18人、75〜80点の間に18人と、多くの人が集まっていて、その間の60〜65点には1人しかいないことが分かります。
つまり平均値の62.61点や中央値の61.21点といった値だけを見ても、データ全体の良い要約とは言えませんね。
このように、データを理解する際は、平均値だけに惑わされるのではなく、できる限りその分布を見て、何が起こっているのかを把握することが大変大切です。
ほとんどの人はデータの分布を見る習慣がないので、その1点を意識するだけで他の人に比べてデータを理解する力が格段に上がりますよ!