本日は、統計データを読むに当たって心にとめておきたい「統計そもそも論」について書いていきます。
40歳で成功するために、35歳から学び始める統計学 では、多くの反響をいただき、改めて統計学に興味を持たれている方々の多さを感じる次第となりました。
この記事に頂いたブックマークコメントを見ると、「自分も統計学を勉強したい」と胸に秘めている方が多く、そうしたコメントを見る限り、統計知識ほぼ0の私自身が基礎の基礎から統計学を学び、このブログの記事としてアウトプットしていくことには、大きな意味があるのかもしれません。
そんな思いを胸に、本日は統計学にとってのスタート地点ともいえる「統計調査」にスポットをあて、学んだことをまとめてみることにしました。
そもそも統計学とは何か
統計学の目的は、
ある集団やことがらに関する全体像をつかみ、傾向や特徴などの本質、特性を捉えること
引用:入門ビジュアルサイエンス 統計・確率のしくみ
にあります。
そして、統計学は、その大いなる目的を達成するにあたり
- 記述統計学
- 推測統計学
という2つのパーツから構成されていることが読み解けます。
さらに、この2つのパーツはそれぞれ
- 記述統計学 → 「現状を知る」
- 推測統計学 → 「未来を知る」
と目的を区分することができると言われていますが、「現状を知る」にしろ「未来を知る」にしろ、そこには特徴を知りたいターゲット集団が存在します。
統計には母集団が欠かせない
統計を用いてデータ解析を行うのであれば、そこには必ず"対象の集団(ターゲット)"が存在することになります。
例えば、
という疑問の場合、この自分の年収と比べる"他の人"たちが誰なのかが大きなポイントになり、調査ターゲットになるわけです。
この疑問の場合、ターゲットを「日本中の労働者」と捉えるのか、「同い年の労働者」や「同じ職に就く労働者」と捉えるかによって、知りたい集団が変化することになります。
いずれにしても、このターゲットとなる集団のことを統計学では「母集団」と呼び、抱いた疑問を解消するためにも、この母集団を適切に設定していくことが大切になるわけです。
母集団の特徴を知りたい
ターゲットである母集団を見定めた後は、その母集団から必要な情報(データ)を取り出す作業「統計調査」が必要となります。
統計調査には、市場調査、世論調査、製品検査など対象や方法により呼び名は様々ありますが、母集団から必要なデータ情報を取り出すことを主たる目的とすることに違いはありません。
そして、この統計調査には、大きく分けて以下の2種類の手法が存在しています。
- 全数調査
- 標本調査
ここでは、この2種類の統計調査の違いについて、しっかりと理解し、実際に統計調査を行うにあたって、どちらを選択していくべきかの判断材料を学んでいきます。
全数調査 vs 標本調査
本レポートでは、
- この2つの統計調査におけるメリットとデメリットを比較
- 具体的にどういった場面で、どちらの調査を選択するべきか
についてまとめていきます。
全数調査とは何か
「全数調査」は、その漢字の通り、国勢調査に代表されるようにターゲットとなる母集団に所属する人・ものをすべて調査していく手法を意味します。
全数調査のメリット
全数調査のメリットは、何といってもその「信頼度の高さ」です。
所属するすべての人・ものを調べている訳ですから、母集団の特徴はほぼ間違いなくその調査結果に凝縮されてきます。
全数調査のデメリット
一方で、デメリットは、「調査費用、時間、手間がかかる」ことです。
すべてのデータを一つ一つ調べるわけですから、それはそれは大変な作業になることが想像できます。このデメリットは調査をする側に立った場合、非常に大きなデメリットと言えます。
標本調査とは何か
標本調査は選挙時の当選速報や、工場における不良品検査などに代表されるような母集団から一部の人・ものを取り出して調べる手法を意味します。
標本調査のメリット
標本調査のメリットは、全数調査のデメリットを補完する特徴があります。
つまり、「調査費用、時間、手間がかからない」ということです。一部を調査するだけで済む訳ですから、そのメリットの恩恵は計り知れません。
標本調査のデメリット
しかし、標本調査にも当然デメリットが存在します。
標本調査のデメリットは、「結果に誤差が生じる」ことにあります。つまり、得られた結果は、あくまで推測の域をでないというわけです。
それでは、それぞれの調査手法のメリットを最大限に、デメリットを最小限に抑えるためには、どんな場面でどちらの調査を選択するべきなのでしょうか。
具体的な事例も踏まえ、考察していきます。
全数調査を選択する場面
全数調査を選択したほうが、メリットが大きく、デメリットが少なくなる場面は次の2つの状況に母集団が置かれているときです。
- すべてのデータを調査しなければいけないとき
- 母集団の規模が小さいとき
それでは、この2つの場面において全数調査を行う必要がある理由を、一つ一つ例を挙げながら紹介していきます。
すべてのデータが必要
母集団の特徴を把握する際、誤差が全く許されない場面が存在します。
答えは「健康診断」や「入試テスト」などです。
健康診断や入試はいずれもデータを取るれっきとした統計調査になるわけですが、これらは代表のデータだけを取っても意味がありません。
職場で数人の健康観察を行った結果、その数人が健康だから、この職場で働いている人はみんな健康!
…これって、ダメでしょ。
クラスの数人でテストを行った結果、その数人が全く点数を取れていないから、クラス全員不合格 !!
…これも、ダメでしょ。
ここまで極端な例は当然ですが、一人一人のデータが重要であったり、全体像を正確に把握したい場合は、どれだけ手間やお金がかかろうとも全数調査が必要になるわけです。
母集団の規模が小さい
母集団の規模が小さいとき、これは全数調査が求められます。
そもそも規模が小さいわけですから、全数調査のデメリットが当てはまらないわけですし、母集団の規模があまりに小さいときに標本調査を行うと、誤差が非常に大きくなります。
標本として、子供2人に好きな食べ物を聞いたら「アイス」と答えたから、この家族はみんなアイスが大好き!
…そんなことは、当然ありません。
このように、ここで挙げた2つのパターンに当てる場合は、全数調査が必要となるわけです。
標本調査を選択する場面
一方で、標本調査を選択したほうが、メリットが大きく、デメリットが少なくなる場面についても確認しておきましょう。
- すべてのデータを調査してはいけないとき
- 母集団の規模が大きいとき
すべてのデータではダメ
調査においてすべてのデータを調べてしまうと、調査の目的を見失ってしまうことがあるのです。
例えば、
母集団(鍋の中のカレー)の調査(味見)で、愛する旦那に美味しいカレーを食べて欲しいから、全部食べなくちゃっ!
…こんなことしたら旦那さんは腹ペコです。
ここで一口味見をするだけで、鍋全体の味を予想していくわけですが、この行為こそが統計学では重要なポイントとなっていきます。
母集団の規模が大きい
この状態こそ、まさに標本調査の本領発揮の場面になります。
こうした無限や無限に近い母集団は当然ですが、母集団がある程度の規模になれば標本調査が求められることになっていきます。
他にも、「ざっくりした傾向や特徴さえ掴められればいい」というニーズに対しては、標本調査がフィットしてくる場面がでてきます。
本日学んだ統計学の知識
本日学んだ統計学の知識は、「統計学の目的」と「統計調査」についてです。特に、力を注いだ全数調査と標本調査の特徴について、まとめておきます。
いかがだったでしょうか。
本日まとめた知識は、統計学において基礎の基礎である知識だと思いますが、整理してみると面白いものですね。
今後も統計学の知識を分かりやすく説明することを目指していきますので、ぜひ読者登録&Twitterフォローしてみてください。