例えば「日本人全体の平均」などを考えたいとしても,日本人全員にアンケートをとることは現実的には不可能ですが,無作為にアンケートをとって大まかに実態を推測することは可能です.
標本から推測を行う場合には,不偏推定量の概念が重要な場合があります.
不偏推定量は母集団の統計量の「良い」推測ができる標本の統計量の1つです.
とくに,分散の不偏推定量は不偏分散として計算でき,この不偏分散はなんだかよく分からないものとして敬遠されがちなものです.
この記事では,不偏推定量の考え方を説明し
- 平均の不偏推定量
- 分散の不偏推定量
を考えます.
「統計学」の一連の記事はこちら
・基本の統計量
【統計学の基礎1|データを要約する代表値(平均値・中央値)】
【統計学の基礎2|データのばらつきを表す「分散」のイメージと定義】
【統計学の基礎3|「共分散」は「相関」の正負を表す統計量】
【統計学の基礎4|「相関係数」は相関の強さを表す統計量】
・回帰直線
【回帰分析ってなに?|最小二乗法から回帰直線を求める方法】
【最小二乗法から求めた回帰直線の性質と決定係数の意味】
【擬相関を見破る「偏相関係数」の考え方!回帰直線から導出する】
・推定
【不偏分散ってなに?|不偏推定量を考え方から理解する】←今の記事
【尤度関数の考え方|データから分布を推定する最尤推定法の例】
目次
推測統計と不偏推定量
考えたい対象の全てのデータを手に入れることができれば良いわけですが,データが多い場合などでは,当然のことながら全数調査は現実的ではありません.
このようなとき,どのようにして全体の様子を推測するかを考えましょう.
推測統計
いくつかの言葉を確認しておきましょう.
知りたい全てのデータを母集団といい,母集団全てのデータを集めて考えることを全数調査や悉皆調査などという.また,母集団から一部のデータを収集したとき,そのデータを標本という.
例えば,選挙速報などでは
- 全有権者のデータが母集団
- 出口調査のデータが標本
ということになりますね.この選挙速報でもそうですが,全量調査が不可能な場合には標本から母集団の様子を推測することになります.
このように,標本から母集団を推測することを総称して推測統計といいます.
例えば,味噌汁を作るとき少しだけ味見をすれば全体の味が「推測」できます.「推測統計」はいわばこの味見のようなもので,部分的にデータを収集する(標本を考える)ことで全体の様子を推測しようというものです.
しかし,味噌汁を作る際に十分に味噌が全体に混ざっていなければ,濃いところと薄いところができてしまいますから,しっかり味噌汁を混ぜてから味見をすることが大切です.
同様に,推測統計でも偏ったデータの取り方をしてしまうと,正しく全体の様子を推測することができません.
そこで,どのようなデータの取り方をしていても,だいたい母集団の実態を表せていることが保証される考え方をすることが大切です.
母数
ここで母数という用語を定義しておきます.
母集団に関する統計量を総称して母数という.
例えば,
- 平均
- 分散
- 中央値
- 最大値
- 最小値
などは全て母数です.これについて,
- 母集団の平均を母平均
- 母集団の分散を母分散
といいます.これに対して,
- 標本の平均を標本平均
- 標本の分散を標本分散
といいます.
不偏推定量
さて,例えば母平均を標本から推測するにはどうすれば良いでしょうか?
母集団が10000個のデータ
ここから,100個のデータからなる標本をとるとき,例えば
など様々な100個のデータの標本の選び出し方があります.
これらそれぞれの標本平均を考えると,
- 標本
の平均は - 標本
の平均は - 標本
の平均は
となります.
実は,このように100個のデータからなる全ての標本の標本平均の平均は,母平均に等しくなります.
このような性質を「標本平均は,母平均の不偏推定量である」と表現します.
より広く不偏推定量は次のように定義されます.
母数
このように,あらゆる標本の統計量
以下では,具体的に
- 平均の不偏推定量
- 分散の不偏推定量
について考えます.
平均と分散の不偏推定量
まずは平均の不偏推定量の説明です.
平均の不偏推定量
平均の定義を確認しておきましょう.
[平均]
を
平均は
先ほど述べた通り,以下が従います.
母平均の不偏推定量は標本平均である.すなわち,
が成り立つ.
母平均を
で,母集団から任意にデータをとってくると,その期待値は母平均
です.よって,
が成り立ちます.
分散の不偏推定量
分散の定義を確認しておきましょう.
を分散 (variance)という.
分散は
さて,平均のときと同様に,直感的には「母分散の不偏推定量は標本分散」と思う人は多いかも知れませんが,実はこれは間違いで標本分散の平均は母分散とはなりません.
が成り立つ.
母平均を
[Step 1] まず
なので
である.
[Step 2] 次に
を計算する.
となる.
また,
となる.
[Step 3] Step 1とStep 2から
となるので,目的の不偏分散の平均
この母分散の不偏推定量を不偏分散といいます.
を不偏分散 (unbiased variance)という.
分散と不偏分散の違いは,
がかけられているのが分散 がかけられているのが不偏分散
というだけですね.よって,不偏分散は分散よりも少し大きい値になっていることが分かりますね.
「統計学」の一連の記事はこちら
・基本の統計量
【統計学の基礎1|データを要約する代表値(平均値・中央値)】
【統計学の基礎2|データのばらつきを表す「分散」のイメージと定義】
【統計学の基礎3|「共分散」は「相関」の正負を表す統計量】
【統計学の基礎4|「相関係数」は相関の強さを表す統計量】
・回帰直線
【回帰分析ってなに?|最小二乗法から回帰直線を求める方法】
【最小二乗法から求めた回帰直線の性質と決定係数の意味】
【擬相関を見破る「偏相関係数」の考え方!回帰直線から導出する】
・推定
【不偏分散ってなに?|不偏推定量を考え方から理解する】←今の記事
【尤度関数の考え方|データから分布を推定する最尤推定法の例】
参考文献
改訂版 統計検定2級対応 統計学基礎
[日本統計学会 編/東京図書]
日本統計学会が実施する「統計検定」の2級の範囲に対応する教科書です.
統計検定2級は「大学基礎科目(学部1,2年程度)としての統計学の知識と問題解決能力」という位置付けであり,ある程度の数学的な処理能力が求められます.
そのため,統計検定2級を取得していると,一定以上の統計的なデータの扱い方を身に付けているという指標になります.
本書は
- データの記述と要約
- 確率と確率分布
- 統計的推定
- 統計的仮説検定
- 線形モデル分析
- その他の分析法-正規性の検討,適合度と独立性の
検定
の6章からなり,基礎的な統計的スキルを身につけることができます.
大学1,2年程度のレベルの内容なので,もし高校数学が怪しいようであれば,統計検定3級からの挑戦を検討しても良いでしょう.
なお,本書については,以下の記事で書評としてまとめています.
本書の目次・必要な知識・良い点と気になる点などをレビューしています.