\usepackageamsmath\usepackageamsfonts\usepackageamssymb\usepackagefancybox\usepackage[all]xy\usepackagepgfplots\pgfplotssetcompat=newest\usetikzlibraryintersections,calc,arrows.meta

不偏分散ってなに?
不偏推定量を考え方から理解する

例えば「日本人全体の平均」などを考えたいとしても,日本人全員にアンケートをとることは現実的には不可能ですが,無作為にアンケートをとって大まかに実態を推測することは可能です.

標本から推測を行う場合には,不偏推定量の概念が重要な場合があります.

不偏推定量は母集団の統計量の「良い」推測ができる標本の統計量の1つです.

とくに,分散の不偏推定量は不偏分散として計算でき,この不偏分散はなんだかよく分からないものとして敬遠されがちなものです.

この記事では,不偏推定量の考え方を説明し

  • 平均の不偏推定量
  • 分散の不偏推定量

を考えます.

推測統計と不偏推定量

考えたい対象の全てのデータを手に入れることができれば良いわけですが,データが多い場合などでは,当然のことながら全数調査は現実的ではありません.

このようなとき,どのようにして全体の様子を推測するかを考えましょう.

推測統計

いくつかの言葉を確認しておきましょう.

知りたい全てのデータを母集団といい,母集団全てのデータを集めて考えることを全数調査悉皆調査などという.また,母集団から一部のデータを収集したとき,そのデータを標本という.

例えば,選挙速報などでは

  • 全有権者のデータが母集団
  • 出口調査のデータが標本

ということになりますね.この選挙速報でもそうですが,全量調査が不可能な場合には標本から母集団の様子を推測することになります.

このように,標本から母集団を推測することを総称して推測統計といいます.

例えば,味噌汁を作るとき少しだけ味見をすれば全体の味が「推測」できます.「推測統計」はいわばこの味見のようなもので,部分的にデータを収集する(標本を考える)ことで全体の様子を推測しようというものです.

しかし,味噌汁を作る際に十分に味噌が全体に混ざっていなければ,濃いところと薄いところができてしまいますから,しっかり味噌汁を混ぜてから味見をすることが大切です.

同様に,推測統計でも偏ったデータの取り方をしてしまうと,正しく全体の様子を推測することができません.

そこで,どのようなデータの取り方をしていても,だいたい母集団の実態を表せていることが保証される考え方をすることが大切です.

母数

ここで母数という用語を定義しておきます.

母集団に関する統計量を総称して母数という.

例えば,

  • 平均
  • 分散
  • 中央値
  • 最大値
  • 最小値

などは全て母数です.これについて,

  • 母集団の平均を母平均
  • 母集団の分散を母分散

といいます.これに対して,

  • 標本の平均を標本平均
  • 標本の分散を標本分散

といいます.

不偏推定量

さて,例えば母平均を標本から推測するにはどうすれば良いでしょうか?

母集団が10000個のデータ{x1,x2,,x9999,x10000}からなるとしましょう.

ここから,100個のデータからなる標本をとるとき,例えば

  • {x1,x2,,x99,x100}
  • {x2,x3,,x100,x101}
  • {x31,x54,,x9845,x9901}

など様々な100個のデータの標本の選び出し方があります.

Rendered by QuickLaTeX.com

これらそれぞれの標本平均を考えると,

  • 標本{x1,x2,,x99,x100}の平均はx1+x2++x99+x100100
  • 標本{x2,x3,,x100,x101}の平均はx2+x3++x100+x101100
  • 標本{x31,x54,,x9845,x9901}の平均はx31+x54++x9845+x9901100

となります.

実は,このように100個のデータからなる全ての標本の標本平均の平均は,母平均に等しくなります.

このような性質を「標本平均は,母平均の不偏推定量である」と表現します.

より広く不偏推定量は次のように定義されます.

母数θに対して,標本の統計量θ^を考え,無作為標本から測定した統計量θ^の平均E[θ^]θに等しいとき,θ^θ不偏推定量 (unbiased estimator)という:

\begin{align*} E[\hat{\theta}]=\theta \end{align*}

このように,あらゆる標本の統計量θ^を考え,それらの平均が母数θに一致しているという性質を不偏性といいます.

以下では,具体的に

  1. 平均の不偏推定量
  2. 分散の不偏推定量

について考えます.

平均と分散の不偏推定量

まずは平均の不偏推定量の説明です.

平均の不偏推定量

平均の定義を確認しておきましょう.

[平均] n個のデータ{x1,x2,,xn}に対して,

\begin{align*} \frac{1}{n}\sum_{k=1}^{n}x_k \end{align*}

{x1,x2,,xn}平均 (mean)という.

平均は1n(x1+x2++xn)と書いても同じことですね.

先ほど述べた通り,以下が従います.

母平均の不偏推定量は標本平均である.すなわち,

\begin{align*} E\brc{\frac{1}{n-1}\sum_{k=1}^{n}(x_k-m)^2}=S \end{align*}

が成り立つ.


母平均をμ,無作為標本を{x1,x2,,xn},標本平均をXとします.このとき,

\begin{align*} \overline{X}=\frac{x_1+x_2+\dots+x_n}{n} \end{align*}

で,母集団から任意にデータをとってくると,その期待値は母平均μなので

\begin{align*} E[x_1]=E[x_2]=\dots=E[x_n]=\mu \end{align*}

です.よって,

\begin{align*} E[\overline{X}] =&E\brc{\frac{x_1+x_2+\dots+x_n}{n}} \\=&\frac{1}{n}(E[x_1]+E[x_2]+\dots+E[x_n]) \\=&\frac{1}{n}(\mu+\mu+\dots+\mu) =\mu \end{align*}

が成り立ちます.

分散の不偏推定量

分散の定義を確認しておきましょう.

n個のデータ{x1,x2,,xn}に対して,平均をmとする.このとき,

\begin{align*} \frac{1}{n}\sum_{k=1}^{n}(x_k-m)^2 \end{align*}

分散 (variance)という.

分散は1n{(x1m)2+(x2m)2++(xnm)2}と書いても同じことですね.

さて,平均のときと同様に,直感的には「母分散の不偏推定量は標本分散」と思う人は多いかも知れませんが,実はこれは間違いで標本分散の平均は母分散とはなりません.

n2個のデータ{x1,x2,,xn}に対して,平均をm,母分散をSとする.このとき,1n1k=1n(xkm)2Sの不偏分散である.すなわち,

\begin{align*} E\brc{\frac{1}{n-1}\sum_{k=1}^{n}(x_k-m)^2}=S \end{align*}

が成り立つ.


母平均をμ,母分散をS,無作為標本を{x1,x2,,xn},標本平均をXとする.

[Step 1] まずk=1n(xkX)2を計算する.

\begin{align*} \sum_{k=1}^{n}(x_k-\mu) =&n\cdot\frac{x_1+x_2+\dots+x_n}{n}-n\mu \\=&n(\overline{X}-\mu) \end{align*}

なので

\begin{align*} &\sum_{k=1}^{n}(x_k-\overline{X})^2 \\=&\sum_{k=1}^{n}\{(x_k-\mu)+(\mu-\overline{X})\}^2 \\=&\sum_{k=1}^{n}\brb{(x_k-\mu)^2+2(x_k-\mu)(\mu-\overline{X})+(\mu-\overline{X})^2} \\=&\sum_{k=1}^{n}(x_k-\mu)^2+2(\mu-\overline{X})\sum_{k=1}^{n}(x_k-\mu)+\sum_{k=1}^{n}(\mu-\overline{X})^2 \\=&\sum_{k=1}^{n}(x_k-\mu)^2+2n(\mu-\overline{X})(\overline{X}-\mu)+n(\mu-\overline{X})^2 \\=&\sum_{k=1}^{n}(x_k-\mu)^2-2n(\mu-\overline{X})+n(\mu-\overline{X})^2 \\=&\sum_{k=1}^{n}(x_k-\mu)^2-n(\mu-\overline{X})^2 \end{align*}

である.

[Step 2] 次に

  • E[(xkμ)2]
  • E[(μX)2]

を計算する.

E[xk]=μだからE[(xkμ)2]xkの分散V[xk]に一致するので

\begin{align*} E[(x_k-\mu)^2] =V[x_k] =S \end{align*}

となる.

また,E[X]=μだからE[(μX)2]Xの分散V[X]に一致するので

\begin{align*} E\brc{(\mu-\overline{X})^2} =&V[\overline{X}] =V\brc{\frac{1}{n}\sum_{k=1}^{n}x_k} \\=&\frac{1}{n^2}\sum_{k=1}^{n}V[x_k] =\frac{1}{n^2}\sum_{k=1}^{n}S \\=&\frac{1}{n^2}\cdot nS =\frac{S}{n} \end{align*}

となる.

[Step 3] Step 1とStep 2から

\begin{align*} &E\brc{\frac{1}{n-1}\sum_{k=1}^{n}(x_k-\overline{X})^2} \\=&\frac{1}{n-1}E\brc{\sum_{k=1}^{n}(x_k-\overline{X})^2} \\=&\frac{1}{n-1}E\brc{\sum_{k=1}^{n}(x_k-\mu)^2-n(\mu-\overline{X})^2} \\=&\frac{1}{n-1}\bra{\sum_{k=1}^{n}E\brc{(x_k-\mu)^2}-nE\brc{(\mu-\overline{X})^2}} \\=&\frac{1}{n-1}\bra{\sum_{k=1}^{n}S-n\cdot\frac{S}{n}} \\=&\frac{1}{n-1}(nS-S) \\=&S \end{align*}

となるので,目的の不偏分散の平均E[1n1k=1n(xkX)2]が母分散に一致する.

この母分散の不偏推定量を不偏分散といいます.

n2個のデータ{x1,x2,,xn}に対して,平均をmとする.このとき,

\begin{align*} \frac{1}{n-1}\sum_{k=1}^{n}(x_k-m)^2 \end{align*}

不偏分散 (unbiased variance)という.

分散と不偏分散の違いは,

  • 1nがかけられているのが分散
  • 1n1がかけられているのが不偏分散

というだけですね.よって,不偏分散は分散よりも少し大きい値になっていることが分かりますね.

参考文献

改訂版 統計検定2級対応 統計学基礎

[日本統計学会 編/東京図書]

日本統計学会が実施する「統計検定」の2級の範囲に対応する教科書です.

統計検定2級は「大学基礎科目(学部1,2年程度)としての統計学の知識と問題解決能力」という位置付けであり,ある程度の数学的な処理能力が求められます.

そのため,統計検定2級を取得していると,一定以上の統計的なデータの扱い方を身に付けているという指標になります.

本書は

  1. データの記述と要約
  2. 確率と確率分布
  3. 統計的推定
  4. 統計的仮説検定
  5. 線形モデル分析
  6. その他の分析法-正規性の検討,適合度と独立性のχ2検定

の6章からなり,基礎的な統計的スキルを身につけることができます.

大学1,2年程度のレベルの内容なので,もし高校数学が怪しいようであれば,統計検定3級からの挑戦を検討しても良いでしょう.

なお,本書については,以下の記事で書評としてまとめています.