不偏分散ってなに？<br>不偏推定量を考え方から理解する

例えば「日本人全体の平均」などを考えたいとしても，日本人全員にアンケートをとることは現実的には不可能ですが，無作為にアンケートをとって大まかに実態を推測することは可能です．

標本から推測を行う場合には，不偏推定量の概念が重要な場合があります．

不偏推定量は母集団の統計量の「良い」推測ができる標本の統計量の１つです．

とくに，分散の不偏推定量は不偏分散として計算でき，この不偏分散はなんだかよく分からないものとして敬遠されがちなものです．

この記事では，不偏推定量の考え方を説明し

平均の不偏推定量
分散の不偏推定量

を考えます．

「統計学」の一連の記事はこちら

・基本の統計量
【統計学の基礎１｜データを要約する代表値(平均値・中央値)】
【統計学の基礎２｜データのばらつきを表す「分散」のイメージと定義】
【統計学の基礎３｜「共分散」は「相関」の正負を表す統計量】
【統計学の基礎４｜「相関係数」は相関の強さを表す統計量】

・回帰直線
【回帰分析ってなに？｜最小二乗法から回帰直線を求める方法】
【最小二乗法から求めた回帰直線の性質と決定係数の意味】
【擬相関を見破る「偏相関係数」の考え方！回帰直線から導出する】

・推定
【不偏分散ってなに？｜不偏推定量を考え方から理解する】←今の記事
【尤度関数の考え方｜データから分布を推定する最尤推定法の例】

推測統計と不偏推定量

考えたい対象の全てのデータを手に入れることができれば良いわけですが，データが多い場合などでは，当然のことながら全数調査は現実的ではありません．

このようなとき，どのようにして全体の様子を推測するかを考えましょう．

推測統計

いくつかの言葉を確認しておきましょう．

知りたい全てのデータを母集団といい，母集団全てのデータを集めて考えることを全数調査や悉皆調査などという．また，母集団から一部のデータを収集したとき，そのデータを標本という．

例えば，選挙速報などでは

全有権者のデータが母集団
出口調査のデータが標本

ということになりますね．この選挙速報でもそうですが，全量調査が不可能な場合には標本から母集団の様子を推測することになります．

このように，標本から母集団を推測することを総称して推測統計といいます．

例えば，味噌汁を作るとき少しだけ味見をすれば全体の味が「推測」できます．「推測統計」はいわばこの味見のようなもので，部分的にデータを収集する(標本を考える)ことで全体の様子を推測しようというものです．

しかし，味噌汁を作る際に十分に味噌が全体に混ざっていなければ，濃いところと薄いところができてしまいますから，しっかり味噌汁を混ぜてから味見をすることが大切です．

同様に，推測統計でも偏ったデータの取り方をしてしまうと，正しく全体の様子を推測することができません．

そこで，どのようなデータの取り方をしていても，だいたい母集団の実態を表せていることが保証される考え方をすることが大切です．

母数

ここで母数という用語を定義しておきます．

母集団に関する統計量を総称して母数という．

例えば，

平均
分散
中央値
最大値
最小値

などは全て母数です．これについて，

母集団の平均を母平均
母集団の分散を母分散

といいます．これに対して，

標本の平均を標本平均
標本の分散を標本分散

といいます．

不偏推定量

さて，例えば母平均を標本から推測するにはどうすれば良いでしょうか？

母集団が10000個のデータ ${x_{1}, x_{2}, \dots, x_{9999}, x_{10000}}$ からなるとしましょう．

ここから，100個のデータからなる標本をとるとき，例えば

${x_{1}, x_{2}, \dots, x_{99}, x_{100}}$
${x_{2}, x_{3}, \dots, x_{100}, x_{101}}$
${x_{31}, x_{54}, \dots, x_{9845}, x_{9901}}$

など様々な100個のデータの標本の選び出し方があります．

これらそれぞれの標本平均を考えると，

標本 ${x_{1}, x_{2}, \dots, x_{99}, x_{100}}$ の平均は $\frac{x_{1} + x_{2} + \dots + x_{99} + x_{100}}{100}$
標本 ${x_{2}, x_{3}, \dots, x_{100}, x_{101}}$ の平均は $\frac{x_{2} + x_{3} + \dots + x_{100} + x_{101}}{100}$
標本 ${x_{31}, x_{54}, \dots, x_{9845}, x_{9901}}$ の平均は $\frac{x_{31} + x_{54} + \dots + x_{9845} + x_{9901}}{100}$

となります．

実は，このように100個のデータからなる全ての標本の標本平均の平均は，母平均に等しくなります．

このような性質を「標本平均は，母平均の不偏推定量である」と表現します．

より広く不偏推定量は次のように定義されます．

母数 $θ$ に対して，標本の統計量 $\hat{θ}$ を考え，無作為標本から測定した統計量 $\hat{θ}$ の平均 $E [\hat{θ}]$ が $θ$ に等しいとき， $\hat{θ}$ は $θ$ の不偏推定量 (unbiased estimator)という：

$\begin{align*} E[\hat{\theta}]=\theta \end{align*}$

このように，あらゆる標本の統計量 $\hat{θ}$ を考え，それらの平均が母数 $θ$ に一致しているという性質を不偏性といいます．

以下では，具体的に

平均の不偏推定量
分散の不偏推定量

について考えます．

平均と分散の不偏推定量

まずは平均の不偏推定量の説明です．

平均の不偏推定量

平均の定義を確認しておきましょう．

[平均]　 $n$ 個のデータ ${x_{1}, x_{2}, \dots, x_{n}}$ に対して，

$\begin{align*} \frac{1}{n}\sum_{k=1}^{n}x_k \end{align*}$

を ${x_{1}, x_{2}, \dots, x_{n}}$ の平均 (mean)という．

平均は $\frac{1}{n} (x_{1} + x_{2} + \dots + x_{n})$ と書いても同じことですね．

先ほど述べた通り，以下が従います．

母平均の不偏推定量は標本平均である．すなわち，

$\begin{align*} E\brc{\frac{1}{n-1}\sum_{k=1}^{n}(x_k-m)^2}=S \end{align*}$

が成り立つ．

証明を表示

母平均を $μ$ ，無作為標本を ${x_{1}, x_{2}, \dots, x_{n}}$ ，標本平均を $\overset{―}{X}$ とします．このとき，

$\begin{align*} \overline{X}=\frac{x_1+x_2+\dots+x_n}{n} \end{align*}$

で，母集団から任意にデータをとってくると，その期待値は母平均 $μ$ なので

$\begin{align*} E[x_1]=E[x_2]=\dots=E[x_n]=\mu \end{align*}$

です．よって，

$\begin{align*} E[\overline{X}] =&E\brc{\frac{x_1+x_2+\dots+x_n}{n}} \\=&\frac{1}{n}(E[x_1]+E[x_2]+\dots+E[x_n]) \\=&\frac{1}{n}(\mu+\mu+\dots+\mu) =\mu \end{align*}$

が成り立ちます．

分散の不偏推定量

分散の定義を確認しておきましょう．

$n$ 個のデータ ${x_{1}, x_{2}, \dots, x_{n}}$ に対して，平均を $m$ とする．このとき，

$\begin{align*} \frac{1}{n}\sum_{k=1}^{n}(x_k-m)^2 \end{align*}$

を分散 (variance)という．

分散は $\frac{1}{n} {(x_{1} - m)^{2} + (x_{2} - m)^{2} + \dots + (x_{n} - m)^{2}}$ と書いても同じことですね．

さて，平均のときと同様に，直感的には「母分散の不偏推定量は標本分散」と思う人は多いかも知れませんが，実はこれは間違いで標本分散の平均は母分散とはなりません．

$n \geq 2$ 個のデータ ${x_{1}, x_{2}, \dots, x_{n}}$ に対して，平均を $m$ ，母分散を $S$ とする．このとき， $\frac{1}{n - 1} \sum_{k = 1}^{n} (x_{k} - m)^{2}$ は $S$ の不偏分散である．すなわち，

$\begin{align*} E\brc{\frac{1}{n-1}\sum_{k=1}^{n}(x_k-m)^2}=S \end{align*}$

が成り立つ．

証明を表示

母平均を $μ$ ，母分散を $S$ ，無作為標本を ${x_{1}, x_{2}, \dots, x_{n}}$ ，標本平均を $\overset{―}{X}$ とする．

[Step 1]　まず $\sum_{k = 1}^{n} (x_{k} - \overset{―}{X})^{2}$ を計算する．

$\begin{align*} \sum_{k=1}^{n}(x_k-\mu) =&n\cdot\frac{x_1+x_2+\dots+x_n}{n}-n\mu \\=&n(\overline{X}-\mu) \end{align*}$

なので

$\begin{align*} &\sum_{k=1}^{n}(x_k-\overline{X})^2 \\=&\sum_{k=1}^{n}\{(x_k-\mu)+(\mu-\overline{X})\}^2 \\=&\sum_{k=1}^{n}\brb{(x_k-\mu)^2+2(x_k-\mu)(\mu-\overline{X})+(\mu-\overline{X})^2} \\=&\sum_{k=1}^{n}(x_k-\mu)^2+2(\mu-\overline{X})\sum_{k=1}^{n}(x_k-\mu)+\sum_{k=1}^{n}(\mu-\overline{X})^2 \\=&\sum_{k=1}^{n}(x_k-\mu)^2+2n(\mu-\overline{X})(\overline{X}-\mu)+n(\mu-\overline{X})^2 \\=&\sum_{k=1}^{n}(x_k-\mu)^2-2n(\mu-\overline{X})+n(\mu-\overline{X})^2 \\=&\sum_{k=1}^{n}(x_k-\mu)^2-n(\mu-\overline{X})^2 \end{align*}$

である．

[Step 2]　次に

$E [(x_{k} - μ)^{2}]$
$E [(μ - \overset{―}{X})^{2}]$

を計算する．

$E [x_{k}] = μ$ だから $E [(x_{k} - μ)^{2}]$ は $x_{k}$ の分散 $V [x_{k}]$ に一致するので

$\begin{align*} E[(x_k-\mu)^2] =V[x_k] =S \end{align*}$

となる．

また， $E [\overset{―}{X}] = μ$ だから $E [(μ - \overset{―}{X})^{2}]$ は $\overset{―}{X}$ の分散 $V [\overset{―}{X}]$ に一致するので

$\begin{align*} E\brc{(\mu-\overline{X})^2} =&V[\overline{X}] =V\brc{\frac{1}{n}\sum_{k=1}^{n}x_k} \\=&\frac{1}{n^2}\sum_{k=1}^{n}V[x_k] =\frac{1}{n^2}\sum_{k=1}^{n}S \\=&\frac{1}{n^2}\cdot nS =\frac{S}{n} \end{align*}$

となる．

[Step 3]　Step 1とStep 2から

$\begin{align*} &E\brc{\frac{1}{n-1}\sum_{k=1}^{n}(x_k-\overline{X})^2} \\=&\frac{1}{n-1}E\brc{\sum_{k=1}^{n}(x_k-\overline{X})^2} \\=&\frac{1}{n-1}E\brc{\sum_{k=1}^{n}(x_k-\mu)^2-n(\mu-\overline{X})^2} \\=&\frac{1}{n-1}\bra{\sum_{k=1}^{n}E\brc{(x_k-\mu)^2}-nE\brc{(\mu-\overline{X})^2}} \\=&\frac{1}{n-1}\bra{\sum_{k=1}^{n}S-n\cdot\frac{S}{n}} \\=&\frac{1}{n-1}(nS-S) \\=&S \end{align*}$

となるので，目的の不偏分散の平均 $E [\frac{1}{n - 1} \sum_{k = 1}^{n} (x_{k} - \overset{―}{X})^{2}]$ が母分散に一致する．

この母分散の不偏推定量を不偏分散といいます．

$n \geq 2$ 個のデータ ${x_{1}, x_{2}, \dots, x_{n}}$ に対して，平均を $m$ とする．このとき，

$\begin{align*} \frac{1}{n-1}\sum_{k=1}^{n}(x_k-m)^2 \end{align*}$

を不偏分散 (unbiased variance)という．

分散と不偏分散の違いは，

$\frac{1}{n}$ がかけられているのが分散
$\frac{1}{n - 1}$ がかけられているのが不偏分散

というだけですね．よって，不偏分散は分散よりも少し大きい値になっていることが分かりますね．

「統計学」の一連の記事はこちら

参考文献

改訂版統計検定２級対応統計学基礎

[日本統計学会編/東京図書]

日本統計学会が実施する「統計検定」の２級の範囲に対応する教科書です．

統計検定２級は「大学基礎科目(学部１，２年程度）としての統計学の知識と問題解決能力」という位置付けであり，ある程度の数学的な処理能力が求められます．

そのため，統計検定２級を取得していると，一定以上の統計的なデータの扱い方を身に付けているという指標になります．

本書は

データの記述と要約
確率と確率分布
統計的推定
統計的仮説検定
線形モデル分析
その他の分析法-正規性の検討，適合度と独立性の $χ^{2}$ 検定

の６章からなり，基礎的な統計的スキルを身につけることができます．

大学１，２年程度のレベルの内容なので，もし高校数学が怪しいようであれば，統計検定３級からの挑戦を検討しても良いでしょう．

改訂版統計検定２級対応統計学基礎(日本統計学会編/東京図書)
Amazon 楽天市場
改訂版統計検定３級対応データの分析(日本統計学会編/東京図書)
Amazon 楽天市場

なお，本書については，以下の記事で書評としてまとめています．

【書評｜統計検定２級対応統計学基礎(日本統計学会編)】

本書の目次・必要な知識・良い点と気になる点などをレビューしています．