2015/03/30

統計学における推定の考え方(点推定,区間推定)


統計学における推定

  • (専門用語で)標本集団から母集団の特徴を推定すること
  • (意訳)一部のデータの特徴から全体の特徴を予想すること

統計といえば推定と検定。その1つ,推定の基本的な考え方について解説します。

点推定と区間推定

「母集団の特徴を推定する」をもう少し詳しく言うと,母集団の平均や分散など,分布を表現するパラメータの値を予想するとなります。

推定の考え方

値の予測の仕方によって「点推定」と「区間推定」という手法に分けることができます。
(図は値の平均の推定を表す。)

  • 点推定:値をピンポイントで推定
  • 区間推定:値を「この幅の間におそらくいる!」という区間で推定

点推定

以下,点推定と区間推定の具体例についてそれぞれ詳しく解説します。

とある国には小学6年生が$100$万人(母集団)いる。この$100$万人の身長の平均値(とついでに分散も)を知りたい。しかし,$100$万人の身長を測るのは大変なので,代表して$100$人(標本集団)の身長を測り,そのデータをもとに平均と分散を推定したい,どうすればよいか。

普通は「$100$人の身長の平均と分散を全体の平均と分散とみなそう」と考えますね。実は(推定量が不偏かどうかという観点で見ると)平均はOKで分散は厳密にはNGです。

理由

  • 「標本集団の平均」の期待値と「母集団の平均」は等しい。
  • 「標本集団の分散」の期待値と「母集団の分散」はわずかに異なる。

→不偏標本分散の意味とn-1で割ることの証明

注:推定量の良さの数学的な表現には「不偏性」だけでなく「有効性」や「一致性」などもあります。
注:$100$人をランダムに選出する必要があります。同じ地域からまとめて取ったりしたら偏る可能性があります。

区間推定

次は区間推定です。先ほどの例より数学色が濃いです。

平均が$\mu$,分散が$1$である正規分布から$100$個の標本を抽出したところ,平均が$3$であった。$\mu$を区間推定せよ。

おそらく$\mu$は$3$あたりでしょう(点推定)。では$2$や$4$になりうるのか,そんなことはほぼありえないのか?というところまで考えるのが区間推定です。

詳細は省略しますが,正規分布の性質と正規分布表より,$P(-1.65\leq 3-\mu \leq 1.65)=0.9$が分かります。つまり,$P(1.35\leq \mu \leq 4.65)=0.9$となり,$90$%の確率で$\mu$は$1.35$から$4.65$の間にあると推定することができます。

信頼区間

上記の結果は統計学の言葉で言うと「$\mu$に対する$90$%信頼区間は$[1.35,4.65]$である」と言います。ここで決めた$90$%という数字は信頼水準と呼ばれ,別の値にすることもできます(自分で好きに決めれる)。

信頼水準を大きくする(外れる確率が小さくなる)と信頼区間は広がり(推定が甘くなる),信頼水準を小さくすると信頼区間は狭くなります。外れる確率を下げたいのか,鋭い推定をしたいのか,トレードオフです。

僕は点推定の方が潔くて好きです。

Tag: 数学Bの教科書に載っている公式の解説一覧