統計学における推定
- (専門用語で)標本集団から母集団の特徴を推定すること
- (意訳)一部のデータの特徴から全体の特徴を予想すること
統計といえば推定と検定。その1つ,推定の基本的な考え方について解説します。
点推定と区間推定
「母集団の特徴を推定する」をもう少し詳しく言うと,母集団の平均や分散など,分布を表現するパラメータの値を予想するとなります。
値の予測の仕方によって「点推定」と「区間推定」という手法に分けることができます。
(図は値の平均の推定を表す。)
- 点推定:値をピンポイントで推定
- 区間推定:値を「この幅の間におそらくいる!」という区間で推定
点推定
以下,点推定と区間推定の具体例についてそれぞれ詳しく解説します。
例
とある国には小学6年生が$100$万人(母集団)いる。この$100$万人の身長の平均値(とついでに分散も)を知りたい。しかし,$100$万人の身長を測るのは大変なので,代表して$100$人(標本集団)の身長を測り,そのデータをもとに平均と分散を推定したい,どうすればよいか。
普通は「$100$人の身長の平均と分散を全体の平均と分散とみなそう」と考えますね。実は(推定量が不偏かどうかという観点で見ると)平均はOKで分散は厳密にはNGです。
理由
- 「標本集団の平均」の期待値と「母集団の平均」は等しい。
- 「標本集団の分散」の期待値と「母集団の分散」はわずかに異なる。
注:推定量の良さの数学的な表現には「不偏性」だけでなく「有効性」や「一致性」などもあります。
注:$100$人をランダムに選出する必要があります。同じ地域からまとめて取ったりしたら偏る可能性があります。
区間推定
次は区間推定です。先ほどの例より数学色が濃いです。
例
平均が$\mu$,分散が$1$である正規分布から$100$個の標本を抽出したところ,平均が$3$であった。$\mu$を区間推定せよ。
おそらく$\mu$は$3$あたりでしょう(点推定)。では$2$や$4$になりうるのか,そんなことはほぼありえないのか?というところまで考えるのが区間推定です。
詳細は省略しますが,正規分布の性質と正規分布表より,$P(-1.65\leq 3-\mu \leq 1.65)=0.9$が分かります。つまり,$P(1.35\leq \mu \leq 4.65)=0.9$となり,$90$%の確率で$\mu$は$1.35$から$4.65$の間にあると推定することができます。
信頼区間
上記の結果は統計学の言葉で言うと「$\mu$に対する$90$%信頼区間は$[1.35,4.65]$である」と言います。ここで決めた$90$%という数字は信頼水準と呼ばれ,別の値にすることもできます(自分で好きに決めれる)。
信頼水準を大きくする(外れる確率が小さくなる)と信頼区間は広がり(推定が甘くなる),信頼水準を小さくすると信頼区間は狭くなります。外れる確率を下げたいのか,鋭い推定をしたいのか,トレードオフです。
Tag: 数学Bの教科書に載っている公式の解説一覧