最尤推定
最尤推定とはある確率分布から与えられたデータをもとにもとの確率分布を点推定するものである。
点推定
点推定とは与えられたデータから求めたものをそのまま推定値とするものである。他の推定手法としては区間推定などがある。例えば点推定では与えられたデータの標準偏差をそのまま母種団の標準偏差と推定する。一般的に点推定によって求められた推定値は記号の上に^をつける(例では)。
数式の定義
ある確率分布があり、この確率分布のパラメータはとする。この分布から得られたn個のデータをと書く。パラメータの時に確率分布からn個のデータを得られる確率を表す式を
と定義する。これはパラメータであったとき与えられたデータがのときの条件付き確率を意味する。
パラメータの決定
最尤推定は与えられたデータが得られる確率が最も高くなるようなパラメータを求める推定法である。つまり、n個のデータを得たときに
が最大となるを求めれば良い。この考えの元、最尤推定では尤度関数として
と定義し、多くの場合対数を取ってこれが最大となるを求める。尤度関数は積で構成されていることが多く計算しづらいが、対数を取ることで和の形に変換でき計算しやすい。また、logは単調な増加関数であるのでこれによって最大値は変わらない。最大値は
となるようなを求めれば良い。
注意すること
はパラメータがであるとき、データを得られる確率であり、データを得られたときにパラメータである確率ではないことに注意する。もし後者であれば、パラメータがである確率を与えられたデータから最大化するとなってしまい、与えられた現象が起こりやすいパラメータがであるという考え方と異なる。また、このとき最大となるを求めるのがベイズ推定である。
ベイズ推定
ベイズ推定はベイズの定理を用いて与えられたデータ(事実)から分布(原因)を確率的に推定する手法である。
数式
データが与えられる確率をとする。また、パラメータがである確率をとする。
パラメータの決定
パラメータがであるときにデータが与えられる条件付き確率をを求める。これはベイズの定理により
と変形できる。ベイズ推定を行うときは確率や、は事前分布として、あらかじめおおよその値が与えられている。つまり、事前分布とパラメータがであるときが与えられる条件付き確率を組み合わせて求めることができる(事前の情報と得られた情報を加味して求める。最尤推定は得られた情報のみで求める。)。そして、それらによって求められたは与えられたデータがだったときにパラメータがである確率であるので、これが最大となるはが得られたことによって更新されたと考えられる(最大を求めるのは最尤推定と同様)。
注意すること
- 事前分布が正しくなければ、正しいパラメータを得ることができないことに注意する。
- 事前分布は
より、とされることが多い。
例題
コインをn回投げてm回表になった。このとき使用したコインの表が出る確率を求める。
最尤推定
コインの表が出る確率をとしてこれをパラメータとしたとき、コインをn回投げてm回表になる確率は尤度関数となる。これは
である。両対数を取ると
となる。さらにで微分すると、
となり、これが0となるときのはとなる。よって最尤推定によって求められたコインの表が出る確率はとなる。これは単純に投げた回数を表の出た回数で割ったものと同じである。
ベイズ推定
事前分布としてコインを100回投げたとき、50回表がでると仮定する(多くのコインはで表になるだろうから)。この時の分布は以下の様になる。
ここにn回投げてm回表になる確率を加えると、
となる。これを最尤推定と同様に対数を取って微分すると以下の様になる。
これが0となるはである。よってベイズ推定によって求められたコインが表になる確率はである。
違い
最尤推定は得られたデータのみで推定するので信頼性が高いが、データ数が少ないとランダム性に依存してしまう。それに対してベイズ推定は事前分布を生かして推測するので、少ないデータ数でもある程度適切な値を得ることができるが、事前情報の信頼が低いときは良い値が出ない。
上の例で3回中2回表が出たとすれば、最尤推定では約66%、ベイズ推定では約50.4%となる。振ったコインが表となる確率が50%とする。この場合でも3回中2回表になることは当然起こり得るが、最尤推定で66%と推定されてしまう。これは少ない回数ではうまく推定できないことを表している。逆にベイズ推定では50%であるという事前分布を利用しているので極めて近い値となる。振ったコインが表となる確率が75%であったと考える。この場合でも3回中2回表になることは当然起こり得るが、ベイズ推定では事前分布で50%であると仮定してしまっているので50.4%と離れた値を得てしまう。逆に最尤推定は得られたデータのみで推定しているので、このような違いに振り回されることはない。このようにベイズ推定を行うときは事前分布が正しいかどうかこの点を強く注意する必要がある。このよう二つの手法には一長一短がある。
コメント