Why not login to Qiita and try out its useful features?

We'll deliver articles that match you.

You can read useful information later.

67
73

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

情報量規準の分類

Last updated at Posted at 2021-05-14

#はじめに
千葉大学大/Nospareの米倉です.今まで赤池情報量規準(AIC)ベイジアン情報量規準(BIC)等について解説してきました.そこで今回はそもそも情報量規準とは何かについて4つの分類に基づき解説していきたいと思います.

#モデル選択
情報量規準とは一言でいうとモデルを選択する際に使われる,モデルの良し悪しの指標のことです.統計的分析をする際,何かしらの統計モデルを構築してパラメータを推定し,予測なり仮説検定なりを行います.この時,複数の候補となるモデルの中からどのモデルを使うべきかを知る必要があるのですが,情報量規準はどのようなモデルを選ぶべきかを我々に教えてくれます.基本的には情報量規準を計算して,その値が最小のものを「良い」統計モデルとして採用します.

#KLタイプorエビデンスタイプ
情報量規準はモデルの良し悪しを測る尺度と言うことを述べましたが,ではどうやってそれを測るのでしょうか.これは大きく分けて,カルバックライブラー情報量を用いる方法とエビデンス(周辺尤度)を用いる方法の2つにまず分類できます.

今,p(y0:n)を「真」の分布とし,p^θ(y0:n)を分析者が用いる予測モデルの尤度としましょう.ここでいう予測モデルとは統計モデルのパラメータを何らかの方法で推定し,それを統計モデルに挿入したものを指します.この時,それらのカルバックライブラー情報量はKL:=p(y0:n)logp(y0:n)dy0:np(y0:n)logp^θ(y0:n)dy0:nと定義されます.KL=0のときp(y0:n)=p^θ(y0:n)が成立するので,この値が小さいほど良いモデルだと言えそうです.ここで第一項は統計モデルに依存しない項(分析者が出来ることは何もない)なので無視をし,第二項R(θ):=p(y0:n)logp^θ(y0:n)dy0:nのみに着目します.そうすると,カルバックライブラー情報量を最小化することと,第二項を最大化することが等しくなることが分かります.よって,この第二項を上手く推定できればその大小を比較してモデル選択に利用できます.このようにカルバックライブラー情報量に基づいて構成される情報量規準を,KLタイプと呼ぶことにします.具体的には後程紹介するAIC,DIC,WAICがKLタイプです.

一方,統計学では「エビデンス」ともよばれる周辺尤度を最大化するモデルを選ぶことも推奨されています.パラメタθに対して事前分布p(θ)と尤度関数pθ(y0:n)を分析者が設定します.この時m(y0:n)=pθ(y0:n)p(θ)dθのことをエビデンス(周辺尤度)と呼びます.エビデンスを用いる実用上の問題として.パラメータに対しての積分をする必要があるので,解析的な表現を得られないことが多々あります.BICやWIBCはエビデンスの近似・推定量となっており,最大の値を持つモデルを選ぶことが推奨されます.実用上は,KLタイプと整合的にするために,マイナスをかけたものを情報量規準として採用するので,最小の値を持つモデルを選ぶことがになります.エビデンスの推定を目的とする情報量規準をエビデンスタイプと呼ぶことにします.

この様に推定しようとしているものがカルバックライブラー情報量かエビデンスかで,情報量規準は先ず分類ができます.

#頻度論orベイズ
次の分類の仕方は,予測モデルp^θ(y0:n)の構成方法です.頻度論的発想では,最もポピュラーの方法は統計モデルのパラメータθは最尤推定し,その最尤推定値θ^pθ(y0:n)に代入したpθ^(y0:n)を予測モデルとして用いる方法です.このタイプの予測モデルを用いた情報量規準を頻度論タイプと呼ぶことにします.AICとBICが頻度論タイプにあたります.

一方,ベイズ推定では事後分布Π(θy0:n)に基づき推論を行います.例えば事後平均θΠ(θy0:n)dθを用いてパラメタを推定したり,この様に何か事後平均を用いて予測モデルを構築した時の情報量規準をベイズタイプと呼ぶことにします.DIC, WAIC, WBICがベイズタイプに分類できます.

この様に,情報量規準は用いる予測モデルが頻度論的かベイズ的かでも分類が出来ます.
#AIC
AICはθの推定量として,最尤推定量を用いてそれを基に予測モデルpθ^(y0:n)を構築します.またこのままだとR(θ)の推定量として,バイアスをもってしまいます.AIC:=2logpθ^(y0:n)+2dと定めると,nを大きくしたときにR(θ)のバイアスが無い推定量になることが示せます.ここでdはパラメータの数です.これを赤池情報量規準(AIC)といいます.なのでAICはKL-頻度論タイプの情報量規準です.

#BIC
BICは予測モデルとして,AICと同様にpθ^(y0:n)を用います.なのでベイズ的な情報量規準ではないです.これをエビデンスの定義式に代入して,ラプラス近似を最尤推定値周りで行うと,エビデンスの推定量としてBIC:=2logpθ^(y0:n)+dlognを得ることが出来ます.これをベイジアン情報量規準(BIC)と呼びます.BICはエビデンス-頻度論タイプの情報量規準です.

#DIC
DICは予測モデルとして対数尤度の事後平均logpθ(y0:n)Π(θy0:n)dθを採用します.この時DICはEΠ[R(θ)]の最大化を行い,AICの時と同様にバイアスの除去したものとして,DIC:=2logpθ(y0:n)Π(θ|y0:n)dθ+pDICがを推定量として採用します.pDICはバイアス補正項で,詳しくはこの記事を参照して下さい.以上より,DICはKL-ベイズタイプの情報量規準です.

#WAIC
WAICでは予測モデルとして,inlogp(yi|θ)Π(θ|yi)dθを採用します.この時AICと同じようにR(θ)の推定を目指すのですが,AICがR(θ)のよい推定量になるためにはいくつかの条件があります.典型的なのが,予測モデルが正規分布を用いてある意味で近似できるための条件です.いくつかの統計モデルではこの条件を満たさないため,AICはR(θ)の良い推定量にはなりません.しかしWAIC:=inlogp(yi|θ)Π(θ|yi)dθ+2inVarΠ(θ|yi)[logp(yi|θ)]はその様な条件でもR(θ)の良い推定量となることが示せ,これを広く使える情報量規準(WAIC)と呼びます.ここでVarΠ(θ|yi)[A]はAの事後分散です.以上より,WAICはKL-ベイズタイプの情報量規準とできるので,WAICとDICは同じ分類となります.

#WBIC
BICはエビデンスのラプラス近似として求められますが,WAICの時と同様にそれが可能になるためには,例えば統計モデルが正規分布で近似出来る必要があり,考えているモデル次第ではそれが出来ないことがあります.WBICではまず逆温度と呼ばれる数列1=ϕ0>ϕ1,...,>ϕnを用いて,それでパラメタライズされた事後分布Π(θ|y0:n)ϕnを考えます.この時logm(y0:n)=logpθ(y0:n)pθ(y0:n)ϕnp(θ)dθpθ(y0:n)ϕnp(θ)dθとなる最適な逆温度の列ϕnが,ラプラス近似が用いられない条件でも存在することを示すことが出来ます.具体的にはϕn=1/lognとすると,nを十分に大きくするとϕnと同等になることが示せます.そこで広く使えるベイジアン情報量規準(WBIC)はWBIC:=logpθ(y0:n)pθ(y0:n)1/lognp(θ)dθpθ(y0:n)1/lognp(θ)dθと定義され,これはラプラス近似が用いられない時にでもエビデンスの良い推定量となります.弱点としてはBICと違い積分項が存在するため,数値的に求めるのが実用上大変なことが多いところです.以上より,WBICはエビデンス-ベイズタイプの情報量規準です.

#分類のまとめ
どの予測モデルで何を推定しようとするのかで,情報量規準は計4通りの分類が出来ることを見てきました.以下は4分類のまとめの図です.
Screenshot (273).png

#KLタイプとエビデンスタイプの特徴
一般的に,KLタイプの情報量でモデルを選択すると,minimax最適性という予測誤差の最悪の値を最小化する性質があります.つまり予測の意味で,最悪のケースを防ぐことが出来るのである意味で保守的なモデル選択が可能です.,例えばAICでは様々なモデルでこの性質を持っていることが示されています.一方でエビデンスタイプの情報量規準でモデルを選択すると考えている統計モデルに「真の」モデルが含まれている時に,真のモデルを確率1で選択できる性質があります.また含まれていない時でも,ある意味で正しいモデルを選択することができます.例えばBICでは様々なモデルでこの性質を持っていることが示されています.興味深いことに一般的にこの二つの性質を同時にもつ情報量規準を構築することは出来ず,トレードオフの関係にあります.

この様に情報量規準は推定するターゲットと推定方法で区別することが出来て,またその性質は推定ターゲットにより決定されます.

#おわりに
今回の内容に関連する共同研究・各種お問い合わせにつきましては,お気軽に米倉までご連絡ください.また,株式会社Nospareでは統計学の様々な分野を専門とする研究者が所属しております.統計アドバイザリーやビジネスデータの分析につきましては株式会社Nospare までお問い合わせください.

株式会社Nospare

67
73
3

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
s-yonekura

@s-yonekura

犬が好きです.
nospare
統計・データ分析に関するアドバイザリー、ビジネスデータの分析や企業におけるDX支援等、データに関して幅広い価値提供を行っております。 統計学において国際的に活躍する研究者陣を中心に、統計学における知見を発信していきます。

Comments

This comment has been deleted for violation of our Terms of Service.
airairay
@airairay

最尤推定の場合,エビデンスが定義されないのでBICは意味を持たないのではないでしょうか?

0
s-yonekura
@s-yonekura

意味を持たないという意味が掴めかねるのですが、BICの導出をする際は対数尤度を最尤推定値で評価したものをラプラス近似します。

0

Let's comment your feelings that are more than good

Qiita Advent Calendar is held!

Qiita Advent Calendar is an article posting event where you post articles by filling a calendar 🎅

Some calendars come with gifts and some gifts are drawn from all calendars 👀

Please tie the article to your calendar and let's enjoy Christmas together!

67
73

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Login to continue?

Login or Sign up with social account

Login or Sign up with your email address