#はじめに
千葉大学大/Nospareの米倉です.今まで赤池情報量規準(AIC),ベイジアン情報量規準(BIC)等について解説してきました.そこで今回はそもそも情報量規準とは何かについて4つの分類に基づき解説していきたいと思います.
#モデル選択
情報量規準とは一言でいうとモデルを選択する際に使われる,モデルの良し悪しの指標のことです.統計的分析をする際,何かしらの統計モデルを構築してパラメータを推定し,予測なり仮説検定なりを行います.この時,複数の候補となるモデルの中からどのモデルを使うべきかを知る必要があるのですが,情報量規準はどのようなモデルを選ぶべきかを我々に教えてくれます.基本的には情報量規準を計算して,その値が最小のものを「良い」統計モデルとして採用します.
#KLタイプorエビデンスタイプ
情報量規準はモデルの良し悪しを測る尺度と言うことを述べましたが,ではどうやってそれを測るのでしょうか.これは大きく分けて,カルバックライブラー情報量を用いる方法とエビデンス(周辺尤度)を用いる方法の2つにまず分類できます.
今,を「真」の分布とし,を分析者が用いる予測モデルの尤度としましょう.ここでいう予測モデルとは統計モデルのパラメータを何らかの方法で推定し,それを統計モデルに挿入したものを指します.この時,それらのカルバックライブラー情報量はと定義されます.のときが成立するので,この値が小さいほど良いモデルだと言えそうです.ここで第一項は統計モデルに依存しない項(分析者が出来ることは何もない)なので無視をし,第二項のみに着目します.そうすると,カルバックライブラー情報量を最小化することと,第二項を最大化することが等しくなることが分かります.よって,この第二項を上手く推定できればその大小を比較してモデル選択に利用できます.このようにカルバックライブラー情報量に基づいて構成される情報量規準を,KLタイプと呼ぶことにします.具体的には後程紹介するAIC,DIC,WAICがKLタイプです.
一方,統計学では「エビデンス」ともよばれる周辺尤度を最大化するモデルを選ぶことも推奨されています.パラメタに対して事前分布と尤度関数を分析者が設定します.この時のことをエビデンス(周辺尤度)と呼びます.エビデンスを用いる実用上の問題として.パラメータに対しての積分をする必要があるので,解析的な表現を得られないことが多々あります.BICやWIBCはエビデンスの近似・推定量となっており,最大の値を持つモデルを選ぶことが推奨されます.実用上は,KLタイプと整合的にするために,マイナスをかけたものを情報量規準として採用するので,最小の値を持つモデルを選ぶことがになります.エビデンスの推定を目的とする情報量規準をエビデンスタイプと呼ぶことにします.
この様に推定しようとしているものがカルバックライブラー情報量かエビデンスかで,情報量規準は先ず分類ができます.
#頻度論orベイズ
次の分類の仕方は,予測モデルの構成方法です.頻度論的発想では,最もポピュラーの方法は統計モデルのパラメータは最尤推定し,その最尤推定値をに代入したを予測モデルとして用いる方法です.このタイプの予測モデルを用いた情報量規準を頻度論タイプと呼ぶことにします.AICとBICが頻度論タイプにあたります.
一方,ベイズ推定では事後分布に基づき推論を行います.例えば事後平均を用いてパラメタを推定したり,この様に何か事後平均を用いて予測モデルを構築した時の情報量規準をベイズタイプと呼ぶことにします.DIC, WAIC, WBICがベイズタイプに分類できます.
この様に,情報量規準は用いる予測モデルが頻度論的かベイズ的かでも分類が出来ます.
#AIC
AICはの推定量として,最尤推定量を用いてそれを基に予測モデルを構築します.またこのままだとの推定量として,バイアスをもってしまいます.と定めると,を大きくしたときにのバイアスが無い推定量になることが示せます.ここではパラメータの数です.これを赤池情報量規準(AIC)といいます.なのでAICはKL-頻度論タイプの情報量規準です.
#BIC
BICは予測モデルとして,AICと同様にを用います.なのでベイズ的な情報量規準ではないです.これをエビデンスの定義式に代入して,ラプラス近似を最尤推定値周りで行うと,エビデンスの推定量としてを得ることが出来ます.これをベイジアン情報量規準(BIC)と呼びます.BICはエビデンス-頻度論タイプの情報量規準です.
#DIC
DICは予測モデルとして対数尤度の事後平均を採用します.この時DICはの最大化を行い,AICの時と同様にバイアスの除去したものとして,がを推定量として採用します.はバイアス補正項で,詳しくはこの記事を参照して下さい.以上より,DICはKL-ベイズタイプの情報量規準です.
#WAIC
WAICでは予測モデルとして,を採用します.この時AICと同じようにの推定を目指すのですが,AICがのよい推定量になるためにはいくつかの条件があります.典型的なのが,予測モデルが正規分布を用いてある意味で近似できるための条件です.いくつかの統計モデルではこの条件を満たさないため,AICはの良い推定量にはなりません.しかしはその様な条件でもの良い推定量となることが示せ,これを広く使える情報量規準(WAIC)と呼びます.ここではAの事後分散です.以上より,WAICはKL-ベイズタイプの情報量規準とできるので,WAICとDICは同じ分類となります.
#WBIC
BICはエビデンスのラプラス近似として求められますが,WAICの時と同様にそれが可能になるためには,例えば統計モデルが正規分布で近似出来る必要があり,考えているモデル次第ではそれが出来ないことがあります.WBICではまず逆温度と呼ばれる数列を用いて,それでパラメタライズされた事後分布を考えます.この時となる最適な逆温度の列が,ラプラス近似が用いられない条件でも存在することを示すことが出来ます.具体的にはとすると,を十分に大きくするとと同等になることが示せます.そこで広く使えるベイジアン情報量規準(WBIC)はと定義され,これはラプラス近似が用いられない時にでもエビデンスの良い推定量となります.弱点としてはBICと違い積分項が存在するため,数値的に求めるのが実用上大変なことが多いところです.以上より,WBICはエビデンス-ベイズタイプの情報量規準です.
#分類のまとめ
どの予測モデルで何を推定しようとするのかで,情報量規準は計4通りの分類が出来ることを見てきました.以下は4分類のまとめの図です.

#KLタイプとエビデンスタイプの特徴
一般的に,KLタイプの情報量でモデルを選択すると,minimax最適性という予測誤差の最悪の値を最小化する性質があります.つまり予測の意味で,最悪のケースを防ぐことが出来るのである意味で保守的なモデル選択が可能です.,例えばAICでは様々なモデルでこの性質を持っていることが示されています.一方でエビデンスタイプの情報量規準でモデルを選択すると考えている統計モデルに「真の」モデルが含まれている時に,真のモデルを確率1で選択できる性質があります.また含まれていない時でも,ある意味で正しいモデルを選択することができます.例えばBICでは様々なモデルでこの性質を持っていることが示されています.興味深いことに一般的にこの二つの性質を同時にもつ情報量規準を構築することは出来ず,トレードオフの関係にあります.
この様に情報量規準は推定するターゲットと推定方法で区別することが出来て,またその性質は推定ターゲットにより決定されます.
#おわりに
今回の内容に関連する共同研究・各種お問い合わせにつきましては,お気軽に米倉までご連絡ください.また,株式会社Nospareでは統計学の様々な分野を専門とする研究者が所属しております.統計アドバイザリーやビジネスデータの分析につきましては株式会社Nospare までお問い合わせください.

Comments
最尤推定の場合,エビデンスが定義されないのでBICは意味を持たないのではないでしょうか?
意味を持たないという意味が掴めかねるのですが、BICの導出をする際は対数尤度を最尤推定値で評価したものをラプラス近似します。
Let's comment your feelings that are more than good