「ベイズ統計の理論と方法」渡辺澄夫のメモ
2014-08-07
ベイズ推測を使う人はもちろんのこと、嫌う人にもぜひ一読をすすめたい書籍です。ただし、メインの定理の証明の部分は、代数幾何学の特異点解消定理を使いますし、その他にも複素関数論・経験過程といった知識を要求されます。これらの事前知識に詳しくないと、3,4章の定理ひいてはWAICがなにやら抽象的で納得ができないといった事態になると思います。いつかp.93 例4のような特異点解消定理を使った例をいくつかこなして、さらに数値実験をして感覚をつかめたらと思います。渡辺先生は「もちろん『代数幾何学を知らなければWAICを使うことはできない』ということはありません。 WAICは簡単に計算できますので誰でも使うことができます。」とおおらかにおっしゃってくれていますので(web)現段階でも使います。また書籍には、ベイズ推測のユーザーとして参考になる「注意」「例」、各章の最後にある「質問と回答」のコーナー、さらにモデルの評価法・クロスバリデーションとの関係・DICがいかにダメかを語る6章、MCMC・HMC・ランジュバン方程式を用いる方法・平均場近似を簡潔に説明する5章など見どころ満載です。以下では書籍をところどころ引用しながら、自分がベイズ推測を使う上で覚えておきたいことを淡々と書いていきます。詳しく知りたい方は書籍を読んでください。
●3つの平均
まず書籍に登場する3つの平均のとり方があって、それぞれ別の意味を持っていて重要ですのでおさえておく。
・1. サンプル(データ)の現れ方による平均(p.3):
ここで
・2. 真の分布
・3. 事後分布による平均(p.5):
事後分布は:
のように表わされ、ここで
で、
●ベイズ推測
事後分布によって確率モデル
を予測分布といい、ベイズ推測とは「真の確率分布
一般的な状況では真の分布
それを客観的に評価するにあたり重要な量が汎化誤差と自由エネルギーである(p.9,7)。WAICはサンプルの現れ方による平均をとると汎化誤差と漸近的に同じ挙動を示し、WBICは自由エネルギーと漸近的に同じ挙動を示す。(p.118,web,web)。WAICの方の証明は書籍のメインであり、WBICの方は書籍に間に合わなかったとのこと(web)。
なお、情報量が
●汎化誤差とWAIC
汎化誤差(generalization error)は以下のように定義される。
ここで Shannonの不等式(証明はこの講義ノート[pdf]などを参照):
が成り立つため、汎化誤差が小さいほど、
経験誤差は以下で定義される。
汎関数分散は以下で定義される。
WAICは以下で定義される。
特によく使われる
●自由エネルギーとWBIC
自由エネルギーは以下のように定義される(p.8)。
特に重要な
になっている。そこで
となり、先ほどと同様のShannonの不等式より自由エネルギーが小さいほど、推測された分布
WBICは
そして以下が成り立つ(web)。
汎化誤差・WAICが次に得られるサンプル(データ)の分布にフォーカスした量、 自由エネルギー・WBICが今まで得られたサンプル(データ)の分布にフォーカスした量と言うことができると思います。そこから予測精度に重きを置きたい場合には前者、真のモデルが知りたい場合には後者といった使い分けになるのだと思います。ただ、実際問題としては両方計算して挙動を見てみるのが良いのだと思います。(p.84ではAIC, BICについてですが、両方計算してみてどちらの方法から見ても明らかに良好ではない確率モデルは適切でないと考えてよいのではないかと思われる、とあります)
●事後分布が正規分布で近似できる場合と最尤推測・事後確率最大化推測
ベイズ推測の他にも予測分布を推測方法はいくつかあり、例えば最尤推測・事後確率最大化推測がある。事前分布が一定値ならば最尤推測と事後確率最大化推測は同じになる(p.17)。例えとして、
ベイズ推測も含め、どの方法も真の分布を知ることはできない人間が仮に定めた方法であり、正統な方法は存在しない(p.17)。現実の問題においてはほとんどが不良設定問題であり、答えを得るために何らかの選択を行う必要がある。その際には「この統計的推測は、この選択を行った結果得られたものなのだ」と自覚することが大切であり、選択したことにき気づかなかったり、選択したことを隠したり、選択したものを正当化することは事態を混乱させるだけである(p.195)。
事後分布が正規分布で近似できる場合は、ベイズ推測・最尤推測・事後確率最大化推測はどれも同様な結果を与える。そうでない場合は、推測された結果も異なり、汎化誤差も異なる(p.17)。 確率モデルが正規分布一つで近似するような場合、指数型分布が統計学的に非常によい性質を持っているので、どの推測方法を用いても結果には大きな違いはない(p.198)。最尤推測は一般の確率モデルにおいては、経験誤差は小さくなるが汎化誤差は大きくなるので汎化誤差を小さくするという目的には適していない(p.130)。p.18「1.4事後分布の例」は必見です(web版)。
事後分布が正規分布で近似できる場合にはAICは汎化誤差に対応し、BICは自由エネルギーに対応している。確率モデルが観測できない変数を含んでいたり、階層的な構造を持っている場合は、それらが成り立たない(p.84)。p.80 例9のAIC,BIC,統計的検定の比較は分かりやすくて秀逸です。
事後分布が正規分布で近似できるのに必要な条件は三つある(p.52)。
・1. 真の分布に対して最適なパラメータが一つ。すなわち、
・2. その
・3. 事後分布が正規分布とみなせるぐらい十分にデータ数
事後分布を正規分布で近似する理論の弱点は、現実の問題がこの理論を適用できるケースに相当するかどうかを、この理論の中では判断することができないということである(p.53)。WAICやWBICを求めて比較してはじめてその近似が適切だったかどうかが分かる(p.85)。
●一つだけを除外するクロスバリデーションとの関係
クロスバリデーション誤差は以下のように定義する。
ここで、
はサンプル
特に
この証明ではクロスバリデーション誤差が通常の全サンプルを使ってつくった事後分布を使って、
というように表せることを使う(p.178)。実際の問題ではWAICのほうがクロスバリデーションよりも安定していて、ゆらぎが小さいことが多い(p.180)。
●その他のメモ
WAICも万能ではなく、汎化誤差と平均の挙動が同じになるためには大切な条件が必要で、それは対数尤度比関数が相対的に有限な分散を持つこと。対数尤度比関数は
で表わされる。もしも、対数尤度比関数が相対的に有限な分散を持たないと、サンプルの現れ方に依存して事後分布の形状が極端に大きくなり、汎化誤差や自由エネルギーのサンプル(データ)の数
・ハイパーパラメータの事前分布の設定の仕方(p.199)
ベイズ推測を行う場合には考察しているモデルの相転移構造を解明したうえで目的に適すると思われるハイパーパラメータを用いることが望ましいが、それが困難である場合には、十分大きなコンパクト集合上の一様分布か、あるいは十分大きな分散をもつ正規分布であればそれほど大きな問題は生じない。こうした確率モデルでは事前分布をなににするかという影響よりもベイズ推測をするかどうかの影響のほうが大きく、事前分布は局所性の少ないものであれば、工夫を凝らさなくても大丈夫であることが少なくない。
・7章の章末問題【1】(p.202)
ベイズ推測を行うとき、事前分布をどのように設計するかを心配する人は多いのであるが、確率モデルが正しいかどうかを心配する人は少ない。統計的推測に及ぼす影響は事前分布よりも確率モデルのほうが大きいにもかかわらず、なぜ、そのように考える人が多いのだろうか。
- 関連記事