(cache) ベイズ統計の数理について−WAICとその数学−

お久しぶりの投稿です。

最近修論やらなにやらで機械学習も統計もあまりモチベーションがなかったんですが、復活してきたので書きます。書きます。

今回の記事は、Sumio Watanabe大先生が確立した

特異モデルまでをも包括した*1 歴史上唯一のベイズ統計の理論と、そこから導出されるWAICやその裏側にある数学についてのメモを残したいと思います。

これからWatanabe先生の理論を勉強しようと思ってる人や、その概略だけでも知りたい人向けの記事です、が、あくまでメモです(disclaimer)。

この理論は多様体やら代数幾何やら特異点解消やら、なんだか難しい数学の概念がたくさん出てくると言うタレコミがあるため避けている人が大多数だと思いますが、それらの代数幾何学を理解する事は決してPractitionerが理解したいと思う範囲で本質的ではなく、結局は測度論(ルベーグ積分論)・関数解析・確率解析を理解しているかどうかなのでは、と数学専攻で複素幾何学や微分幾何学が専門な大学院生が勉強した中での率直な印象です。

WAICやWBICの導出まで勉強したいと言うモチベーションがある人であれば、測度論や関数解析ぐらいは勉強してないと困る状況にあると思いますので、この理論を勉強するのを良い機会だと考えてそれらの勉強も並行して行うことをおすすめします。

と言うか、少なくとも多様体や代数幾何の知識がなくてもそれらの知識がしっかりしてれば、ある程度納得するまで理論の理解が出来ると考えています。

裏を返せば、分かった気になるには測度論・関数解析は必須、と言うのが僕が勉強した肌感です。

この記事では具体的に

・理論の概要と構造
・何故特異モデルまでをも包括した理論が必要なのか*2
・何故代数幾何や特異点解消と言った概念が必要なのか
・とは言うものの代数幾何や多様体論はそんなに知らなくても良いと言う話
・WAICの導出に至るまで

と言った内容について書いていきます。

ちなみにですが以下の記事

statmodeling.hatenablog.com

が非常に良くまとまっていて参考になると思います。
和書の方の参考文献にあるWatanabe先生の重要なコメントについても書いてあるので一読をおすすめします。

§1. ベイズ統計の理論の枠組み

ある真の確率分布 { q } から生成されるn個のサンプル ${ X^n :=(X_1 \dots X_n) }$ (確率変数と考えましょう)と逆温度と呼ばれる定数 ${ 0<\beta < \infty}$ を考えます。そして ${ w \in W \subset \mathbb{R}^d }$ によりパラメータ付けされた確率モデル { p(X|w) } を持ってきます。 { W } はコンパクトであるとします(実用上問題ない仮定、だと思います。)

これに対して事後分布を

${ p(w | X^n )= \dfrac{1}{Z_n(\beta)}\phi(w) \prod_{i=1}^n p(X_i |w)^\beta }$

と定めます。ここで

${ Z_n(\beta) = \int_W \phi(w) \prod_{i=1}^n p(X_i |w)^\beta dw }$

を分配関数と呼び、また ${ \phi(w) }$ は事前分布です。この事後分布を用いて、予測分布を

${ p^*(x|X^n) = \int_w p(x|w)p(w | X^n ) dw}$

と定義します。 ${X^n}$ が確率変数であることを意識して ${ p^*(x|X^n)}$ と書きましたが、以下では ${ p^*(x)}$ と略記します。

ここで以下に重要な注意を引用しておきます*3

..一般の ${ \beta }$ を用いて事後分布を定義する。ベイズ統計学においては、 ${ \beta =1 }$ の場合が特別に重要であり、通常の本や論文で「事後分布」あるいは「ベイズ推測」と言う言葉が用いられる場合は ${ \beta =1}$ の場合だけを意味していることが多い。.....しかしながら一般の ${ \beta \neq 1 }$ の場合に生じる現象もベイズ統計の理論と方法を考える上で大切であるので...

さて、統計的推論をする上で知りたいのは、

サンプルを無数に取っていった時に予測分布がどのくらいの精度を出せるのか

であり、それはつまり

${ n \rightarrow \infty }$ の時、 ${ p^*(x) }$ 精度の { n }

に関するオーダーはどの程度なのか。その漸近挙動を調べたい。

と言う事になります。そのための数学的な基盤、そしてそれを有限個のデータからどの程度定量的に評価できるのか、その理論を組み立てる事が目標となります。

§2. 精度評価のために考察される量とWAIC/WBIC

予測分布 ${ p^*(x) }$ の精度を評価するための種々の量を導入しましょう。

まず汎化損失を

${ G_n :=- \int q(x) \log p^*(x) dx = - \mathbb{E}_{X \sim q(x)} \left[ \log( \mathbb{E}_{w \sim p(w|X_n)} [p(X|w)] ) \right] }$

と定義します。簡単な計算によって

${ G_n = S + K(q ,p^*) }$

と言う関係があることが分かります。ここで { S } は真の分布 {q } のエントロピー、 ${ K(q ,p^*) }$ は { q } と ${ p^* }$ のKL-divergenceです。従って、 ${ G_n }$ が小さいほど、これら２つの確率分布は近い、即ち予測の精度が高い事を意味します。

しかし現実の問題において真の分布は不明なことがほとんどなため、 ${ G_n }$ を直接計算することは不可能です。よってなんらかの計算可能な量で近似する必要があります。その量として次の経験損失

${ T_n =-\frac{1}{n}\sum_{i=1}^n \log p^*(X_i) }$

を定義します。 ${ G_n }$ が ${ T_n }$ によってうまく計算できればそんな嬉しいことはありませんが、そのためにこの理論とWAICがあるわけです。

一方、 ${ G_n }$ とは違った尺度から精度をはかる量、自由エネルギーを定義次のように定義します

${ F_n(\beta) =-\frac{1}{\beta} \log Z_n(\beta) }$

${ \beta=1 }$ の時、両辺 ${ \mathbb{E}_{X \sim q} }$ について期待値をとって整理すると

${ \mathbb{E}_{X \sim q} [F_n(1) ] = nS + K\left(q(X^n), p^*(X^n) \right) }$

となり、自由エネルギーが小さいほど、汎化損失関数の時と同様に、真の分布に近いほど分かります。

しかし ${ \mathbb{E}_{X \sim q} [F_n(1) ] }$ はもちろん真の分布がわからないときは計算できないので、 ${ F_n(1) }$ を用いて近似するわけですがその精度はどうなのか、それについての理論も組み立てる必要があり、そこでWBICが出て来るわけです。

以上が予測モデル ${ p^*(x) }$ を評価するための量です。

次に、それらと関連する各 ${ w \in W }$ に対する確率モデル { p(x|w) } の精度評価の量を導入しましょう。

${ w \in W }$ に関する関数、平均対数損失関数を

${ L(w) =-\int q(x) \log p(x|w)dx = - \mathbb{E}_{X \sim q} [\log p(X|w)] }$

で定義します。これも同様に真の分布のエントロピーとKL-divergenceの和で書けるため、この量が小さいほど { w } が定める確率モデルの精度が高いことが分かります。

これに対応する”計算可能な量”として経験対数損失関数を

${ L_n(w) =-\dfrac{1}{n} \sum_{i=1}^n \log p(X_i|w) }$

と定義します。

さて、 ${ W_0 \subset W }$ を { L(w) } が最小値を取るような集合とします。定義から空集合ではありません。そのようなパラメータの集合が考えている統計モデルの中では””最適な分布””であるため、その周りでの学習の挙動を調べることが精度評価のために非常に重要になります。しかし数学的には ${ W_0 \subset W }$ と言う漠然とした集合では扱いづらいので、なんらかの関数のゼロ点で表現出来ることを以下で見ます。

まず ${ w_0 \in W_0 }$ が定める確率モデルは実質的には一意であると仮定して*4 ${ w_0 \in W }$ を1つ固定しておきます。
そこで対数尤度比関数を

${ f(x,w) = \log \dfrac{p(x|w_0)}{p(x|w)} }$

と定めればwell-definedとなります。

今までたくさんの量を定義して混乱してるかと思いますが、最後に平均誤差関数を

${ K(w) = \mathbb{E}_{X \sim q} [f(x,w)] }$

と定め、経験誤差関数を

${ K_n(w) =\frac{1}{n} \sum_{i=1}^n f(X_i,w) }$

として定めれば

${ L(w) = L(w_0) + K(w) , \ \ \ \ L_n(w) = L_n(w_0) + K_n(w) }$

${ K(w)=0 \Longleftrightarrow w \in W_0}$

と言う関係式が成り立つことが分かり、したがって { K(w) = 0 } が成り立つパラメータ領域の周りでの学習の挙動を調べることが重要であることが分かります。

§3. ベイズ統計理論の構造

準備が整ったので、ベイズの統計理論の構造とその戦略についてまとめたいと思います。まず理論を構築するための土台となる仮定を最初に述べておきます。

仮定1.　対数尤度比関数は相対的に有限な分散を持つ。つまり

${ \sup_{w \notin W_0} \left( \dfrac{\mathbb{E}_{X \sim q} \left[ f(X,w)^2 \right] }{\mathbb{E}_{X \sim q} \left[ f(X,w) \right] } \right) < \infty }$

が成立する。□

仮定2.　平均誤差関数 { K(w) } は ${ w \in W}$ について実解析的な関数である。 □

仮定1.の妥当性については次の渡辺先生のコメントを引用しておきます*5

....もしも、対数尤度比関数が想定的に有限な分散を持たないとすると、 ${ K_n}$ の分散が ${ K_n}$ の平均でバウンドできなくなり、サンプルの現れ方に依存して事後分布の形状の変化が極端に大きくなり、自由エネルギーや汎化誤差のnに対する挙動が大きく変化してしまうからである。通常の統計的推測においてこのようなケースは起こりにくいと思われるが、事後分布がサンプルに応じて大きく変動する場合には、対数尤度比関数が相対的に有限な分散をもつかどうかを考察する必要が生じるかもしれない。

仮定2.の妥当性についてはコメントが見つかりませんでしたが、僕の肌感ではよほど変な統計モデルを使わなければ大体のケースでこの仮定は満たされるように思われます。よほど変な、と言うのは例えばDNNであればReLU関数とか使っちゃうと非常にまずい気がします。

これらの必要性について、仮定1.は非常に技術的なのでここでは説明しません。証明を読めば分かると思います。
しかし、仮定2.は代数幾何学が絡んでくる根源であり、それは次の§で説明します。

さて、仮定を整えたのでどのように学習の漸近挙動を解析していくのかの大まかな指針を述べたいと思います。

（１）分配関数 ${ Z_n(\beta)}$ ,経験誤差関数 ${ K_n}$ の ${ n \rightarrow \infty }$ の漸近挙動を調べる。これにより自由エネルギー ${ F_n}$ の挙動が分かる。

（２）スケーリング関係と呼ばれる関係式やキュムラント母関数と呼ばれる関数について調べ、経験損失 ${ T_n}$ や汎化損失 ${ G_n}$ を計算するための普遍的な関係式を導出。

（３）1と2の結果を合わせて経験損失と汎化損失の漸近挙動を導出。（⇒WAICの導出へ）

と言った感じになります。

この中で随所に使われるのが確率過程やその極限を取る操作であったり、様々な確率密度(測度)で積分する操作であったりするわけで、そんなわけで測度論や関数解析の知識が必須だと考えているわけです。

§4. 何故代数幾何が必要なのか/古典論の過ち

理論の構造までわかった所で、何故代数幾何が必要になってくるのかと言う点について述べたいと思います。

本質的には分配関数 ${ Z_n(\beta)}$ の解析をする段階で必要になってきます。
Watanabe氏のロジックにおいて、 ${ Z_n(\beta)}$ の積分を次のように分けて解析します

$Z_n(\beta) = \int_{K(w)<1/n^{1/4}} + \int_{K(w) \geq 1/n^{1/4}} \phi(w) \prod_{i=1}^n p(X_i |w)^\beta dw$

前半の積分を主要項 ${ Z_n^1(\beta) }$ 、後半の積分を非主要項 ${ Z_n^2(\beta) }$ と呼ばれています。

${ Z_n^2(\beta)}$ については ${ o_p(exp(-\sqrt{n})) }$ のオーダーで確率的に０に収束するので無視して問題ないでしょう。*6

問題なのは主要項 ${ Z_n^1(\beta) }$ の解析です。

従来の古典論では

となる集合は一点である

と言う仮定が設定されていたために ${ Z_n^1(\beta) }$ の積分領域の極限は１点となり非常に解析がしやすい状態になっていました。

が、しかし、このような仮定はあまり現実的ではなく、今現在使われている多くの統計モデルはこの仮定を満たさないことが分かっています。*7

そのため古典論の仮定を落とさなければならないのですが、そうすると大域的に広がりを持った(一点とは限らない)領域 { K(w)=0 } 上での積分を考えなければならない事になります。

ここが代数幾何学が関わってくるポイント、そして仮定2.が必要となるポイントです。

一般の関数 { K(w)} に対して、領域 { K(w)=0 } とその周りでの { K(w) } や ${ K_n(w)}$ の様子を調べる(これは ${ Z_n }$ の様子を調べるのに必要)のは容易ではありません、と言うか不可能です。そのため、なんらかの数学的に良い性質を課して、数学的に扱いやすくする必要があります。

そこで出てくるのが仮定2.であり、そしてその仮定を用いて領域 { K(w)=0 } の特異点解消*8をすることで ${ K_n}$ を扱いやすい標準形*9と言われる形に書き直すことが出来る事を数学的に保証出来る訳です。

§5. 代数幾何や多様体論はそんなに知らなくても良いと言う話

代数幾何が使われるのは前§で述べた

の特異点解消をすることで ${ K_n}$ を扱いやすい標準形と言われる形に書き直すため

のみが理由です。それを現実の解析の問題に落とすために困難なのは

特異点解消した空間上の局所的な ${ K_n}$ の標準形を
どのようにして特異点解消する前の大域的な積分の量 ${ Z_n(\beta)}$ と結びつけるのか

と言う点です。*10

ここで特異点解消した多様体上での積分を考えなければならず、そこで必要になるのが一の分割*11と呼ばれる多様体上の積分を定義する上で重要な概念であり、その肝は

多様体上の積分とは、局所的なユークリッド空間上の積分を矛盾なく貼り合わせたものである

と言うものです。

結局、Watanabe氏の理論を理解するために必要な代数幾何や多様体の概念はこれだけなんです。全部ユークリッド空間上でごにょごにょ確率解析しているんだ、と考えたらなにか気が楽になってきませんか？？？？？？？？(煽り)

何度も言いますが、重要なのはルベーグ積分論であり、測度論であり、関数解析であり、確率解析です。

§6. WAICの導出

最後の§としてWAICの導出(と言うか定義)をまとめたいと思います、が、雑です。すみません。

WAICを導出するためには、次のベイズ統計学の状態方程式*12を導出する必要があります。

${ \mathbb{E}_{X \sim q}[G_n ] = \mathbb{E}_{X \sim q} \left[ T_n + \dfrac{\beta V_n}{n} \right] +o\left( \frac{1}{n} \right) }$ .

ここで ${ V_n}$ は汎関数分散と呼ばれ

${ V_n = \sum_{i=1}^n \left\{ \mathbb{E}_{w \sim p(w|X^n)} \left[ (\log p(X_i|w) )^2 \right] - \mathbb{E}_{w \sim p(w|X^n)} \left[ \log p(X_i|w) \right]^2 \right\} }$ .

で定義されます。この方程式を得るために、§3. で述べた指針に従って計算しまくるって訳です。

一度状態方程式が得られてしまえばWidely Applicable Information Criteria(WAIC)と呼ばれる確率変数 ${ W_n }$ を

${ W_n := T_n + \dfrac{\beta V_n}{n} }$ .

として定めることで、この値を実際に計算すれば(確率的にもちろん揺らぐものではあるが)その確率モデルの汎化損失を評価出来る事になります。スゴイ！！

ちなみに状態方程式を導出するための次の２つの方程式

${ \mathbb{E}_{X \sim q}[G_n ] = L(w_0) + \dfrac{1}{n}\left( \dfrac{\lambda - \nu}{\beta} + \nu \right) + o\left( \dfrac{1}{n} \right) }$ .

${ \mathbb{E}_{X \sim q}[T_n ] = L(w_0) + \dfrac{1}{n}\left( \dfrac{\lambda - \nu}{\beta} - \nu \right)+ o\left( \dfrac{1}{n} \right) }$ .

ここに出てくる ${ \lambda, \nu }$ は双有理不変量と呼ばれ、数学的に物凄く重要な性質を持つ量として知られています*13。それが統計学に現れるなんて、なにかこう、数学の凄さというか、普遍的な真理みたいなものを感じます。ヤバイ。

今回の記事は以上です。さらに興味がある人は参考文献を当たってもらえたらと思います。

和書の方は全ベイジアン必見です。高度な数学を極力避けて証明の概要を与えていますし、多くの有益なWatanabe先生のコメントが見つかります。

洋書の方は和書の完全版みたいな感じです。必要な数学が全て載っています。

また時間があればこの理論で使われている数学についてまとめた記事を書こうと思ってますが、特異点解消についてはhttps://arxiv.org/pdf/math/0508332.pdfや洋書の参考文献を見てもらえたらと思うので、確率解析や超関数論についての解説記事を書きたいなあ。

最後にWatanabe先生のありがたいお言葉*14を引用して〆たいと思います。

WAICは難しいものではありません。『代数幾何学を理解できなければWAICを使うことはできない』ということはありません。ただ、次のことを多くのかたに知って頂きたいと思います。代数幾何・代数解析・多変数函数論・特異点論・超関数論・確率過程などの数学の基盤がなければ、 WAICを導出することはできませんでした。数学はとても大切な学問であり、美しく限りない天空の世界を描き出すことができるだけでなく、きびしくてつらい現実の大地を生きていくためにも「確かに拠って立てる基盤」として必要です。

それでは。