線形回帰をベイズ推定で解く（１）予測分布の導出 - 機械学習に詳しくなりたいブログ

線形回帰をMAP推定で解くで、ベイズの定理を使ってパラメータの事後分布を求めましたが、解としては事後確率を最大とする1点を採用するだけでした。今回のベイズ推定では、パラメータが事後分布に従った確率で生じることを利用し、予測値の分布を求めていきます。

具体的に見ていきます。まず予測分布とは、

$\begin{matrix} (1) & p (t | x, x, t) \end{matrix}$

です。訓練データ $x, t$ が観測済みで、新たな $x$ が入力された時の出力 $t$ の確率分布という意味です。そのままですね。出力値はこれまで $y$ で表していたのですが、参考書は $t$ を使っているのでそれに倣います。 $y$ は真値で揺らがない値なので分布として求めるものではないっていうことなのでしょうか。さて、この式を条件付き確率、同時確率、周辺確率の式(10)を使えば、以下のように変形できます。

$\begin{matrix} (2) & p (t | x, x, t) = \int p (t, w | x, x, t) d w \end{matrix}$

右辺は条件付き確率、同時確率、周辺確率の式(8)のように変形できることを使って、

$\begin{matrix} (3) & p (t | x, x, t) = \int p (t | w, x, x, t) p (w | x, x, t) d w \end{matrix}$

となります。定理だけではここまでしか変形できませんが、ここで各変数の関係を考えてみます。まず $w$ と $x$ は、モデルのパラメータと新たな入力ですから独立です。そして予測値 $t$ は、 $w$ が与えられた条件下において $t$ と条件付き独立です。つまり $w$ が決定してれば、訓練データ $x, t$ が何であったか？という条件は予測値に影響しないということです。 $w$ は訓練データから決まるのだから、まあそうですよね。以上を使って、式(3)から不要な条件を取り除くと、

$\begin{matrix} (4) & p (t | x, x, t) = \int p (t | w, x) p (w | x, t) d w \end{matrix}$

と書けます。右辺の各項は変数の意味からも理解できます。 $p (t | w, x)$ は、予測値はモデルパラメータと入力から決まるということ、 $p (w | x, t)$ はモデルのパラメータは訓練データによって決まるということ、それぞれ当たり前のことを表しています。そして式全体としては周辺化の計算ですが、言葉で説明を加えるなら、「全ての $w$ について、その事後確率の重み付けをしながら分布 $p (t | w, x)$ を積分している」と言えると思います。つまり $w$ の事後確率が高いところでは $p (t | w, x)$ も高い値をとります。こうしてベイズ推定による予測分布が求まります。この積分は解析的に求まる問題なら良いですが、数値計算では計算量が多くなってしまう問題があるようです。

さて、 $p (t | w, x)$ の分布はどういうものであったかと言うと、真値から $N (0, σ^{2})$ の誤差が加わっているものと仮定していました。そしてパラメータの事後分布はMAP推定の解の導出より、 $N (m_{N}, S_{N})$ でした。真値を $w^{T} ϕ (x)$ とすれば、

$\begin{matrix} (5) & p (t | x, x, t) = \int N (t | w^{T} ϕ (x), σ^{2}) N (w | m_{N}, S_{N}) d w \end{matrix}$

と書けます。

ここで多変量正規分布に対する以下の関係を使います。

$\begin{array}{rcl} (6) & p (x) & = & N (x | μ, Λ^{- 1}) \\ (7) & p (y | x) & = & N (y | A x + b, L^{- 1}) \end{array}$

であるとき、

$\begin{matrix} (8) & p (y) = N (y | A μ + b, L^{- 1} + A Λ^{- 1} A^{T}) \end{matrix}$

です。導出は難しくないのですが数式を書くのが大変なので、今回は公式として使います。（パターン認識と機械学習（上） C.M.ビショップ著の第2章に載っています）

この関係式において $x = w$ 、 $μ = m_{N}$ 、 $Λ^{- 1} = S_{N}$ 、 $y = t$ 、 $A x = ϕ^{T} (x) w$ 、 $L^{- 1} = σ^{2}$ 、 $b = 0$ とすれば、

$\begin{matrix} (9) & p (t | x, x, t) = N (t | ϕ^{T} (x) m_{N}, σ^{2} + ϕ^{T} (x) S_{N} ϕ (x)) \end{matrix}$

と求められます。式(4)は入力と訓練データの条件が入っていて式(6)～(8)との対応がわかりづらいです。式(6)～(8)における $p (x), p (y), p (y | x)$ をそれぞれ $p (w | x, t), p (t | x, x, t), p (t | w, x)$ に対応させています。 $x, x, t$ の条件を除いて考えれば対応が見えてくると思います。

$m_{N}$ はMAP推定で求める $w$ の解でしたから、予測分布はMAP推定値を中心として分布していることがわかります。長くなったので実際に予測分布をプロットしてみるのは次回にします。→線形回帰をベイズ推定で解く（２）予測分布をプロット