(cache)【Edward】MCMCの数学的基礎からStochastic Gradient Langevin Dynamicsの実装まで

こんにちは。初めまして。
データ分析部新入りのmathetake(@mathetake)と申します。

先日個人ブログでこんなエントリを書いた人です:

mathetake.hatenablog.com

そんなこんなでTwitter就活芸人(?)として活動(?)してましたが、これからは真面目に頑張っていこうと思います。

今日はみんな大好きベイズモデリングおいて、事後分布推定に欠かせないアルゴリズム(群)の一つである*1

通称MCMCに関するエントリです。より具体的に、

MCMCの意義(§1.)から始め、マルコフ連鎖の数学的な基礎(§2.,3.,4.)、MCMCの代表的なアルゴリズムであるMetropolis-Hastings法(§5.)、その例の１つである*2Langevin Dynamics(§6.)、そして(僕の中で)絶賛大流行中のライブラリEdwardを使ってより発展的(?)なアルゴリズムであるStochastic Gradient Langevin Dynamicsの説明＆実装(§7.,8.)していきたいと思います。

今までのデータ分析ブログのエントリと少しテイストが違うかもしれませんが、お楽しみいただけたら幸いです。

細心の注意を払ってはいますが、数学的正しさを保証する記事ではありませんので、詳細が気になる方は§Referenceにある資料を御覧ください。

はじめに

本題に入る前にまず、MCMCの意義について軽く触れておきます。

ベイズ統計におけるモデルパラメータの推定には事後分布からのサンプリングがかかせません。即ち、モデルのパラメータを $θ \in Θ$ ,データの集合を $D$ として、ベイズの定理から得られる次のような確率分布

p (θ | D) = \frac{p (D | θ) p (θ)}{\int_{Θ} p (D | θ) p (θ) d θ}

からサンプリングする必要がありますが、一般に分母( 正規化定数 )は解析的に求められず、サンプリングは困難です。

そこを、マルコフ連鎖の収束定理等の数学的基礎理論を使って上手くサンプリングする手法がMCMCで、広く応用されています。*3

ベイズ統計の数学的背景については、僕の個人ブログのエントリを御覧ください

mathetake.hatenablog.com

離散値マルコフ連鎖

$X := {X^{0}, X^{1}, X^{2}, \dots, X^{t}, \dots}$ を離散な集合 ${1, 2, 3, 4, . ., k} (k \in N)$ に値を取る、離散な確率変数の集合とします。確率的な値の時間発展だと考え、確率過程と呼ぶことにします。

(Definition 1.) $X$ がマルコフ連鎖であるとは、全ての ${x^{s}}_{s = 0}^{t + 1} \subset {1, 2, \dots, k}$ に対して
$P (X^{t + 1} = x^{t + 1} | X^{t} = x^{t}, \dots X^{0} = x^{0}) = P (X^{t + 1} = x | X^{t} = x^{t}) \dots (1)$
が成立する事。

感覚的には、次の時刻における値の分布は現在の値のみで決まり、それ以前の値には影響されない確率過程の事です。

数学的便宜上、次の定義も用意しておきます。

(Definition 2.) マルコフ連鎖 $X$ が斉時的であるとは、
$p_{i, j}^{t} := P (X^{t + 1} = j | X^{t} = i)$
が時間に依存しない事。またこの時行列 $p_{i, j} := p_{i, j}^{t}$ を 遷移行列 と呼ぶ。

つまり状態遷移の確率が時間に依らず一定なマルコフ連鎖の事で、状態遷移を表す行列を遷移行列 としています。

ずっと数学の話になってしまいましたが、最後に一つだけMCMCに関わる重要な命題とその系を述べておきます。

(Proposition 3.) $X$ を斉時的なマルコフ連鎖とする。この時 $X^{t}$ の分布は遷移行列 $p_{i, j}$ と $X^{0}$ の分布(初期分布)により完全に決定される。

(Proof) $X^{0}, X^{1}, \dots$ の分布を $π^{0}, π^{1}, \dots,$ とし、 $π_{j}^{t}$ で確率変数 $X^{t}$ が値 $j$ を取る確率とする。マルコフ連鎖の性質(1)より
$\begin{array}{rcl} π_{j}^{1} & = & \sum_{i = 1}^{k} P (X^{1} = j | X^{0} = i) P (X^{0} = i) \\ = & \sum_{i = 1}^{k} π_{i}^{0} p_{i, j} \dots (2) \end{array}$
また、
$\begin{array}{rcl} π_{j}^{t} & = & \sum_{i = 1}^{k} P (X^{t} = j | X^{t - 1} = i) P (X^{t - 1} = i) \\ = & \sum_{i = 1}^{k} π_{i}^{t - 1} p_{i, j} \dots (3) \end{array}$
が成立するので、帰納的に示される □

この命題の系として次が得られます

(Corollary 4.) 初期分布 $π^{0}$ と遷移行列 $T := (p_{i, j})$ を与えることで、式(2),(3)により斉時的マルコフ連鎖が得られる。

マルコフ連鎖収束定理とMCMC

あと少しMCMCの説明まで辿りつきます。もう少々数学にお付き合いください。

§1. で紹介したように、サンプリングしたい確率分布 $π = (π_{i})$ が手元(?)にあるとします。

(Definition 5.)遷移行列が $T := (p_{i, j})$ により与えられる、斉時的マルコフ連鎖 $X$ が $π$ を不変分布に持つとは
$\sum_{i = 1}^{k} π_{i} p_{i, j} = π_{j} (\forall j \in {1, \dots, k})$
が成立する事。行列の式で書けば
$π T = π$
が成立すること。この時 $π$ を $X$ の不変分布と言う。

さて、MCMCの肝となる定理は次のものです

(Theorem 6.(離散値マルコフ連鎖の収束定理))
$π$ を不変分布に持つ斉時的マルコフ連鎖 $X$ が (i) 非周期的 かつ (ii) 既約*4 である時、マルコフ連鎖は不変分布 $π$ に収束する。即ち

$lim_{t \to \infty} P (X^{t} = i) = π_{i}$
が成立する。

ここまで来てやっと、MCMCの定義を与えることができます：

(Definition 7.) MCMC(Markov chain Monte Carlo)とは、サンプリングしたい確率分布 $π$ を不変分布とするような既約で非周期的なマルコフ連鎖を構築＆サンプリングするアルゴリズムの事。

Theorem 6.により、MCMCにより生成されるサンプルの列 ${x^{t}}_{t = 0}^{\infty}$ は確率分布 $π$ からのサンプルに収束し、目的を達成することができます。

既約性と非周期性を満たすようなマルコフ連鎖を構築するのはそんなに難しくはありません、が、サンプリングしたい確率分布 $π$ を不変分布とするようなマルコフ連鎖を構築するのは一般に困難です。

そこでよく用いられるのが*5、詳細釣り合い条件と呼ばれる不変分布を持つための十分条件です:

(Definition 8.)遷移行列が $T := (p_{i, j})$ により与えられる、斉時的マルコフ連鎖 $X$ が不変分布 $π$ に対して詳細釣り合い条件を満たすとは

$π_{i} p_{i, j} = π_{j} p_{j, i} (\forall i, j \in {1, \dots, k})$

が成立する事。またこの時、マルコフ連鎖 $X$ は $π$ を不変分布に持つ。

連続値マルコフ連鎖の場合

今まで簡単のため、離散な値を持つマルコフ連鎖について話をしてきましたが、連続な確率変数の話に一般化する事ができます。

連続値( 便宜上 $R^{d}$ 値とする )なマルコフ連鎖 $X = {X^{0}, X^{1}, \dots, X^{t}, \dots}$ が斉時的である時、離散値の場合の推移行列に対応する推移核 $T : R^{d} \times R^{d} \to R$ を

P (X^{t} \in A | X^{t - 1} = x) = \int_{A} T (x, y) d y (A \subset R^{d})

を満たすものとして定めます。感覚的には現時刻で値 $x$ を取る時、次の時刻の分布を表す密度関数です。

また、 $X$ が分布 $π$ を不変分布に持つとは

\int_{R^{d}} π (x) T (x, y) d x = π (y)

を満たすことであり、詳細釣り合い条件は

π (x) T (x, y) = π (y) T (y, x) \dots (4)

で与えられます。

(Theorem 9.(連続値マルコフ連鎖の収束定理))
$π$ を不変分布に持つ斉時的マルコフ連鎖 $X$ が (i) 非周期的 かつ (ii) 既約である時、 $X$ はtotal variation distanceの意味で $π$ に収束する。即ち、

$lim_{t \to \infty} sup_{A \subset R^{d}} | π^{t} (A) - π (A) | = 0$

が成立する。

Metropolis-Hastings法

MCMCの代表的なアルゴリズム(群)である、Metropolis-Hastings法(以下M-H法)について説明します。

M-H法では、各 $x$ に対して提案分布と呼ばれる確率分布 $q (x, y) d y$ を用意し、採択確率と呼ばれる確率

α (x, y) := min {1, \frac{π (y) q (y, x)}{π (x) q (x, y)}}

を準備します。そして推移核 $T (x, y)$ を

T (x, y) = α (x, y) q (x, y) + A (x) δ_{x, y}

として定義＆適当な初期分布 $π^{0}$ を与えることで斉時的マルコフ連鎖 $X_{M H}$ を考えます。(ここで $δ_{x, y}$ は $x = y$ の時に1でそれ以外の時に0を取る関数、 $A (x)$ は正規化定数を与える関数。)

(Theorem 10.) 斉時的マルコフ連鎖 $X_{M H}$ は $π$ を定常分布に持つ

(Proof) 定義から
$\begin{array}{rcl} π (x) q (x, y) α (x, y) & = & π (x) q (x, y) min {1, \frac{π (y) q (y, x)}{π (x) q (x, y)}} \\ = & min {π (x) q (x, y), π (y) q (y, x)} \\ = & π (y) q (y, x) min {\frac{π (x) q (x, y)}{π (y) q (y, x)}, 1} \\ = & π (y) q (y, x) α (y, x) \end{array}$
が従うので、クロネッカーのデルタの定義から(4)式が成立し詳細釣り合い条件が満たされる。□

Theorem 10.だけでは保証されない既約性や非周期性を満たすような推移核の具体的な設計は重要な課題ですが、ここではそのような性質が満たされ Theorem 6.(or 7.) が成立すると仮定しましょう。*6

この時マルコフ連鎖 $X_{M H}$ からサンプリングする次のようなアルゴリズムを Metropolis-Hastings法と呼びます。

(Metropolis-Hastings法)
(1) 初期分布 $π^{0}$ から $x^{0}$ をサンプリングする:
$x^{0} \sim π^{0}$
(2) $t = 0, 1, 2, 3, \dots$ に対して、以下を実行する
　(i) 標準一様分布から乱数 $u$ を生成する:
$u \sim U (0, 1)$
　(ii) $y$ を提案分布 $q (x^{t}, y)$ からサンプリングする:
$y \sim q (x^{t}, y)$
　(ii) 次の式により"次の点" $x^{t + 1}$ を決める:
$x^{t + 1} := {\begin{cases} y i f u < α (x^{t}, y) \\ x^{t} o t h e r w i s e \end{cases}$

このアルゴリズムが、実際に上で与えた $X_{M H}$ からサンプリングしている事は明らかでしょう。

§0. で述べたように採択確率の計算には目標の分布 $π (x))$ の正規化定数が必要ない事に注目して下さい。

Langevin Dynamics

M-H法を実際に実行するためには、提案分布 $q (x, y) d y$ を定義する必要があります。

ここではその例として、Langevin Dynamics法(Metropolis-adjusted Langevin Algorithm)(以下LD法) を紹介します。

LD法では提案分布を次のように定義します:

q (x, y) := N (x + \frac{ϵ}{2} \frac{\partial \log π}{\partial x} (x), ϵ I)

ここで $N (μ, Σ)$ は平均 $μ$ , 分散 $Σ$ に従う正規分布で、 $ϵ$ はstep size(またはlearning rate)と呼ばれるハイパーパラメータです。

ベイズモデルの事後分布に適応する場合において、決定論的に眺めると、LD法は事前分布で正規化した、ノイズ入り勾配降下法のようなものであると解釈することができます。

実際、事後分布推定において、 $π$ は観測データを ${D = {d_{i}}}_{i = 1}^{N}$ として

π (θ) = p (θ | D) = \frac{p (θ) \prod_{i = 1}^{N} p (d_{i} | θ)}{\int_{Θ} p (D | θ) p (θ) d θ}

で与えられ、その対数微分は

\frac{\partial}{\partial θ} \log π (θ) = \frac{\partial}{\partial θ} \log p (θ) + \frac{\partial}{\partial θ} \sum_{i = 1}^{N} \log p (d_{i} | θ) \dots (5)

のように計算できるので、上のような解釈ができます。

実はLG法は、Stanで有名になったHamiltonian Monte Carlo法の特別なケースと等価になっているので、気になる方は [1]や[2] を御覧ください。

Stochastic Gradient Langevin Dynamics(SGLD)

ここまでMCMCの数学的基礎からM-H法、そしてその具体例としてLG法を紹介しました。

LG法の問題点として、(5) 式の計算量がサンプル数が増えるほど膨大になっていく点があります。

近年はビッグデータと呼ばれるバズワードもあるように、サンプル数＆パラメータ数が巨大なセッティングでモデリングする事が多いのでこのままLG法を適用する事はできません。*7

その問題点を克服するサンプリング手法として、ここで紹介するのが Stochastic Gradient Langevin Dynamics法 [8](以下SGLD法)です。

SGLD法では次のように初期分布からサンプルしたパラメータを更新していきます:

まず、次の２つの条件

\sum_{t = 0}^{\infty} ϵ_{t}^{2} < \infty, \sum_{t = 0}^{\infty} ϵ_{t} = \infty

を満たす数列 ${ϵ_{t}}_{t = 0}^{\infty}$ を用意し、パラメータサンプル ${θ_{t}}_{t = 0}^{\infty}$ を次の式によって取得して行きます

\begin{array}{rcl} θ_{t + 1} & \leftarrow θ_{t} + \frac{ϵ_{t}}{2} \frac{\partial L}{\partial θ} (θ_{t}) + η_{t}, η_{t} \sim N (0, ϵ_{t}) \\ \frac{\partial L}{\partial θ} (θ_{t}) & = \frac{\partial \log p}{\partial θ_{t}} (θ_{t}) + \frac{N}{| S_{t} |} \sum_{d \in S_{t}} \frac{\partial \log p (d | θ)}{\partial θ} (θ_{t}) \end{array}

ここで、 $S_{t}$ はデータ ${d_{i}}_{i = 1}^{N}$ からランダムに抽出された $N$ より十分小さいミニバッチとします。

注意として、このアルゴリズムに対応するマルコフ連鎖は斉時的ではないので、上述の収束定理は適用できません。

ですが、例えば [9]で収束性に関する解析がされています。

EdwardでのSGLDの実装

最後に確率モデリング用ライブラリEdwardを用いて、SGLDをベイズ的線形回帰に適用してみようと思います。

Edwardの詳しい使い方は公式チュートリアルまたは次の論文

[1701.03757] Deep Probabilistic Programming

[1610.09787] Edward: A library for probabilistic modeling, inference, and criticism

をご覧ください。また質問等ありましたら@mathetakeまで気軽にリプライorDMください。

まず各種ライブラリをimportします。

import numpy as np
import tensorflow as tf
import edward as ed
from edward.models import Normal, Empirical
import time

次にデータセットを用意します。

N = 20000  # サンプル数
D = 50  # 特徴量の次元
N_ITER = 10000  # MCMCのiteration
MINI_BATCH_SIZE = 2500  #ミニバッチのサイズ 

# toy dataset. 切片=0はなし.
def build_toy_dataset(N, D, noise_std=0.1):
    w = np.random.randn(D).astype(np.float32)
    X = np.random.randn(N, D).astype(np.float32)
    Y = np.dot(X, w) + np.random.normal(0, noise_std, size=N)
    return w, X, Y

# データ生成。観測値のノイズの分散は既知とする。
w_true, X_data, Y_data = build_toy_dataset(N, D)

# ミニバッチを返す関数 
def next_batch(mini_batch_size=128):
    indexes = np.random.randint(N, size=mini_batch_size)
    return X_data[indexes], Y_data[indexes]

モデルを構築し, 推論のためのインスタンスを作ります。

# 観測データを挿入するためのデータを収めるplaceholder
x = tf.placeholder(tf.float32, [MINI_BATCH_SIZE, D])
y_ph = tf.placeholder(tf.float32, [MINI_BATCH_SIZE])

w = Normal(mu=tf.zeros(D), sigma=tf.ones(D))
b = Normal(mu=tf.zeros(1), sigma=tf.ones(1))
y = Normal(mu=ed.dot(x, w) + b, sigma=tf.ones(MINI_BATCH_SIZE)*0.1)

# 経験分布をposteriorの近似に使う
qw = Empirical(params=tf.Variable(tf.random_normal([N_ITER, D])))
qb = Empirical(params=tf.Variable(tf.random_normal([N_ITER, 1])))

# SGLD法用インスタンス
SGLD = ed.SGLD(latent_vars={w: qw, b: qb}, data={y: y_ph})

最後に推論を実行します。

# 推論GO 
# data辞書にはobservedな確率変数の観測データを送る。
# xの値は確率変数ではないので、updateの際feed_dictで送る。
SGLD = ed.SGLD(latent_vars={w: qw, b: qb}, data={y: y_ph})
SGLD.initialize(scale={y: float(N) / MINI_BATCH_SIZE}, step_size=0.00001, n_iter=N_ITER)

start = time.time()
init = tf.global_variables_initializer()
init.run()
for _ in tqdm(range(N_ITER)):
    X_batch, Y_batch = next_batch(MINI_BATCH_SIZE)
    _ = SGLD.update(feed_dict={x: X_batch, y_ph: Y_batch})
elapsed_time = time.time() - start
print("elapsed_time:{}".format(elapsed_time))

実行結果ですが、ミニバッチで勾配計算をしない通常のLD法と比較してみました: