最近話題の"Diffusion Model（拡散モデル）"について、簡潔にまとめてみた

　OpenAIが先日発表したGLIDEにDiffusion Moldelが使用されているとのことで、最近話題のDiffusion Model（拡散モデル）について、まとめました。

サマリー

・Diffusion Model（拡散モデル）は、元データにノイズが徐々に付加されていき、最終的にガウシアンノイズとなるという前提を置き、その逆のプロセスをモデル化することでデータを生成する。

・GANやVAEよりも高品質の画像を生成することに成功しており、様々な分野への応用が期待される。

生成モデルとは

　生成モデルを使用することで、データ（ex. 画像）の生成プロセスをモデル化し、ノイズ等から新たなインスタンスを生成することが可能です。下記の図は、生成モデルによって生成された画像です。もはや本物としか思えないほど、精巧な画像を生成できています。

f:id:nakajimeee:20220102235738j:plain — 出典：https://arxiv.org/abs/1710.10196

　代表的な手法として、GAN・VAE・Flowがあります。Diffusion Modelはこれらの生成モデルと同等、或いはそれ以上に精巧にデータ生成できることが、昨今の研究で判明しています。

Diffusion Model（拡散モデル）とは

　Diffusion Modelはノイズからスタートし、徐々にノイズを除去していくことで、データを生成するモデルです。下記の図では、 $x_{T}$ からスタートし、T回のノイズ除去ステップを踏むことで、顔画像 $x_{0}$ を生成しています。もちろん、どのようにノイズを除去すればよいのか、言い換えるならば、どのような過程でノイズが付与されたのか、ということが分からなければ、データを生成することはできません。ノイズを付与していく過程をForward diffusion process、除去していく過程をReverse diffusion processと呼びます。以下、この2つのプロセスについて、考えていきましょう。

f:id:nakajimeee:20220103000657p:plain — 出典：https://arxiv.org/pdf/2006.11239.pdf

Forward diffusion process

　このプロセスは、状態 $x_{t - 1}$ にガウシアンノイズを付与することで、次の状態 $x_{t}$ に遷移させるプロセスです。つまり、このプロセスはノイズの強さを $β_{t}$ とすると、以下のように表現できます。なお、初期状態 $x_{0}$ は $q$ からサンプルされているとします。

$q (x_{t} | x_{t - 1}) = N (x_{t}; \sqrt{1 - β_{t}} x_{t - 1}, β_{t} I) q (x_{1 : T} | x_{0}) = \prod_{t = 1}^{T} q (x_{t} | x_{t - 1})$

これは、任意のステップ $t$ の状態 $x_{t}$ が前の状態 $x_{t - 1}$ の関数で表現できるということです。つまり、これを $t$ 回繰り返すことで、 $x_{t}$ を初期状態 $x_{0}$ で表現できます。なお、 $α_{t} = 1 - β_{t}, {\bar{α}}_{t} = \prod_{i = 1}^{T} α_{i}$ と定義しています。

\begin{aligned} x_{t} & = \sqrt{α_{t}} x_{t - 1} + \sqrt{1 - α_{t}} z_{t - 1} & ;where z_{t - 1}, \dots \sim N (0, I) \\ = \sqrt{α_{t} α_{t - 1}} x_{t - 2} + \sqrt{1 - α_{t} α_{t - 1}} {\bar{z}}_{t - 2} & ;where {\bar{z}}_{t - 2} merges two Gaussians \\ = \dots \\ = \sqrt{{\bar{α}}_{t}} x_{0} + \sqrt{1 - {\bar{α}}_{t}} z \\ q (x_{t} | x_{0}) & = N (x_{t}; \sqrt{{\bar{α}}_{t}} x_{0}, (1 - {\bar{α}}_{t}) I) \end{aligned}

Reverse diffusion process

　ノイズを除去していくプロセスをモデル化できれば、状態 $x_{T}$ からデータを生成できます。つまり、Forward processの逆プロセスである $q (x_{t - 1} | x_{t})$ を表現できれば良いということです。 $β_{t}$ が十分小さいとすると、 $q (x_{t - 1} | x_{t})$ はガウス分布に従います。これをパラメータ $θ$ のニューラルネットワーク $p_{θ}$ で近似します。

$p_{θ} (x_{0 : T}) = p (x_{T}) \prod_{t = 1}^{T} p_{θ} (x_{t - 1} | x_{t}) p_{θ} (x_{t - 1} | x_{t}) = N (x_{t - 1}; μ_{θ} (x_{t}, t), Σ_{θ} (x_{t}, t))$

$q (x_{t - 1} | x_{t})$ は、このままでは非常に扱いにくいので、 $x_{0}$ で条件付けします。この $q (x_{t - 1} | x_{t}, x_{0})$ もガウス分布に従うと仮定し、平均及び分散を何かしらの形で表現することを目指します。詳細は割愛しますが、ベイズの定理を用いて、平均及び分散は以下となります。

\begin{aligned} {\tilde{μ}}_{t} & = \frac{1}{\sqrt{α_{t}}} (x_{t} - \frac{β_{t}}{\sqrt{1 - {\bar{α}}_{t}}} z_{t}) \\ {\tilde{β}}_{t} & = 1 / (\frac{α_{t}}{β_{t}} + \frac{1}{1 - {\bar{α}}_{t - 1}}) = \frac{1 - {\bar{α}}_{t - 1}}{1 - {\bar{α}}_{t}} \cdot β_{t} \end{aligned}

学習

　上記を踏まえて、Diffusion Modelを学習させるために必要な損失関数を考えます。詳細は割愛しますが、クロスエントロピーの最小化、或いはVAEと同様に負の対数尤度の最小化を目指すことで、損失関数は以下となります。なお、 $D_{K L}$ はカルバックライブラーダイバージェンスを表しています。