More than 1 year has passed since last update.

拡散モデルに入門してみる

Last updated at 2024-07-11Posted at 2023-06-08

はじめに

世間では生成AIのニュースで賑やかです。生成AIには、①GAN、②VAE、③Diffusion modelなどがあります。拡散モデル(Diffusion model)を知らなかったので調査しました。本記事では、③Diffusion modelについて簡単に紹介します。

What are Diffusion Models?

GANやVAEとなにがちがうの？

拡散モデルは、データからノイズ(潜在変数)への変換の逆変換と考えるところがGANやVAEと違います。拡散モデルでは、データに徐々にノイズを付加する過程(拡散過程)と、徐々にノイズを除去する過程(逆拡散過程)を考えます。拡散過程を仮定したことで、Encoderのパラメータの学習が不要になりました。

拡散モデルの長所と短所

長所

2乗誤差最小化であるため最適化がシンプルである
多様なデータの生成に強い
理論的な背景が明確

短所

生成が遅い
高次元データの生成する際は、潜在変数は同じ次元であるため、次元が高くなる

変分下限(Evidence Lower Bound:ELBO)

まず、順方向の拡散過程を考えます。
$x_{0}$ を観測値とし、 $x_{T}$ はガウシアンノイズとします。 $x_{t}$ は、 $x_{0}$ から $x_{T}$ の途中経過です。 $q (x_{t} | x_{t - 1})$ は、前時刻 $x_{t - 1}$ を用いてガウス分布でモデル化します。

q (x_{t} | x_{t - 1}) = N (x_{t}; \sqrt{α_{t}} x_{t - 1}, (1 - α_{t}) I)

q (x_{1 : T} | x_{0}) = Π_{t = 1}^{T} q (x_{t} | x_{t - 1})

ここで、データに徐々にノイズを付加する過程(拡散過程)は、もはや確率分布 $q$ をパラメータ $ϕ$ でパラメータ化する必要がないので、Encoder側はモデル化も学習する必要もないです！

つぎに、逆方向の拡散過程を考えます。
ノイズを除去する過程(逆拡散過程)での条件付き確率 $p_{θ} (x_{t - 1} | x_{t})$ をどのように学習すればよいかがわかっていません。つまり、Decoder側はどのようにモデル化するか？どのように学習すればよいか？が問題として残されています。

表記を簡単にするために、 $p (x_{0 : T})$ と $p (x_{T})$ を導入します。

p (x_{0 : T}) = p (x_{T}) Π_{t = 1}^{T} p_{θ} (x_{t - 1} | x_{t})

p (x_{T}) = N (x_{T}; 0, I)

対数尤度 $\log p (x)$ が最大となるように、条件付き確率 $p_{θ} (x_{t - 1} | x_{t})$ のパラメータ $θ$ を推定すればよさそうです。しかし、残念ながら対数尤度 $\log p (x)$ を直接最大化することは困難です。そこで、対数尤度 $\log p (x)$ のELBO $L (x)$ を最大化することで、間接的に対数尤度 $\log p (x)$ を最大化することを考えます。

\begin{array}{rcl} \log p (x) & = & \log \int p (x_{0 : T}) d x_{1 : T} \\ = & \log \int \frac{p (x_{0 : T}) q (x_{1 : T} | x_{0})}{q (x_{1 : T} | x_{0})} d x_{1 : T} \\ = & \log E_{q (x_{1 : T} | x_{0})} [\frac{p (x_{0 : T})}{q (x_{1 : T} | x_{0})}] \\ \geq & E_{q (x_{1 : T} | x_{0})} [\log \frac{p (x_{0 : T})}{q (x_{1 : T} | x_{0})}] (∵ Jensen's Inequality) \\ = & L (x) \end{array}

拡散モデルの学習

式変形の詳細は下記を参考にしてください。

Understanding Diffusion Models: A Unified Perspective

VAEと同様にELBO $L (x)$ を最大化することを考えます。ELBO $L (x)$ を式変形すると、

\begin{array}{rcl} L (x) & = & E_{q (x_{1 : T} | x_{0})} [\log \frac{p (x_{0 : T})}{q (x_{1 : T} | x_{0})}] \\ = & E_{q (x_{1} | x_{0})} [\log p_{θ} (x_{0} | x_{1})] - D_{KL} (q (x_{T} | x_{0}) | | p (x_{T})) - \sum_{t = 2}^{T} E_{q (x_{t} | x_{0})} [D_{KL} (q (x_{t - 1} | x_{t}, x_{0}) | | p_{θ} (x_{t - 1} | x_{t}))] \end{array}

ELBO $L (x)$ の第1項は計算でき、第2項は定数であり、第3項はdenoising matchingになっています。拡散モデルでは、第3項に着目し、パラメータ $θ$ を推定します。

第3項をさらに式変形すると、

\begin{array}{rcl} max_{θ} - D_{KL} (q (x_{t - 1} | x_{t}, x_{0}) | | p_{θ} (x_{t - 1} | x_{t})) \\ = & min_{θ} D_{KL} (q (x_{t - 1} | x_{t}, x_{0}) | | p_{θ} (x_{t - 1} | x_{t})) \\ = & min_{θ} \frac{1}{2 σ_{q}^{2}} \frac{(1 - α_{t})^{2}}{1 - {\bar{α}}_{t}) α_{t}} [‖ ϵ_{0} - {\hat{ϵ}}_{θ} (x_{t}, t) ‖_{2}^{2}] \end{array}

数値実験で、係数を無視しても問題がないことがわかっているので、えいや！と無視してしまいます。

\begin{array}{r} min_{θ} ‖ ϵ_{0} - {\hat{ϵ}}_{θ} (x_{t}, t) ‖_{2}^{2} \end{array}

推定したノイズ ${\hat{ϵ}}_{θ} (x_{t}, t)$ とノイズ $ϵ_{0}$ が一致するように、ニューラルネットワークを学習することで、ELBO $L (x)$ を最大化できます。間接的に、対数尤度 $\log p (x)$ を最大化していることになります。

データの生成

参考文献

データ生成・変換のための機械学習　第７回前編「Diffusion models」
Understanding Diffusion Models: A Unified Perspective
拡散モデル　データ生成技術の数理、岡野原大輔、岩波書店
拡散モデルのPytorch実装
多変量正規分布の場合のKullback Leibler Divergenceの導出
Step-by-Step Diffusion: An Elementary Tutorial

おわりに

ELBO $L (x)$ の第1項を考えなくてよい理由がよくわからなかったです。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

Why not login to Qiita and try out its useful features?

拡散モデルに入門してみる

はじめに

GANやVAEとなにがちがうの？

拡散モデルの長所と短所

変分下限(Evidence Lower Bound:ELBO)

拡散モデルの学習

データの生成

参考文献

おわりに

@momo10's pickup articles

数理エンジニアに向けて学習する内容について

@momo10(よしだひでき)

Today's trending articles

新卒こそメモはMarkdownで取れ！

生成AIのせいでプログラミングを学ぶモチベない人いる？

【図解解説】0からAIエージェントを実装してポートフォリオ自動生成サイトを開発する超初心者チュートリアル【VoltAgent/React/TypeScript】

GPT-5のポンコツっぷり

AIを使ってAWSのSAAに合格した話

Comments

Login to continue?

Login or Sign up with social account

Login or Sign up with your email address

Why not login to Qiita and try out its useful features?

拡散モデルに入門してみる

はじめに

GANやVAEとなにがちがうの？

拡散モデルの長所と短所

変分下限(Evidence Lower Bound:ELBO)

拡散モデルの学習

データの生成

参考文献

おわりに

@momo10's pickup articles

数理エンジニアに向けて学習する内容について

@momo10(よしだ ひでき)

Today's trending articles

新卒こそメモはMarkdownで取れ！

生成AIのせいでプログラミングを学ぶモチベない人いる？

【図解解説】0からAIエージェントを実装してポートフォリオ自動生成サイトを開発する超初心者チュートリアル【VoltAgent/React/TypeScript】

GPT-5のポンコツっぷり

AIを使ってAWSのSAAに合格した話

Comments

@momo10(よしだひでき)