MIRU MIRU わかる GAN

MIRU MIRU わかる GAN
オムロン株式会社（前株式会社ABEJA）
高橋智洋
* 今のところ，動画は未対応です．．．

自己紹介
• 高橋智洋
• 所属: オムロン (2018 年 6 月入社)
• 興味
• 理論物理: 学生時代は一般相対論の研究をしてました．
• 数理計画法: 仕事で分枝限定法など離散最適について調査・実
装．
• 機械学習: 今の仕事．最...

目次
1. Original GAN の説明
2. Original GAN の勾配消失と不安定性
3. GAN の training は収束しないことも
4. 応用例 - 異常検知-
5. まとめ
発表用に作成したコードは，全部ではないが
h...

Original GAN
GAN 概要
どういう最適化問題を解けば良いの?
何故その最適化問題で良いの?
実験結果
参考文献
- arXiv:1406.2661
- arXiv:1511.06434
- arXiv:1701.07875

GAN 概要
• 登場人物は，p_data, p_z, discriminator, generator の四人
．
p_z(z)
〜 z
p_data 〜
G
D
True
False

GAN 概要
• 登場人物は，p_data, p_z, discriminator, generator の四人
．
p_z(z)
〜 z
p_data 〜
G
D
True
False
データの分
布
Z を種に D を騙せるよう
なデータ作...

GAN 概要
p_data からのサンプル
Generator が
作るデータ

GAN 概要
False
True
Discriminator は判別面を学習．
Generator が
作るデータ

GAN 概要
False
True
Generatorは，判別面を固定して
True と言われる様に学習Generator が
作るデータ

GAN 概要
Generator が
作るデータ
False
TrueDiscriminator は判別面を学習．

GAN 概要
Generator が
作るデータ
False
True
Generatorは，判別面を固定して
True と言われる様に学習

どういう問題を解けば良いの?
• 以下が前項に対応しそうな最適化問題．

P_data からの draw x に対して,
D(x) = 1 とすれば最大．
G(z) に対して，
D(G(z)) = 0 とすれば最大．

G(z) に対して，
D(G(z)) = 1 とすれば最小．

• 次項以降で，何故これで良いのかを見る．
• 結論は，上記の最適解が以下の二つの確率分布が一致するときだから．
• データ分布 p_data
• p_z と G から導出...

何故その問題で良いの?
• まず，max_D を考えてみる．
の時に最大

何故その問題で良いの?
• 続いて min_G を考える．
p_data = p_g の時に最小

提案手法
• min max 最適化？どうすれば良いか分からないから交互で．
Gを止めて，D について以下を一回だけ勾配降下
Dを止めて，G について以下を一回だけ勾配降下

ここまでのまとめ
• 以下の最適化問題を解くことで，p_data = p_g と学習できる．
• ちょっとした疑問：本当に一致するの？

簡単な実験結果
p_z から draw して G で送った先
≒p_g のランダムサンプル
• p_data: 2 次元の Gaussian 𝑁(
1
2
, −
1
2
, 0.5𝐼)
• p_z: 256 次元[0,1]一様分布
p_data

p_data が一様分布な例
• p_data: 特定の二次元格子点のサンプリング（一様 MIRU 分布！）
• p_z: 192 次元正規分布 𝑁(0, 𝐼)
p_data p_z から draw して G で送った先
≒p_g のランダムサ...

画像の例
DCGAN論文(arXiv:1511.06434)より引用
• p_data: 手持ち画像の一様サンプリング
• p_z: 100 次元[0, 1] 一様分布

GAN まとめ
• train することで例えば非常に綺麗な画像を生成できる．
• 二つの確率分布の一致という理論背景がある．
• ただし，次項以降で述べるようにやっぱり色々と問題は
ある．
• 勾配消失と不安定性
• 収束性

勾配消失と不安定性
Original GAN の勾配消失
勾配消失のためによくやること
不安定性
対策例
参考文献
- M.Arjovsky et al., ICLR2017.
- arXiv:1611.04076
- arXiv:1704.0...

勾配消失
𝐷 𝑥 = 𝜎 𝑓 𝑥 といつも通り sigmoid が最後にあるとする．
偽物を完全に偽物と言える状況だと勾配消失．
* 高画質なほど input の自由度が多く，discriminator の判断材料が増
えるため，勾配消失が起き...

勾配消失の例
初期として「全てを false と答える discriminator」を用意した結果．

勾配消失のためによくやること
• Loss をちょっと違ったものに置き換えてしまう．

置き換え結果
初期として「全てを false と答える discriminator」を用意した場合の結果比較．
*置き換えると，discriminatorがgeneratorが作ったものを True と言うと勾配消失
が，discriminat...

置き換え後の不安定性
• 以下のような不安定性が生じうる．
Discriminator 強いと，分母 ≒ 0.
分子の大きさが普通くらいでも微分が大きくなりうる.
* M.Arjovsky et al., ICLR2017.では，上記のように議...

不安定性の例
• 以下のように不安定さと |𝛻𝐷/𝐷| は関係があるケースも．
各 epoch の |𝛻𝐷/𝐷|の最大値各 epoch での生成画像

置き換え前
置き換え後
勾配消失，置き換えで一応対処可
勾配が大きくなって不安定かも

対策 1: loss を修正してみる
• divergence 最小化で一致を狙う
• 確率分布間距離最小化で一致を狙う．
例: Least Square GAN(arXiv:1611.04076)
例: WGAN-GP(arXiv:1704...

対策 2: 𝛻𝐷が大きくならないように
• Spectral Normalization が注目されている(arXiv:1802.05957，詳細は論
文を)
|𝑁𝑁 𝑥+𝜖 −𝑁𝑁(𝑥)|
|𝜖|
≤ 𝑙 𝑆𝑁 𝑊 𝑙
NeuralNet の...

無い時
ある時
対策 2: 𝛻𝐷が大きくならないように
• Discriminator に Spectral Normalization 入れた例．

勾配消失と不安定性まとめ
• Original GAN では勾配消失とか不安定性がありそう．
• 対策として，loss の変更や normalization などが考えられている．
• なんか計算がうまく行かないなぁ，というときには是非これら...

収束しないことも
収束せず周期的になることも
なぜ周期的？
対策例
参考文献
- arXiv:1705.10461
- L.Mescheder et al., ICML2018

収束せず周期的になることも
• 近くまで行くが，収束せずに周期的になることが多い．
赤が p_data で，青が G(z) の頻度

• GAN の training は速度場に沿った動きと見ることもできる．
なぜ周期的？
δt は learning rate.
交互に勾配降下するが
大体同時だと思うと左記．

なぜ周期的？

なぜ周期的？
（Lars Mescheder et al., ICML2018）
𝜃
𝜙

なぜ周期的？
• GAN の速度場はどっち系？
ある点に収束する系ぐるぐる回って真ん中に行けない系

なぜ周期的？
• 𝜕𝐿 𝐷 𝜃, 𝜙 = 𝜕𝐿 𝐺 𝜃, 𝜙 = 0 となる( 𝜃, 𝜙)の近くで考えてみる．

なぜ周期的？
• 𝜕𝐿 𝐷 𝜃, 𝜙 = 𝜕𝐿 𝐺 𝜃, 𝜙 = 0 となる( 𝜃, 𝜙)の近くで考えてみる．
V’ に純虚数な固有値があればV’ の固有値が全て負の実数であれば

なぜ周期的？
• 混合 Gaussian を p_data とした場合の計算結果．
arXiv:1705.10461より引用)
収束後の固有値
p_data
ということで，
微分 = 0 の点の周りは
ぐるぐる系！

対策
• 固有値を捻じ曲げるようなRegularized term を入れる．
• 例えば以下のように速度が小さくなるようなインセンティブを
与える．

Regularized term あるなし比較
赤が p_data で，青が G(z) の頻度
無い時ある時

収束性まとめ
• GAN の収束性を議論．実は，なかなか収束しないことを確認．
• 収束させるためには，正規化項を入れるなどの工夫が必要．
• 簡単な例を用いて，正規化項がないと収束は厳しいと主張する話
もある（ L.Mescheder et ...

応用例 – 異常検知-
motivation
手法
結果
参考文献
- arXiv:1703.05921
- arXiv:1804.04488

motivation
• 製造業などでの外観検査を考える．その際には，傷などが
ない正常データが圧倒的に多数だと考えられる．
• 正常データだけから正常異常を見分けられるようにしたい
正常データ異常データ
>>
(arXiv:1703.059...

手法（第一段階）
• このような学習を行うと，Generator は正常データかそれに近
い画像のみ生成できるようになる．
正常データのみを使って学習
(arXiv:1703.05921より引用)

手法（第二段階）
• GAN 学習後に画像 𝑥 に対して，以下の最適化問題を解く．
正常データ
異常データ
小
大
適当な threshold で判定
min
𝑧
𝑥 − 𝐺 𝑧 2
min
𝑧
𝑥...

結果
上から input, 一番近い画像, diff, 閾値処理の結果
正常データ異常データ

異常検知まとめ
• GAN が分布を一致させるもの，ということを利用した異常検知を紹
介．
• vector z と画像が結びついているので，z の方で探索するという発
想が面白いように思う．
• ただ探索方法はどうするか一考の余地がありそう．...

まとめ
• GAN は，二つの分布を一致させるような学習．
• そのために綺麗な絵を作れたりする．
• ただ問題も結構ある．
• 問題解決に向けて loss の変更や regularization term などの工夫が考案．
• GAN の ...

MIRU MIRU わかる GAN

Tomohiro Takahashi

MIRU MIRU わかる GAN