5.
少しずつ損失関数の勾配方向へパラメータを更新
◦ : 関数 のパラメータ
◦ : 微小な正の実数 (学習率)
パラメータを更新するタイミングはいろいろ
◦ 最近の手法では、基本的には1サンプルごとに更新
5
xf
w
w
w
ww
L
wL
w
w
w
L
15.
ある論文の冒頭 [Simard et al., ICDAR 2003]
After being extremely popular in the early 1990s, neural networks have
fallen out of favor in research in the last 5 years. In 2000, it was even
pointed out by the organizers of the Neural Information Processing
System (NIPS) conference that the term “neural networks” in the
submission title was negatively correlated with acceptance. In contrast,
positive correlations were made with support vector machines (SVMs),
Bayesian networks, and variational methods.
15
17.
“We are withdrawing it for three reasons: 1) the scores are so low,
and the reviews so ridiculous, that I don't know how to begin writing
a rebuttal without insulting the reviewers; 2) we prefer to submit
the paper to ICML where it might be better received. (中略)
Getting papers about feature learning accepted at vision conference
has always been a struggle, and I‘ve had more than my share of bad
reviews over the years. Thankfully, quite a few of my papers were
rescued by area chairs. (中略)
This time though, the reviewers were particularly clueless, or
negatively biased, or both. (中略)
So, I‘m giving up on submitting to computer vision conferences
altogether. CV reviewers are just too likely to be clueless or
hostile towards our brand of methods. Submitting our papers is just
a waste of everyone’s time (中略)
Regardless, I actually have a keynote talk at [Machine Learning
Conference], where I'll be talking about the results in this paper.”
17
18.
18
Figure from
[Ramanan et al, ICCV’09]
2004
カテゴリ数:10^2
サンプル数: 10^3~10^4
19.
19
Figure from
Russakovsky et al.,
ILSVRC’14 slides.
2010
カテゴリ数:10^3~10^4
サンプル数: 10^6~10^7
36.
畳み込みニューラルネットワーク (ConvNet)
◦ 脳の視覚野の構造を模倣した多層パーセプトロン
◦ ニューロン間の結合を局所に限定(パラメータ数の大幅な削減)
最初に基本構造が提案されたのは実はかなり昔
◦ ネオコグニトロン (福島邦彦先生、1980年代前後)
36
[A. Krizhevsky et al., NIPS’12]
Kunihiko Fukushima, “Neocognitron: A Self-organizing Neural
Network Model for a Mechanism of Pattern Recognition
Unaffected by Shift in Position“, Biological Cybernetics, 36(4):
93-202, 1980.
37.
局所領域(受容野)の畳み込みとプーリングを繰り返す多層
ネットワーク
◦ 段階的に解像度を落としながら、局所的な相関パターンを抽出
◦ 要するに、さまざまな解像度での特徴の共起をみている
◦ 誤差逆伝播法による全体最適化
37
Y. LeCun, L. Bottou, Y. Bengio and P. Haffner: Gradient-Based Learning Applied
to Document Recognition, Proceedings of the IEEE, 86(11):2278-2324, 1998.
最終的に、識別したいクラス数
と同数のニューロンへ
40.
層を上るにつれ、クラスの分離性能が上がる
40
第1層 第6層
ILSVRC’12 の
validation data
(色は各クラスを示す)
J. Donahue et al., “DeCAF: A Deep Convolutional Activation Feature for Generic
Visual Recognition”, In Proc. ICML, 2014.
41.
41
Matthew D. Zeiler and Rob Fergus, “Visualizing and Understanding
Convolutional Networks”, In Proc. ECCV, 2014.
42.
42
Matthew D. Zeiler and Rob Fergus, “Visualizing and Understanding
Convolutional Networks”, In Proc. ECCV, 2014.
46.
確率的勾配降下法 (stochastic gradient descent, SGD)
※深層学習のために出てきたものではない
◦ 1サンプルごとに目的関数の勾配を出し、重みを更新
◦ 学習が圧倒的に高速化
(注意)学習サンプルはシャッフルしておくこと
最急降下法
確率的勾配降下法
46
N
i
iL
1 w
ww
w
ww
iL
47.
ある程度サンプルを束ねて更新
バッチ内のサンプルの評価は並列化可能
◦ 一般にSGDの並列化は難しいが、GPUの実装法まで含めて研究が
進められている
Coates et al., “Deep learning with COTS HPC systems”, ICML’13
47
B
i
iL
B 1
1
w
ww
51.
現在、画像認識において最も性能がよいアーキテクチャ
◦ ILSVRC’14トップのGoogleチームもNINがベース
活性化関数自体を多層パーセプトロンで学習(Maxoutの一般化)
最後に全結合層をおかなくても十分な性能
◦ 見た目は複雑だが実はパラメータ数は減っている
51
Maxoutはここで最大値
をとるだけ(固定的)
Min Lin et al., “Network In
Network”, In Proc. ICLR, 2014.
52.
実装上、1x1の畳み込み層を重ねることと等価
(本来の意味で畳み込みではないが)
Deep learning的にはこちらの解釈の方が自然
52
活性化関数はいずれもReLU
http://www.image-
net.org/challenges
/LSVRC/2014/slide
s/ILSVRC2014_NUS
_release.pdf
Min Lin et al., “Network In
Network”, In Proc. ICLR, 2014.
53.
GoogLeNet (22層)
◦ NINベース
◦ ILSVRC 2014 で優勝
◦ 独自の並列分散フレームワークで学習
53
Convolution
Pooling
Softmax
Other
http://www.image-net.org/challenges/LSVRC/2014/slides/GoogLeNet.pptx
Szegedy et al., “Going Deeper with Convolutions”, In Proc. CVPR, 2015.
55.
ILSVRC 2014
で第二位
55
Simonyan and Zisserman, “Very deep convolutional networks
for large-scale image recognition”, In Proc. ICLR, 2015.
3x3の畳み込み層
を積み上げ
段階的に層を追加
56.
Inception アーキテクチャ (GoogLeNet)
◦ 複数の畳み込みフィルタを並列に用いる
◦ 1x1のフィルタでよりdeepに + 次元削減
56
Szegedy et al., “Going Deeper with Convolutions”, In Proc. CVPR, 2015.
57.
57
Liao and Carneiro, “On the Importance of Normalisation Layers in Deep Learning
with Piecewise Linear Activation Units”, arXiv, 2015.
67.
CNNのパラメータの大半は全結合層に集中
◦ あくまで一層内の線形結合。非線形性は増えない。
◦ ないよりはあった方がよいが、割に合わない?(タスクによりそう)
NIN, GoogLeNet は全結合層を持たない
◦ 最終層の平均値プーリングをとり、そのままsoft maxへ入力
67
Min Lin et al., “Network In Network”, In Proc. ICLR, 2014.
73.
深層学習ブームの火付け役となった成果
◦ Hinton and Salakhutdinov, “Reducing the dimensionality of data with neural networks”, Science, Vol.
313, No. 5786, pp. 504 - 507, 2006.
◦ 一層ごとに、restricted Boltzmann machine (RBM)を用いて生成的に初期化
◦ 全層通した学習を収束させやすくなる&過学習しにくくなる効果がある?
単純なパーセプトロンでない、さまざまな生成モデルネットワークが提案され、
一時代を築く
73
可視層
隠れ層
1,0
,...,1
l
T
L
v
vvv
1,0
,...,1
m
T
M
h
hhh
v
hWRBM
74.
尤度
を最大とするようにパラメータを
勾配法で学習
CD法(Contrasive Divergence)
による近似を用いる
Restricted Boltzmann machine (RBM)
◦ 可視層(入力)と隠れ層(圧縮表現)からなる無向二部グラフ
74
可視層
隠れ層
1,0
,...,1
l
T
L
v
vvv
1,0
,...,1
m
T
M
h
hhh
v
hW
同時確率分布:
Z
E
p
hv
hv
,exp
,
Whvhcvbhv TTT
E ,
エネルギー:
Wcb ,,パラメータ
h
hvv ,pp
75.
Autoencoder
◦ 入力を復元する二層のニューラルネット
◦ 隠れ層のニューロン数は入力層より少ない
◦ 正則化が重要(Sparse AE, Denoising AE, etc.)
75
入力層
隠れ層
出力層(復元)x
z
y
bWxz f
bzWy f
Encoder:
Decoder:
T
WW
とすることが多い
(tied weights)
最終的にはここだけ使う
76.
9層のautoencoder
1000万枚のYouTube画像から教師なし事前学習
これを初期状態として識別的学習を始める
ことで識別精度向上
76
Le et al., “Building High-level Features Using Large Scale Unsupervised Learning”, ICML’12.
人の顔に特異的に反応するニューロンが
自動的に獲得された (他、猫なども)
≒“おばあちゃんニューロン”?
83.
Drop connect [Wan et al., ICML’13]
◦ ニューロンではなく、結合をランダムに落とす
Adaptive dropout [Ba et al., NIPS’13]
◦ Dropoutで落とすニューロンをランダムでなく適応的に選択する
83
84.
各層で、ミニバッチごとに入力を正規化
◦ 低層の変化に伴う入力の共変量シフトに追従
◦ 学習を約14倍高速化、精度向上 (特に最近の超多層モデルで効果を発揮)
84
Ioffe and Szegedy, “Batch Normalization: Accelerating Deep Network Training by Reducing
Internal Covariate Shift”, In Proc. ICML, 2015.
学習
112.
Categorization (カテゴリ識別)
◦ 映ってる物体の名称を答える
◦ 物体の位置を答える必要はない
Detection (物体検出)
◦ 矩形で物体の位置を切り出す
Semantic Segmentation
◦ ピクセルレベルで物体領域を認識
112
horse
human
horse
human
horse
human
易
難
113.
R-CNN [Girshick et al., CVPR’2014]
◦ 物体の領域候補を多数抽出(これ自体は別手法)
◦ 無理やり領域を正規化し、CNNで特徴抽出
◦ SVMで各領域を識別
113
Girshick et al., “Rich feature hierarchies for accurate object detection
and semantic segmentation”, In Proc. CVPR, 2014.
114.
114
ランダムに選んだテスト画像の認識結果
(いいところだけ見せているのではない!)
Girshick et al., “Rich feature hierarchies for
accurate object detection and semantic
segmentation”, In Proc. CVPR, 2014.
119.
2014年11月、同時多発的にいろんなグループが発表
◦ arXivで公開 (CVPR 2015へ投稿)
◦ Recurrent Neural Network (RNN) が言語モデルとして大人気
Google
◦ O. Vinyals et al., “Show and Tell: A Neural Image Caption Generator”, 2014.
Microsoft
◦ H. Fang et al., “From Captions to Visual Concepts and Back”, 2014.
Stanford
◦ A. Karpathy and L. Fei-Fei, “Deep Visual-Semantic Alignments for Generating Image
Descriptions”, 2014.
UC Berkeley
◦ J. Donahue et al., “Long-term Recurrent Convolutional Networks for Visual
Recognition and Description”, 2014.
Univ. Toronto
◦ R. Kiros et al., “Unifying Visual-Semantic Embeddings with Multimodal Neural Language
Models”, 2014
119
120.
Microsoft COCO [Lin et al., 2014] 30万枚以上
SBU Captioned Photo Dataset [Ordonez et al., 2011] 100万枚
120
123.
Sequence two sequence [Sutskever+, NIPS’14]
◦ 二つのRNN (LSTM) を接続し、英語・フランス語単語列の
入出力関係を学習
123
Sutskever et al., “Sequence to Sequence Learning
with Neural Networks”, In Proc. NIPS, 2014.
(英語)
(フランス語)
入力用ネットワーク 出力用ネットワーク
124.
CNN (画像側)の出力をRNN(言語側)へ接続
◦ RNN側の誤差をCNN側までフィードバック
124
O. Vinyals et al., “Show and Tell: A Neural Image Caption Generator”, In Proc. CVPR, 2015.
125.
領域ベース (RCNNを利用)
125
A. Karpathy and L. Fei-Fei, “Deep Visual-Semantic Alignments
for Generating Image Descriptions”, In Proc. CVPR, 2015.
126.
126
共通の上位レイヤ(潜在空間)へマッピング [Kiros et al., 2014]
◦ 異なるモダリティ間での“演算”が可能
R. Kiros et al., “Unifying Visual-Semantic Embeddings with
Multimodal Neural Language Models”, TACL, 2015.
129.
LSTMを用いた質問入力と回答の対応関係学習
129
H. Gao et al., “Are You Talking to a Machine? Dataset and Methods for
Multilingual Image Question Answering”, 2015.
M. Ren et al., “Image Question Answering:
A Visual Semantic Embedding Model and
a New Dataset”, 2015.
130.
NNを使った機械翻訳モデルの応用
質問文に加え、CNN対象画像の特徴抽出を行い、
回答文生成のRNNへ入力
130
H. Gao et al., “Are You Talking to a Machine? Dataset and Methods for
Multilingual Image Question Answering”, 2015.
131.
入力の“どこ”へ注目するか
◦ 画像認識に限らず、深層学習全体でホットなトピック
131
Mnih et al., “Recurrent Models of Visual Attention”, In Proc. NIPS, 2014.
注目領域(中心)
の遷移
132.
RNNによる文章生成において、各単語の出力に対応する画像領域に
アテンションをかける
132
Xu et al., “Show, Attend and Tell: Neural Image Caption Generation with Visual Attention”,
In Proc. ICML, 2015.
133.
133
Xu et al., “Show, Attend and Tell: Neural Image Caption Generation with Visual Attention”,
In Proc. ICML, 2015.
135.
Deep Q-learning [Mnih et al, NIPS’13, Nature’15]
◦ DeepMind (Googleに買収されたベンチャー)の発表
◦ 強化学習の報酬系に畳み込みネットワークを接続(生画像を入力)
◦ アタリのクラッシックゲームで人間を超える腕前
135
Mnih et al., “Human-Level Control Through
Deep Reinforcement Learning”,
Nature, 518(7540):529–533, 2015.
136.
人工的に生成した、各カテゴリに強い反応を示す画像の例
学習した知識の隙を突くことでたやすく騙せる(脆弱性?)
136
Nguyen et al., “Deep Neural Networks are Easily Fooled: High Confidence
Predictions for Unrecognizable Images”, In Proc. CVPR, 2015.
≧ 99.6%
certainty
137.
入力画像をわずかに変化させることで、CNNの認識結果を変化させる
ことができる
◦ ワーストケースの方向へ引っ張る
137
Goodfellow et al., “Explaining and harnessing adversarial examples”,
In Proc. of ICLR, 2015.
138.
138
Szegedy et al., “Intriguing properties of neural networks”, 2014.
Correct “Ostrich”Perturbation Correct “Ostrich”Perturbation
141.
生成モデルの構築にDNNを利用 [Kingma et al., NIPS’14]
141
クエリ 自動生成された画像
Kingma et al., “Semi-supervised Learning with
Deep Generative Models”, In Proc. of NIPS, 2014.
142.
Generative adversarial nets [Goodfellow et al., 2014] [Denton et al., 2015]
◦ 訓練サンプル集合とできるだけ“見分けにくい”画像を作る生成モデルを学習
142
Facebook AI Researchの
最新の発表(6月)では、
生成したサンプルの約40%が
人間の評価者に本物の画像と
間違われる!
Denton et al., “Deep Generative
Image Models using a Laplacian
Pyramid of Adversarial Networks”,
arXiv preprint, 2015.
143.
生成的CNNを使った補間画像生成 [Dosovitskiy et al., 2015]
143
モデル1 モデル2生成された補間画像
Dosovitskiy et al., “Learning to Generate Chairs with Convolutional
Neural Networks”, In Proc. CVPR, 2015.
クラス、角度、
etc.
144.
格子状にRNN-LSTM素子を配置し、縦横に操作
CNNと同様の構造が自然に入るが、画像全体の情報を加味して畳み込
みフィルタが学習される点が異なる
最新のCNNと互角の識別性能
144
Visin et al., “ReNet: A Recurrent Neural Network Based Alternative to
Convolutional Networks”, arXiv, 2015.
Clipping is a handy way to collect and organize the most important slides from a presentation. You can keep your great finds in clipboards organized around topics.
Be the first to comment