深層学習モデルを用いたノンパラメトリック回帰問題に関する最近の研究

大野 健太
エンジニア

2019-11-05 11:03:46

図1:ReLU-MLPによる2次関数の近似.このネットワークを用いるとHölder関数を効率的に近似できる([Yarotsky, 2017]より引用)

 

深層学習モデルはこれまで様々な機械学習タスクにおいて成功を収めてきています.それに触発され,深層学習モデルの成功要因を理論面から解明する試みが盛んに行われています.特に深層学習の理論研究(特に統計的学習理論と呼ばれる分野)では,主に3つの問題提起がなされ,それに対する様々な回答がなされています [Poggio et al., 2016]:

  • 表現能力:深層学習モデルはどんな関数を(効率的に)推定できるのか [Cybenko, 1989; Telgarsky, 2016; Eldan and Shamir, 2016; Sonoda and Murata, 2017]
  • 最適化:なぜ(確率的)勾配法が「良い」解を見つけることができるのか [Li et al., 2017; Jacot et al, 2018; Du et al., 2018; Allen-Zhu et al., 2018]
  • 汎化能力:深層学習モデルは多数のパラメータを持つにも関わらず,なぜ過学習せずに汎化するのか [Hardt et al., 2016; Belkin et al., 2018; Arora et al., 2018]

(関連文献を網羅することはできませんので代表的な研究や最近注目されている論文のみを挙げました,それぞれのトピックに興味のある方は上記の論文の関連研究を参照ください.また,[Suzuki, 2019b]も参考にしてください)本稿では,ノンパラメトリックな回帰問題における,表現能力と汎化性能に関する一連の研究を紹介します.

 

問題設定

問題設定を正確に記述するため,いくつか記号を導入します.XD次元の入力とし(簡単のため各次元は[0, 1]に値を取るとします),出力YY=f(X)+ξという関数で与えられると仮定します.ここで,fは推定したい対象の未知関数,ξは適当な仮定を満たすノイズ(例えばガウシアンノイズなど)です.また,回帰の問題を考えるので,Yは1次元の実数値とします.ここでの目標は,fに適当な仮定(例えば関数の滑らかさなど)を置いた時,未知分布から独立同分布でサンプリングされた入出力の組(Xi, Yi)(i=1, …, N)から,fを推定することです.

 

深層モデルのミニマックス最適性

Yarotskyは,未知関数fがHölder関数というある種の滑らかさを持つ関数である場合,ReLUを活性化関数として持つ多層パーセプトロン(ReLU-MLP)が,効率的に(つまり,少ないパラメータ数で)fを近似できることを示しました [Yarotsky, 2017].この論文の証明技法はReLUを用いた深層モデルのノンパラメトリック回帰に関する一連の研究で頻繁に利用されています(図1).Yarotskyの結果を用いて,Schmidt-Hieberは,未知関数fがHolder関数である場合に,ReLU-MLPは(logのオーダーを無視して)「ミニマックス最適」という,未知関数の推定に関するある種の理論的限界を達成できることを示しました(ミニマックス最適性は推定量の「良さ」を判定する基準で,統計学などでよく利用されます) [Schmidt-Hieber, 2017].Schmidt-Hieberは,その最適性を達成できるReLU-MLPの深さや幅も決定しています(ただし,それには未知関数fがどの程度滑らかかという情報が必要です).畳み込みニューラルネットワーク(CNN)に関しても,活性化関数がReLUの場合,ReLU-MLPと同じオーダーのパラメータ数で同じ関数を表現できることも示されています [Petersen and Voigtlaender, 2018] (正確に言うとReLU-MLPで表現した関数の同変バージョンを表現します).インフォーマルに言えば,ネットワークのパラメータ数のオーダーが同じ場合,ReLU-CNNはReLU-MLPと少なくとも同等以上の表現能力と予測性能を持つことを示しています.

 

深層モデルの優越性

Yarotsky, Schmidt-Hieberによる解析はノンパラメトリック回帰問題における深層モデルのミニマックス最適性を示したという点で画期的でした.しかし,カーネル法など他の機械学習の手法でも,同様にミニマックス最適性が達成できることが知られています.そのため,これだけでは「なぜ深層学習が他手法に比べて良いか」に対する回答としては不十分でした.すると次に「どのような未知関数ならば,深層モデルの構造が他手法を優越するか」という問いが自然に生じます.これに関しては,日本の研究グループが成果を挙げています.例えば未知関数が「区分的に滑らかな関数」[Imaizumi and Fukumizu, 2017],「Besov関数」[Suzuki, 2019; Suzuki and Nitanda, 2019],「ステップ関数」[Hayakawa and Suzuki, 2019]の場合,深層モデルはミニマックス最適性を達成できるが,カーネル法などの手法は一般には達成できないことが示されています.これらの解析に共通するのは,真の関数がある種の不連続さを持つ場合,深層モデルがその他の手法を優越しやすいという結果が得られているということです(図2).

図2:区分的に滑らかな関数の例.個々の小領域では滑らかであるが,領域の境界で不連続点を許容する ([Imaizumi and Fukumizu, 2017] より引用)

 

ResNet構造を持つ深層モデルの最適性

Yarotsky, Schmidt-Hieberの解析のもう一つの欠点は,理論的限界(ミニマックス最適)を達成できる最適なネットワークを得る手段が現実的とは言いづらい点です.理論的に最適なネットワークは「ネットワークが持てる最大の非ゼロパラメータを固定し,その非ゼロパラメータ数で実現できるネットワークのうち経験誤差を最小化するもの」として得られます(幅や深さなどのアーキテクチャは一つ固定します).具体的には,全パラメータのうち 100 × O(N^{-α})%のパラメータのみが非ゼロでなければなりません.ここで,Nはサンプル数,αは未知関数の滑らかさによって決まる正の定数です.これは,確率的勾配降下法(SGD)など,パラメータがスパースにならない一般の深層学習の訓練を説明できていません.この問題に関しては,通常のReLU-MLPやReLU-CNNではなく,ResNet構造を持つネットワークを考えると,そのような不自然なスパース性を仮定せず,単純に経験誤差最小解を取るだけでミニマックス最適性を達成できることを我々は示しました [Oono and Suzuki, 2019].証明においてキーとなるのは,Yarotskyの方法で得られる最適なネットワークはスパースなのですが,ランダムに非ゼロの重みの配置されているのではなく,「ブロックスパース」とでも呼ぶべき特殊なスパース構造を持っていることです.その構造をうまく利用すると,ミニマック最適性を保ったまま,ブロックスパースなネットワークを密なResNet構造を持つネットワークに変換することができます(図3).この論文に関しては,先日開催されたICLR/ICML2019読み会で発表しましたので,そちらのスライドもご参照ください:

 

図3:ブロックスパース構造を持つネットワークからResNet型のネットワークへの変換.前者のミニマック最適性から後者のミニマック最適性が導かれる.

まとめ

本エントリでは,深層学習の理論研究の一例として,深層モデルを用いたノンパラメトリック回帰問題に関する研究を紹介しました.深層モデルの理論解析は,日進月歩で進んでおり,この1, 2年だけでも,「Neural Tangent Kernel(NTK)」「過剰パラメータネットワーク(overparametrized)の大域解への収束」「二重降下(double descent)現象」「ネットワークの内在的次元(intrinsic dimension)による汎化性能改善」「グラフネットワーク(もしくはそれを一般化した不変ネットワーク)の表現能力」などさまざまなトピックが議論されています(機会があれば自分の勉強のためにもこのようなトピックについて解説したいと思っています).本エントリがそのような理論研究の理解の一助になれば幸いです.

参考文献

  • [Allen-Zhu et al., 2019] Zeyuan Allen-Zhu, Yuanzhi Li, and Zhao Song. A convergence theory for deep learning via over-parameterization. In Proceedings of the 36th International Conference on Machine Learning, volume 97 of Proceedings of Machine Learning Research, pages 242–252, 2019. PMLR.
  • [Arora et al., 2018] Sanjeev Arora, Rong Ge, Behnam Neyshabur, and Yi Zhang. Stronger generalization bounds for deep nets via a compression approach. In Proceedings of the 35th Interna- tional Conference on Machine Learning, volume 80 of Proceedings of Machine Learning Research, pages 254–263. PMLR, 2018.
  • [Belkin et al., 2018] Mikhail Belkin, Daniel Hsu, Siyuan Ma, and Soumik Mandal. Reconciling modern machine learning and the bias-variance trade-off. arXiv preprint arXiv:1812.11118, 2018.
  • [Cybenko, 1989] George Cybenko. Approximation by superpositions of a sigmoidal function. Mathematics of control, signals and systems, 2(4):303–314, 1989.
  • [Du et al, 2019] Simon S. Du, Xiyu Zhai, Barnabas Poczos, and Aarti Singh. Gradient descent provably optimizes over-parameterized neural networks. In International Conference on Learning Representations, 2019.
  • [Eldan and Shamir, 2016] Ronen Eldan and Ohad Shamir. The power of depth for feedforward neural networks. 29th Annual Conference on Learning Theory, volume 49 of Proceedings of Machine Learning Research, pages 907– 940, 2016.
  • [Hardt et al., 2016] Moritz Hardt, Ben Recht, and Yoram Singer. Train faster, generalize better: Stability of stochastic gradient descent. Proceedings of The 33rd International Conference on Machine Learning, volume 48 of Proceedings of Machine Learning Research, pages 1225–1234, 2016.
  • [Hayakawa and Suzuki, 2019] Satoshi Hayakawa and Taiji Suzuki. On the minimax optimality and superiority of deep neural network learning over sparse parameter spaces. arXiv preprint arXiv:1905.09195, 2019.
  • [Imaizumi and Fukumizu, 2018] Masaaki Imaizumi and Kenji Fukumizu. Deep neural networks learn non-smooth functions effectively. arXiv preprint arXiv:1802.04474, 2018.
  • [Jacot et al., 2018] Arthur Jacot, Franck Gabriel, and Clement Hongler. Neural tangent kernel: Convergence and generalization in neural networks. Advances in Neural Information Process- ing Systems 31, pages 8571–8580. 2018.
  • [Li et al., 2018] Hao Li, Zheng Xu, Gavin Taylor, Christoph Studer, and Tom Goldstein. Visualizing the loss landscape of neural nets. Advances in Neural Information Processing Systems 31, pages 6389–6399. 2018.
  • [Oono and Suzuki] Kenta Oono and Taiji Suzuki. Approximation and non-parametric estimation of ResNet-type convolutional neural networks. Proceedings of the 36th International Conference on Machine Learning, volume 97of Proceedings of Machine Learning Research, pages 4922–4931, 2019
  • [Petersen and Voigtlaender, 2018] Philipp Petersen and Felix Voigtlaender. Equivalence of approximation by convolutional neural networks and fully-connected networks. arXiv preprint arXiv:1809.00973, 2018.
  • [Schmidt-Hieber, 2017] Johannes Schmidt-Hieber. Nonparametric regression using deep neural networks with relu activation function. arXiv preprint arXiv:1708.06633, 2017. To appear in the Annals of Statistics.
  • [Sonoda and Murata, 2017] Sho Sonoda and Noboru Murata. Neural network with unbounded activation functions is universal approximator. Applied and Computational Harmonic Analysis, 43(2):233–268, 2017.
  • [Suzuki, 2019a] Taiji Suzuki. Adaptivity of deep ReLU network for learning in besov and mixed smooth besov spaces: optimal rate and curse of dimensionality. In International Conference on Learning Representations, 2019.
  • [Suzuki, 2019b] 鈴木大慈,深層学習の数理,https://www.slideshare.net/trinmu/ss-161240890
  • [Suzuki and Nitanda, 2019] Taiji Suzuki and Atsushi Nitanda. Deep learning is adaptive to intrinsic dimensionality of model smoothness in anisotropic Besov space. arXiv preprint arXiv:1910.12799, 2019.
  • [Telgarsky, 2016] Matus Telgarsky. benefits of depth in neural networks. I29th Annual Conference on Learning Theory, volume 49, pages 1517–1539. 2016.
  • [Yarotsky, 2017] Dmitry Yarotsky. Error bounds for approximations with deep ReLU networks. Neural Networks, 94:103–114, 2017.

Leave a Reply