20170422 数学カフェ Part2

1. 数学カフェ「確率・統計・機械学習」（Part2） 2017年4⽉22⽇数学カフェ Yahoo! Japan コワーキングスペース LODGE 株式会社Preferred Networks ⼤野健太 oono@preferred.jp

2. アジェンダ • 汎化誤差と訓練誤差 • 汎化誤差の分解 • 近似誤差 • 最適化誤差 • 推定誤差 2

3. 問題設定とアプローチ問題設定 • 訓練データ：D = {(x1, y1), …, (xn, yn)} • 未知データ x から y を予測する予測器を作りたいアプローチ • 真のデータ分布 q が存在し、Dの各サンプルは q から独⽴同分布にサンプリングされたと仮定する：(xi, yi) ~ q i.i.d. • 仮説集合 H = {pθ | θ ∈ Θ}と損失関数 L(x, y; θ) を設定する 3

4. 汎化誤差と訓練誤差 • 汎化誤差： E (θ) = E(x, y)~q [L(x, y; θ)] • 最⼩化したいもの • qがわからないので計算出来ない • 訓練誤差： E^ (θ) = 1 / N Σi L(xi , yi ; θ) • 計算できるけれど、本当に最⼩化したいものではない • Dから決まる経験分布 q^ に関するLの期待値 E(x, y)~q^ [L(x, y; θ)] である 4 記号 • θ* : 汎化誤差最⼩解 argminθ E (θ) • θ^ : 訓練誤差最⼩解 argminθ E^(θ) • θ0 : アルゴリズムで実際に得られたパラメータ

5. KLダイバージェンス 2つの分布の間の「距離」を測る概念⼀般に距離の公理は満たさない • ⼀般にKL(q || p) ≠ KL(p || q) • 適当な条件で KL(q || p) ⇔ q = p は⾔える 5 KL(qkp) := E(x,y)⇠q  log q(x, y) p(x, y)

6. KLダイバージェンスこのスライドだけ以下の状況を考える • 損失関数は L(x, y; θ) = - log p(y | x; θ) （負の対数尤度） • p (x; θ) は θ によらず⼀定 6 KL(qkp✓) = E(x,y)⇠q  log q(x, y) p(x, y; ✓) = E(x,y)⇠q [ log p(x, y; ✓)] + const. = E(x,y)⇠q [ log p(y | x; ✓) log p(x; ✓)] + const. = E(x,y)⇠q [ log p(y | x; ✓)] + const. = E(✓) + const. このとき、汎化誤差最⼩化とKL距離最⼩化は同値

7. argminは存在して⼀意ですか？ → ⼀般的には存在性も⼀意性もNo 7 • 汎化誤差最⼩解 θ* = argminθ E (θ) • 訓練誤差最⼩解 θ^ = argminθ E^(θ)

8. ⼀意性がない（かもしれない）問題設定 8 x1 x2 x3 x4 y 0 出⼒の重みが0のユニットへの⼊⼒の重みはNNの出⼒値に影響しない

9. ⼀意性がない（かもしれない）問題設定 9 x1 x2 x3 x4 y 0 特定の2つのユニットを結合を含めて交換しても、出⼒の値は変化しない

10. 機械学習界隈は存在性・⼀意性にあまり興味がない？ • 存在性 • ⽬的関数が連続である場合が多く、パラメータ空間をコンパクトにすれば、⾃動的に存在が⾔えてしまう • アルゴリズムが有限回のステップで⽌まるなどの理由で、そもそも最⼩解がアルゴリズム的に得られない場合、存在性するかどうかは気にならない • ⼀意性 • 特定のデータセットへの適⽤時には、最⼩解の中から1つだけ得られれば⼗分な場合が多い • 後で⼀意性がないために起こる困難について少し触れます 10

11. アジェンダ • 汎化誤差と訓練誤差 • 汎化誤差の分解 • 近似誤差 • 最適化誤差 • 推定誤差 11

12. 汎化誤差の分解 [Bottou+11][得居15] 12 近似誤差推定誤差最適化誤差 • θ* : 汎化誤差最⼩解 argminθ E (θ) • θ^ : 訓練誤差最⼩解 argminθ E^(θ) • θ0 : アルゴリズムで実際に得られたパラメータ L. Bottou and O. Bousquet, “The tradeoffs of large scale learning,” In Optimization for Machine Learning, MIT Press, pp. 351‒368, 2011. 最適化から⾒たディープラーニングの考え⽅, 得居誠也, オペレーションズ・リサーチ : 経営の科学 60(4), 191-197, 2015-04-01 E(✓0) = E(✓⇤ ) + h E(ˆ✓) E(✓⇤ ) i + h E(✓0) E(ˆ✓) i

13. 13

14. Tomaso Poggioの問題提起 [Poggio+16] 14 Poggio, T., Mhaskar, H., Rosasco, L., Miranda, B., & Liao, Q. (2016). Why and When Can Deep--but Not Shallow--Networks Avoid the Curse of Dimensionality: a Review. arXiv preprint arXiv:1611.00740. https://mcgovern.mit.edu/principal-investigators/tomaso-poggio

15. 近似誤差推定誤差最適化誤差 E(✓0) = E(✓⇤ ) + h E(ˆ✓) E(✓⇤ ) i + h E(✓0) E(ˆ✓) i 仮説集合は本物の分布をどのくらい近似する能⼒があるか？

17. 普遍性定理 ([Cybenko+89] etc..) Note • 定義域の[-1, 1]dはコンパクト空間に拡張できる • [Cybenko+89]以降⾊々なバリエーションで証明されている • [Cybenko+89]ではHahn-Banachの定理とRieszの表現定理を使う。 • Nielsenによる証明が構成的で平易 17 Cybenko., G. (1989) "Approximations by superpositions of sigmoidal functions", Mathematics of Control, Signals, and Systems, 2 (4), 303-314 http://neuralnetworksanddeeplearning.com 隠れ層1層で活性化関数がシグモイド関数のNN全体は、 supノルムに関して、C([-1, 1]d)の中で稠密

18. 深層モデルのExpressibility 18 ↓COLT（機械学習・学習理論に関する国際会議）2016年の1セッション

19. Sum-Product Network [Domingos+11] • 2種類のノードを交互に積み上げたネットワーク • ⼊⼒の重み付き和を出⼒するノード • ⼊⼒の積を取るノード • 歴史的には分配関数を効率よく計算できるグラフィカルモデルは何かという問いから考えられた（らしい） 19 Poon, H. and Domingos, P. (2011). Sum-product networks: A new deep architecture. In UAIʼ2011, Barcelona, Spain.

20. 層を深くするメリット[Delalleau+11] • ⾼さ2n段、各ノードが2⼊⼒のSum-product network （=⼊⼒数4n）を2段のSum-product Networkで実現するには、1段⽬の掛け算ノードが少なくとも22^n-1個必要 (Collorary 1) 20 Delalleau, Olivier, and Yoshua Bengio. "Shallow vs. deep sum-product networks." Advances in Neural Information Processing Systems. 2011. Proposition 3でも別のタイプの多層 Sum-product networkで似た主張を⽰す多層では O(M) 個のパラメータで表現できるが、2段では O(exp(M)) 個のパラメータが必要な関数が存在する

21. 普遍性定理の問題点 • あくまで存在定理、NNの構成⽅法は⽰していない • Nielsenの証明は構成的だが、NNのパラメータを極端な値に振って構成するので、現実的なNNとは程遠い • そもそも最⼩化対象の汎化誤差は訓練データだけからは計算できない 21 近似誤差最適化誤差＋推定誤差 E(✓0) = E(✓⇤ ) + h E(ˆ✓) E(✓⇤ ) i + h E(✓0) E(ˆ✓) i アルゴリズムで得られるNNと存在定理の保証するNNはどのくらいの差があるか？

22. 近似誤差推定誤差最適化誤差 E(✓0) = E(✓⇤ ) + h E(ˆ✓) E(✓⇤ ) i + h E(✓0) E(ˆ✓) i 訓練誤差を最⼩にする理想の解と実際のアルゴリズムで得られる現実の解はどのくらい違うか？

24. 残念なお知らせ（再掲）深層学習のモデルが作る損失関数は⾮凸⼼配事1 「勾配法はsaddle pointにはまってしまうのでは！？」⼼配事2 「勾配法ではlocal minimumにしかたどりつけないのでは！？」 • Q. 深層学習のモデルが作る損失関数はどのような形をしているか？ • Q. その損失関数の最適化するのに適したアルゴリズムは何か？ 24

25. 臨界点と指数 • θ = a が関数 f : Rd→Rの臨界点 ⇔ ∇θ f (a) (= [∂i f (a)]i=1,..,d ) = 0 • 臨界点でのHessianの負の固有値の数を指数という 25 Hessian H(a) = ∇θ∇θ T f (a) ( = [∂i∂j f(a)]ij=1,…,d ) Hessianは対称⾏列 → 実数固有値を（重複度含めて）d個持つ

26. 臨界点と指数 • 関数の臨界点を指数により分類する 26 指数 = 0 極⼩（local minimum） 0< 指数 < d 鞍点（saddle point）または極⼤（local maximum）指数 = d 極⼤（local maximum）

27. プラトー 27

28. 深層モデルの損失関数のsaddle point [Dauphin+14] • 臨界点における損失関数の値と指数は正の相関がある • 損失関数の⼤きな所にある臨界点はほとんどsaddle pointでは？ • saddle pointで停留しない勾配法を提案 28 Dauphin, Yann N., et al. "Identifying and attacking the saddle point problem in high-dimensional non-convex optimization." Advances in neural information processing systems. 2014.

29. 物理モデルへの帰着ニューラルネットや⼊⼒に適当な仮定を置くことで、損失関数を適当な物理モデルのハミルトニアンの形に帰着させる • ランダムガウシアンモデル [Bray+07] • Spherical spin glass モデル [Choromanska+15] ランダム⾏列理論やが使える⼀⽅で、仮定が現実的ではないという批判もある（[Kawaguchi16]など） 29 Bray, Alan J., and David S. Dean. "Statistics of critical points of gaussian fields on large-dimensional spaces." Physical review letters 98.15 (2007): 150201. Choromanska, Anna, et al. "The Loss Surfaces of Multilayer Networks." AISTATS. 2015.

30. 深層モデルの損失関数のSaddle point [Choromanska+15]など ReLUを活性化関数とする多層パーセプトロンの損失関数を近似により spherical spin glassのエネルギー関数に帰着させて次を⽰す • ネットワークのユニット数が増えるほど、ある⼀定の値以下のエネルギー帯に含まれる臨界点のうち、指数が⼩さいもの割合が指数的に増える → local minimumを⾒つけやすいと期待できる • 臨界点は指数が⼩さいほど、低エネルギー帯に存在する確率が⾼い → local minimumに⼀度はまると、そこからglobal minimumに⾏くのは困難 30 Choromanska, Anna, et al. "The Loss Surfaces of Multilayer Networks." AISTATS. 2015.

31. Gradient-based optimization 31http://www.denizyuret.com/2015/03/alec-radfords-animations-for.html saddle pointやlocal minimumで停留しないよう様々な最適化⼿法が提案されているつい最近はSGDの分散を抑えるような⼿法（Stochastic Variance Reduced Gradient; SVRG）が流⾏っていた気がする

32. 統計多様体と特異モデル • 仮説空間として確率分布族を考える。 • Fisher 情報量が各点で⾮退化ならば、この族にはFisher情報量を計量とするリーマン多様体の構造が⼊る 32 p q Fisher 情報量 G(θ) = (Gij (θ)) ij=1,…,d Gij (θ) = E [∂i log p(x, y; θ) ∂j log p(x, y; θ)] （期待値は(x, y)~pθに関して）

33. Natural gradient [Amari+98] Gradient Descent (GD)で勾配にFisher情報量の逆⾏列を掛ける • 通常のGDはFisher情報量が潰れている箇所で移動距離が⼩さくなり、停滞してしまう • Fisher情報量の逆⾏列でキャンセルする 33 Amari, Shun-Ichi. "Natural gradient works efficiently in learning." Neural computation 10.2 (1998): 251-276. θ ← θ - η Gθ -1∇θ L(x, y; θ)

34. 残念なお知らせ：深層学習のモデルが作る損失関数は⾮凸⼼配事1 「勾配法はSaddle pointにはまってしまうのでは！？」⼼配事2 「勾配法ではlocal minimumにしかたどりつけないのでは！？」 • Q. 深層学習のモデルが作る損失関数はどのような形をしているか？ • Q. その損失関数の最適化するのに適したアルゴリズムは何か？ 34

35. 深層学習モデルの作る損失関数の Local minima [Choromanska+15] 35 Choromanska, Anna, et al. "The Loss Surfaces of Multilayer Networks." AISTATS. 2015.

36. No bad local minima theorem [Kawaguchi16], [Lu+17] • 訓練データとネットワークに関する緩い条件 • 線形NN（活性化関数が恒等関数） • 損失関数は2乗誤差 → 訓練誤差関数のlocal minimumがglobal minimumである 36 Kawaguchi, Kenji. "Deep learning without poor local minima." Advances In Neural Information Processing Systems. 2016. Lu, Haihao, and Kenji Kawaguchi. "Depth Creates No Bad Local Minima." arXiv preprint arXiv:1702.08580 (2017). 余談：local minimum = global minimumという定理は深層学習以外の⽂脈でも幾つか存在する（テンソル分解など）フルランク・固有値が相違など、ユークリッド空間でほとんど⾄る所成⽴するような条件

37. 37 Tomaso Poggio, Qianli Liao, Theory II: Landscape of the Empirical Risk in Deep Learning, arXiv:1703.09833 Poggioらは、実験結果から損失関数は右図 (A)のような形をしているという仮説を⽰している[Poggio+17]

38. 近似誤差推定誤差最適化誤差 E(✓0) = E(✓⇤ ) + h E(ˆ✓) E(✓⇤ ) i + h E(✓0) E(ˆ✓) i 汎化誤差と訓練誤差にはどのくらいの違いがあるか？

40. 汎化誤差と訓練誤差（再掲） • 汎化誤差： E (θ) = E(x, y)~q [L(x, y; θ)] • 本当に最⼩化したいもの • qがわからないのでこれを計算することは出来ない • 訓練誤差： E^ (θ) = 1 / N Σi L(xi , yi ; θ) • これならば計算できる代わりに最⼩化するもの • けれど、本当に最⼩化したいものではない 40 θ* : 汎化誤差最⼩化 θ* = argminθ E (θ) θ^ : 訓練誤差最⼩化 θ^ = argminθ E^(θ)

41. 統計的推論 41 q データ分布サンプリング (xi, yi) ~ q i.i.d D ={(xi, yi)i=1,…,n} 推定（訓練誤差最⼩解） pθ 訓練データ学習モデル pθはqに「近い」か？ • n→∞ でpθ → qか？ • 収束のスピードは？

42. 例：コイン投げ確率 θ で表(Head)が出るコインを考える。コイン投げの結果からコインの表が出る確率 θ を推定したい。問題設定 • 真の分布：q (x = H) = Ber (x | θ), 0 < θ < 1 • 訓練データ：n 回投げた結果 D ={x1, …, xn}, xi ∈ {H, T} 推定量：θ^D := (表の出た回数) / n （実はこれは最尤推定） 42 ⼀般に統計モデルとして指数型分布族を⽤いて、真の分布が統計モデル内にある（realizable）な場合、最尤推定量は有効⼀致推定量となる特に p n (ˆ✓D ✓) p ✓(1 ✓) d ! N(0, 1) n 1 2 +✏ (ˆ✓D ✓) d ! 0 （中⼼極限定理）

43. 特異モデルの統計的学習理論 NNは汎化誤差最⼩解に⼀意性がないかもしれない（特異モデル） ↓ θ^D→θ のような収束など通常の統計的学習理論での漸近解析が展開できない 43 特異モデルの統計的学習理論（渡辺澄夫先⽣の理論）には、代数幾何（特異点解消・ブローアップ）・超関数・佐藤b 関数など数学の理論がふんだんに使われている

44. Rademacher complexity 仮説空間の「複雑度」を図る指標 44 R(H, D) = E " sup h2H X i ih(zi) # = ( 1, . . . , n), i ⇠ Ber ✓ 1 2 ◆ R(H) = ED⇠q [R(H, D)] 経験 Rademacher complexity Rademacher complexity 特に、ラベル y∈{-1, +1}で、仮説空間内のモデルが確定的な関数の場合 i.e. H ⊂ {f | f : Rd → {±1}}

45. Rademacher complexityによる汎化性能の評価 45 この不等式を使ってVC次元で評価する⽅法もある推定誤差 Rademacher complexity

46. Uniform stabilityを⽤いた汎化性能の評価 [Hardt+15] 46 Hardt, Moritz, Benjamin Recht, and Yoram Singer. "Train faster, generalize better: Stability of stochastic gradient descent." arXiv preprint arXiv:1509.01240(2015). 損失関数には有界性・Lipschitz性とsmooth性しか仮定していない（⾮凸関数（NNなど）でもよい） ε-uniformly stableならば汎化性能（の期待値）を評価できる SGDで得られる予測モデルは ε-uniformly stable

47. 深層学習の汎化性能 [Zhang+16] 深層学習のモデルをでラベルをランダムなものに⼊れ替えたデータセットで学習したら訓練誤差を0にできた経験Rademacher complexityがほぼ1であることを⽰唆 47 Zhang, Chiyuan, et al. "Understanding deep learning requires rethinking generalization." arXiv preprint arXiv:1611.03530 (2016). VC次元やuniform stabilityなど、その他の汎化性能を評価する指標でも説明できないと主張ここが1だと不等式は⾃明に成⽴

48. [Zhang+16] に対する批判 • Rademacher complexityによる汎化性能の評価は、仮説集合のすべての元で成⽴する、⼀様な評価なので、これが使えないことは統計的学習理論の⽅ではよく知られていた（ということを講演者は最近知った） • その他には[David+17][Akiba17]などによる後続検証がある 48 David Krueger et al, Deep Nets Don't Learn via Memorization, ICLR2017 workshop https://medium.com/@iwiwi/it-is-not-only-deep-learning-that-requires-rethinking- generalization-32ec7062d0b3 深層学習の汎化性能は⽐較的まだ理論解析されていない

49. まとめ • 汎化誤差は近似誤差・最適化誤差・推定誤差の3つに分解できます • 普遍性定理により隠れ層が1層のNNも⼗分表現能⼒が⾼いですが、層を増やすことで「効率的」に関数を近似できます • 深層学習モデルの訓練について、理論的には損失関数の臨界点の分布が調べられていて、勾配法（orその改良）の性能の良さを理論的に説明する試みがされています • 汎化性能はRademacher複雑性・Uniform stabilityなどのよる保証がありますが、深層学習の汎化性能に関しては未解決な問題が多いです 49

50. 数学と機械学習数学と物理の関係 • 数学の⾔葉を⽤いて物理を厳密に記述する • 超関数・ヒルベルト空間・リーマン多様体 etc. • 物理の問題や考え⽅から新しい数学を開発する • 数論的⼒学系・エルゴード理論・頂点作⽤素代数 etc. • 同じような関係を機械学習と数学の間に構築することはできないか？ 50

51. 今⽇話せなかったこと（機械学習編） • ベイズ機械学習 • Graphical model, Ising model • HMM • 混合ガウス分布, EMアルゴリズム • クラスタリング, K means • 変分ベイズ • SVM • 情報量基準（AIC, BIC, WAIC） • ⼀般線形モデル • スパースモデル • カーネル法, 再⽣核ヒルベルト空間 • サンプリング（MCMC） 51 • 特徴選択 • 正則化 • 実装（scikit-learnなど） • 分散機械学習 • オンライン機械学習 • 強化学習, バンディット

52. 今⽇話せなかったこと（深層学習編） • 具体的なモデル（CNN, DNN） • 深層モデルの正則化（regularization） • 深層モデルの正規化（normalization） • 深層⽣成モデル、GAN、密度⽐推定 • 変分推定、VAE、ADVI • 深層学習フレームワークの実装（Chainer, TensorFlow, etc.） • ベイズ深層学習とその実装（Stan, PyMC, Edward etc.） 52

53. 準備できたら話す 53

54. 層を深くするメリット[Mhaskar+16] • [Mhaskar+16 , Theorem 1] 54 Mhaskar, Hrushikesh, Qianli Liao, and Tomaso Poggio. "Learning functions: When is deep better than shallow." arXiv preprint arXiv:1603.00988 (2016).

55. 統計多様体と特異モデル NNのアーキテクチャを1つ固定して、そのNNで実現できる確率分布からなる統計モデルはFisher情報が⾮退化（パラメータを微⼩に動かしても、表現する確率分布が変化しない） • 統計多様体が次の条件を満たす時、滑らかという • Fisher情報量が各点で⾮退化 • θ->p(・; θ)が単射 • 統計多様体が滑らかでない時、特異であるという 55

56. 適応⾃然勾配法 [Amari+00] [Park+00] • Fisher情報量の逆⾏列の計算が重いので、それをオンラインで推定したものを使う、適応⾃然勾配法という⼿法もある 56 Amari, Shun-Ichi, Hyeyoung Park, and Kenji Fukumizu. "Adaptive method of realizing natural gradient learning for multilayer perceptrons." Neural Computation 12.6 (2000): 1399-1409. Park, Hyeyoung, S-I. Amari, and Kenji Fukumizu. "Adaptive natural gradient learning algorithms for various stochastic models." Neural Networks 13.7 (2000): 755-764.

20170422 数学カフェ Part2

Kenta OONO

20170422 数学カフェ Part2