ニューラルネットワークって何かな〜って調べていたら普遍性定理(universal approximation theorem)という面白そうなものを見つけたのでCybenkoさんの有名な論文で証明を追ってみました。日本語でこの定理の証明まで書いてくれているところはざっと見た感じ無かったのでTeX打ちの練習も兼ねてQiitaに纏めてみようってことでこの記事を書きました。この記事ではCybenkoさんの論文を少し一般化した普遍性定理を述べます。証明はほとんどCybenkoさんによる証明に基づいています(一部修正しているくらい)。
この記事の目的は皆さんに普遍性定理の内容と証明を伝えることなのですが、証明に使う数学はそれなりに高級で誰でも読めるように書くのは難しかったので、以下に挙げる3つの分野すべてに少しでも触れたことがある人を読者として想定しています。
- 位相空間論
- 測度論・積分論
- 関数解析学
ただし、詳しく知っていなくても大丈夫なように書いたつもりです。
普遍性定理とは
まず定理の内容を記述するためにいくつかの記号と言葉を定義します。この記事を通して、をコンパクト連結集合とし、上の実数値連続関数全体の集合をで表すことにします。
定義1(sigmoidal関数)
関数 が次の条件をみたすとき、sigmoidal関数と呼ぶことにします:
以下が普遍性定理のステートメントです。
普遍性定理
を連続なsigmoidal関数とすると、という形をした上の関数全体の集合はで稠密になる。すなわち、任意の と任意の正数に対して、上の形をした関数を適当に持ってくればが成立する。ただしであり、は内積である。
つまり、与えられた連続関数を所望の精度で近似できる入力層、隠れ層1層、出力層の合計3層のニューラルネットワークが必ず存在するよということです(ただし隠れ層のノード数は大きく取らないといけないかもしれない)。この定理の感覚的な理解のためには cfikenさんの記事(ニューラルネットワークにおけるUniversal Approximation Theorem(普遍性定理)について)の「イメージの理解」の節も参考になると思います。この普遍性定理は初めに挙げた分野における基本的かつ重要な定理である、優収束定理、Hahn-Banachの拡張定理、Riesz-Markov-角谷の表現定理、Stone-Weierstrassの定理を使って証明されます。そこで、これらの定理の主張を理解できるようになることを目標にして、以下で定義からそのステートメントまでを見ていくことにしましょう。また、これらの定理の系で、普遍性定理の証明の中で使われるものについても見ていきましょう。十分知ってるよという人は普遍性定理の証明の節に一気に飛んでもらって大丈夫です。なお、これらの定理の証明は『関数解析』(横浜図書、宮島静雄)に大体載っています(定義やステートメントはこの本を参考にしています)。ただし、定理の系のうちこの本に載っていないものなどの証明については後日まとめるつもりです。
優収束定理
ルベーグ式の積分の定義は既に知っているものとします。
優収束定理
を測度空間とする。が上の可測関数列で、関数 に各点収束し、かつある上の可積分関数が存在して任意のに対してが成り立つならば、は可積分で、が成り立つ。
次の系の成立は明らかでしょう。
系(有界収束定理)
を有限測度空間とする。が上の可測関数列で、関数 に各点収束し、かつある正数が存在して任意のに対してが成り立つならば、は可積分で、が成り立つ。
Hahn-Banachの拡張定理
定義2(劣線形汎関数)
を上のベクトル空間とする。写像が劣線形であるとは、以下の2つの条件が成り立つことを言います:
例えば、ノルム空間においてノルムは劣線形汎関数です。Hahn-Banachの定理は線形部分空間上の線形汎関数は劣線形汎関数に支配されているのであればいい感じに拡張できるよって主張です。正確には以下の通りです。
Hahn-Banachの拡張定理
を上のベクトル空間、を線形部分空間、を劣線形汎関数とするとき、線形汎関数が をみたすならば、線形汎関数であって、上でとなり、上でとなるものが存在する。
優収束定理もそうですが、有限の広がりしか持ち得ないときには都合の良い性質が成り立つことが多いのですね。Hahn-Banachの拡張定理の応用例を1つ見てみましょう(普遍性定理の証明に使います)。
定義3
をノルム空間とするとき、写像が有界であるとは、ある が存在して、が成り立つことを言います。系
を上のノルム空間、を線形部分空間とする。もしのにおける閉包がと一致しなければ、上の有界線形汎関数で、 なるものが存在する。
Riesz-Markov-角谷の表現定理
この節ではまず符号付き測度及びそれによる積分の定義を非負値の測度の知識を前提にして述べます。その後、符号付きBorel測度の定義を述べ、Riesz-Markov-角谷の表現定理の主張を述べます。
定義4(符号付き測度)
を可測空間とします。写像 が次の条件をみたすときをを上の符号付き測度と呼ぶことにします:
の元の列が互いに素であるならばとなる。
以下の事実に基づき符号付き測度による積分を定義します(Hahn分解などを知っている方は「ん?」となるかもですがちゃんと一致します)。
事実
を可測空間上の符号付き測度とするとき、に対して、
とおくと、は上の有限測度となり、 が成立する。定義5
を可測空間上の符号付き測度とするとき、に対して、に関するの積分を以下で定めます。
Borel測度の定義から正則符号付きBorel測度の定義まで一気に述べてしまいましょう。
定義6(Borel測度)
を位相空間とし、をを含む最小の上の完全加法族とします。このとき可測空間上の測度を上のBorel測度と呼ぶことにします。定義7(正則Borel測度)
定義6と同じ設定とします。位相空間上のBorel測度は以下の条件をみたすとき正則であると言われます:
定義8(正則符号付きBorel測度)
定義6と同じ設定とします。上の符号付き測度 はがともに上の正則Borel測度になるとき、上の正則符号付き測度と呼ばれます。
なお、文脈によってはに入っている位相を明示せず単に上の正則符号付き測度と呼ぶこともあります。以上の定義のもと以下が成り立ちます。個人的にはかなり好きな定理です。
Riesz-Markov-角谷の表現定理
をコンパクトHausdorff空間とし、を上の実数値連続関数全体の集合とするとき、任意の有界線形汎関数に対して、上の正則符号付きBorel測度であって、をみたすものが一意的に存在する。
Stone-Weierstrassの定理
この節ではをコンパクトHausdorff空間とし、を上の実数値連続関数全体の集合とします。はによりノルム空間になります。
定義(の部分代数)
が部分代数であるとは、がの線形部分空間であり、かつ任意のについて積がの元になることを言います。
の部分集合が与えられたとき、を含む最小の部分代数が存在します(を含む部分代数全体の共通部分を取ればよい)。それをで生成された部分代数と呼ぶことにしましょう。Stone-Weierstrassの定理は生成された部分代数の稠密性について述べたものです。
Stone-Weierstrassの定理
が次の2つの条件をみたしているとする。
(1)恒等的に1を取る関数はに属する
(2)任意の相異なるに対して、なるが存在する
このときが生成する部分代数の閉包はと一致する。すなわち、任意のとに対して、が生成する部分代数の元で、をみたすものが取れる。
1つ具体例を見てみましょう。
例
をコンパクト集合とするとき、(1変数)多項式関数を上に制限したもの全体の集合をとおくと、明らかには上の2条件をみたすのでStone-Weierstrassの定理からが生成する部分代数の閉包はと一致します。ところがは部分代数なのでが生成する部分代数はになります。よって、S上の連続関数は多項式により一様近似できます。
次に系と言うには些かギャップがありますがStone-Weierstrassの定理から以下がわかります(Fourier変換の一般論から示すこともできます)。
系
とするとき、を部分空間上の正則符号付きBorel測度とすると、が成り立つ。
普遍性定理の証明
普遍性定理を2つの補題に分けて証明します。まず補題の主張を述べるために言葉と記号の定義をしましょう。位相空間をの部分空間、すなわちとし、上の正則符号付きBorel測度全体の集合をで表すことにします。
定義5(discriminatory関数)
関数 が次の条件をみたすとき、discriminatory関数と呼ぶことにします:
この定義のもとで以下の2つの命題が成り立ちます。
補題1
を連続なdiscriminatory関数とすると、という形をした上の関数全体の集合はで稠密になる。すなわち、任意の と任意の正数に対して、上の形の関数を適当に持ってくればが成立する。補題2
有界で可測なsigmoidal関数はdiscriminatory関数である。特に連続なsigmoidal関数はdiscriminatory関数である。
2つの補題から普遍性定理が導かれることは明らかでしょう。以下でこれらの補題の証明をしていきます。
補題1の証明
を(1)の形をした上の関数全体の集合とします。明らかには の部分空間です。補題1の主張はが成り立つというものです。そこで、を仮定してみましょう。すると、Hahn-Banachの拡張定理(の系)により、上の有界線形汎関数で、 なるものが取れます。はコンパクトHausdorff空間ですので、Riesz-Markov-角谷の表現定理から、で、
補題2の証明
後半については連続性から可測性が、sigmoidal関数であることと連続性から有界性が出てくるので成立します。前半を証明していきましょう。
を任意にとり固定します。そして、
とおくと、(2)との有界性及びの有限性により、
おわりに
関数解析の基本的な定理からこういった面白い定理が導かれる様は痛快でしたね!
普通にStone-Weierstrass使って多項式近似でよくない?とか肝心の近似アルゴリズムがない(普遍性定理はあくまで近似可能性を保証しているだけである)から実務的には何の役にも立たんなとか色々な感想があると思いますが、あの形の関数で任意の連続関数が一様近似可能できるのは個人的に面白いなと思いました。なお、が違う性質を持つ場合にも同様のことが成り立つことも現在は知られているようです。
Cybenkoさんの論文ではこの記事で紹介した普遍性定理を証明したあと、分類問題への応用を述べている(そして、その中にもLusinの定理という測度論の定理を用いている)ので興味を持たれた方は是非読んでみてください。幸せな気持ちになれること間違いなしです。
そういえば、ニューラルネットワークには積分表現理論なるものもあって、そこでも関数解析が力を発揮しているそうです。いつか勉強したいな〜。