江口 真透 (統計数理研究所,総合研究大学院)
「現在過去未来」についての原稿依頼がきた.タイトルは茫漠としており,私の狭い研究の興味の範囲,与えられた能力をはるかに超えている.通常の感覚では,依頼を断り自分の研究・教育に専念する方が良いに決まっている.自分の無能さを冷静に見れるだけの苦い経験は積んでいるし,これを論ずるべきもっと適当な人々がいるにちがいない.このように考えた結果,丁重にお断りしようと思った.正直言ってほんの1・2年前までは,統計学の将来に何の疑問点も持っていなかった.「日本の統計学は,その長い活動の歴史の中で輝かしい実績を挙げ,今後も着実な成果が期待されている.多種多様な分野において,データを得るための計画から得られたデータに基づいてなされる統計推測まで,著しい貢献が将来に渡って約束され,統計科学は輝き続けるだろう.」こう信じていた.しかしながら現時点1999年は,まさに21世紀のスタートを目前にして日本の全てにおいて,システム全体の在り方が大きく変革する前夜である.その大きな変動の中で、日本の統計学にどういう位置づけがなされるかは,非常に流動的である.具体的な動きは「会報」No.97 の柳川 堯会員の「統計学はいま」を参照していただきたい.
このような現況において,日本統計学の将来像についてあらゆるレベルから議論、討論、考察することは意義深いものだと考えはじめた.特に,多くの人が統計学会の内外で,いろいろな観点から多様な意見を交換することは大変重要ではないかとここで考えを改め,無思慮で不完全になるかもしない私見を敢えて述べる機会としたい.
●「 統計学とは何をする学問ですか?」
●「統計学はその方法論の適用性の高さ,優れた汎用性,客観的判断の提供,その普遍的な理論構築において「科学」の諸分野の中でも非常に優れた一分野である.」
こう評価されてきているはずである.ところが最近,統計学と独立にデータを研究する分野が興って来て,上の主張は若干,揺らいでいるように感じている.上記に述べられた統計学の特徴は「データ」という概念そのものが本来的に有しているものであり,統計学の性格を表しているものではないのではないか?この疑問に対して歴史的観点から統計学の反省すべき点,将来像について正直な意見を提出したい.ただ個人の確固としたコンシステントな主張は避けた.日本の統計学の将来を悲観的に語り,危機意識を喚起し,改革を鼓舞することが私に課せられた責務なのかもしれない.しかし私のできることは,寧ろできるだけ淡々と「自分が日本統計学会に属している」というバイアスを除いて,冷静な意見の展開を目指すことである.実際,私自身,日本統計学会以外にも幾つかの統計学関連の組織に属しており,日本統計学会だけにしか通用しない主張はしたくない.統計学関連学会の再統合については機会があれば別の機会に話し合えることを希望している.また,日本統計学会内の改革について,刈屋武昭会員の「会報」No.97 の統計学の現状と今後「金融工学と統計科学と日本統計学会」の記事における
●「応用分野を含めたいくつかの分野に組織を分割し,各分野の自由な活動を認める組織のあり方」
への提言は賛成であり,かつ具体的な点についても十分な議論を希望する.
さて,本題だ.調べものをするときいつもやるように,Current Index Statistics (CIS) でキーワードで関連文献を調べた.そうだ"future"がいいだろう!410の文献が検索された."statistics"を追加すると83に絞り込まれた.結局は,90年から96年に刊行された36の論文が関連するようだ.取り敢えず論文をざっと見たが,残念ながら参考になるものは見つけられなかたった.時代は多くの予想を大きく裏切りいつも局在化の局面を享楽しているようだ.これらの文献から日本の統計の現況から将来への問題提起に参考になるものは見つけられなかった.この記事の評価もまた,極めて近い将来,いとも容易く陳腐な記事としての評価に落ち着くだろう.
そこで統計学の歴史を参照しながら統計学の置かれている現在位置を探ることにした.
統計学の理論的基礎は,1920年代と30年代にほとんど完成されていたが,これには天才 R. Fisher の貢献が大きかった.これと同時に,当時の学問,特に自然科学における生物学,医学,農学に関連する重要なデータが生産されたことも,短期間における全理論の構築の背景になっていると考える.実際 C. Darwin の生物進化論以来多くの重要なデータが獲得された計量生物学の出現と,統計学の理論構築とは,同時期であった.
40年代と50年代は統計学にとって分布論の時代と言える.データが従うであろうランダムな機構を,確率分布の記述によって閉じ込めることに成功した.確率分布の特性の詳細な研究がなされた時代である.
60年代はロバスト統計の時代である.分布の確固とした仮定とデータの乖離について,古典的な方法論の見直しに成功した.既に指摘されていたことであるが,仮定されたモデルとは数学的容易さからの要請であって,データの従う分布の正確な記述を目指しているものではない.この発想からデータの従う分布はモデルに属していないときの定式化が展開された.この理論は,感度分析のための影響解析やセミパラメトリックスとの密接な関連のもとで進展を続けている.特筆すべきは,システム制御の分野でロバスト性理論として,H∞アプローチなど多くの影響を与えたことである.
70年代は一般化線型モデルの時代と云える. C. Gauss 以来,正規分布の仮定から共変量の条件付分布を線型モデル化する方法論は,正規性の仮定を取り外し,2項分布からガンマ分布まで含む一般化に成功した.これにより特に2値データの解析について,確率過程論の応用と合体して,医学データの深い考察を可能とする生存解析法へつながっていった.基礎となった指数拡散モデルを通して,統計理論の骨格を成す十分性原理,条件付推論が移植され,一般化線型モデルを特徴付ける連結関数の自然な理解が与えられた.偽尤度関数の概念は推定関数の理論を深める契機をもたらし,「分布の強固な仮定とデータの乖離」について,上述のロバスト統計学とは別の角度から推定関数の理論展開がなされた.
90年代になって分散関数の観点から一般化最小2乗法との関連性が明らかにされた.ニューラルネットワークスにおける多層型パーセプトロンはシグモイダル関数を連結関数とみれば,一般化線形モデルに他ならない.一般化加法モデルもまた急速に展開された方法論である.この観点から,多層型パーセプトロンの持つ柔構造の証明はそのまま,一般化線型モデルの汎用性のそれにつながる.また,非正規データの状態空間モデルもこの一般化線形モデルからの応用が重要視されている.
このように60・70年代は分布モデルとデータの隔たりのモデリングを陽に,陰に展開した時代と考える.これが90年代にはさらに,データのランダムサンプルモデルからの乖離や,選択バイアスを考慮した解析,Bayes 統計においては,事前分布の選択の影響解析へと発展しつつある.
80年代は漸近論の時代だった.高次漸近性理論は高度な数式の援用から複雑な展開公式が導出された.この研究は幾分不思議に思われるが,20年代・30年代のR.Fisher の研究に対峙していた.高次漸近有効性,十分性など一般的な考察が行われた.多くの場合,モデルの次元を固定し標本サイズの極限のもとでの確率挙動が研究されたが,多くのものが見失われている.この反省より,決定理論の枠組みの中で有限の標本サイズから,より厳密な考察がなされた.しかし分布モデルとデータの隔たりが無視された設定で,モデルの一般性を犠牲にしながら近似の精度を上げたり,厳密な計算を行うことにどんな意義があるのだろうか.データの従う分布がモデルの外にあるという真実から逃れていては,統計学の健全な展開は望めない.ここで統計学は他の関連研究分野に大きく遅れをとったのではないか?ここに数理統計学の持つ本質的な弱点が露呈され,統計学の現在かかえる問題点が集積されていると考える.
80年代の後半になって,遅ればせながらコンピューターを高度に利用した統計方法論が登場する.ブートストラップ,射影追跡,回帰関数の推定など,ノンパラメトリックな方法論が時代の要請の後追いをした.しかしながら70年代に開発された情報量規準,交差検証法,縮小法などによって,平滑化法のチューニングが巧妙に実装されていることも,統計学が誇るべき成果であり,見逃すことはできない.
数理科学の一分野において90年代に起こった「複雑性」の研究も,これらのテクニックの背後にある理論が先導的な役割を担っているという主張もなされている.また,MCMC 法などの再発見から Bayes 統計が再興した.従来,その計算が実行不能と考えられ,日の目を見なかった統計的方法論が,このテクニックによって小気味良く実装されている.
以上が,統計学の現在抱えている問題および将来への提言のための,私の統計学のおさらいである.無知から生じた乱暴な考察があるかもしれないが,最も強調したい点は,データを取り巻く環境史の劇的な変遷である.統計学の黎明期と現代との決定的な相違点として,現代のコンピューターの技術的発展,それに呼応された社会的変化を挙げておかなければならない.2,3年前には不可能に近かった計算が,現在では殆どすべてのコンピュータ環境の下で簡単に,しかも短時間で実行できる.データの形状も,多用なメディアの出現によって質的にも量的にも大きく変化している.コンピューターのハード的技術進歩は今後も継続されるだろう.
一方で70年代以降,統計科学以外にデータを研究対象とする分野が出現した.電子工学,制御システム工学,情報理論,人工知能論,ニューラルネットワークス,情報処理などである.コンピュータ科学の台頭は,統計科学の存在をも揺るがすかもしれない.これらの分野では,データに対する接近は統計学から見るとかなりルーズである.
統計推測は基本設定のモデルから出発するが,これらのアプローチの中にはランダムネスを全く考慮せずに行われるものもある.しかしこれによって皮肉にもデータの解析の自由度は増しているのである.大規模なデータをリアルタイムで解析し,その予測からデータのデザインをするといった問題に対して,従来の統計学は整備不足の感がある.これは上述の統計学の歴史からも当然の帰結と云える.やはり80年代における統計学の進展の渋滞が大きく影響していると考える.統計学の研究者はモデルの内的空間に拘り過ぎた結果,データフロンティアを見失っていたかも知れない.最近,「データマイニング」というキーワードの下に,統計学を全く背景に持たない研究者が大規模データを解析するための方法論を提案しているが,方法論に付けられた大げさな効用以外は注目すべき点はないと無視してしまえない状況にある.
(cf. http://www.kdd.org/)
シンボリズムから展開されるニューラルネットワークスにおいて,データ(例題)に接近する方法論は多くの点で統計学と共通点を持つ.例えばパターン認識の目的は統計学の判別分析,クラスター解析等の方法で実現される.また学習理論における例題からの学習過程は,統計推定論と同じ内容で展開される.しかしながら従来の統計学には現れなかったアイディアが組み込まれている.温度,しきい値パラメータなど,いわゆるチューニングパラメータはその典型である.最近,急速に展開されている独立成分解析,サポートベクターマシンなどについても統計学者の参入がなされ,興味深い進展がみられる.
この分野の研究会に参加すると,将来の統計学と統計物理学の間の不可思議な無関心の壁が取り払われ,統計学の期待値・情報量という考えと,統計物理学の温度・相という考えの交換による自由で無邪気な雰囲気が伝わる.これは学問としての健全さの表れと評価したい.統計学において最近盛んになりつつある因果推論は,反実仮想の命題について人工知能の研究者による貢献が顕著である.グラフィカルモデルの展開によって統計学の新しいパラダイムとして注目される.
20世紀の初頭から世紀の終わりを迎えるにあたって,データを生産し,それを消費する形態そのものが変質している.特にインターネットによるコンピュータの双方向のオンライン化は爆発的なデータの蓄積,双方向の情報交換がなされている.現代社会で現れるデータはその全容量,次元,時空間依存性,不完全性,不均一性,複雑性,相関性など,あらゆる角度において従来の形式から逸脱している.この大規模なデータが日常の生活レベルにおいてさえ影響力をもって現れる.
この変化に統計学はどんな新メニューを提供できるのだろうか?統計理論の骨格が形成された時代的背景と現代との落差を埋める新しい統計理論が今,求められている.この新しいデータの形式に対する統計科学の貢献が,統計学の将来の鍵を握っているかもしれない.その成否に関しては私は楽観的な観測を持っている.燻し銀のような統計学の奥深さを見せ付けるチャンスの到来である.統計学が100年に渡り,築き上げた重厚な概念を思い浮かべよう.例えば,CISで likelihood, regression, model, inference, estimation, prediction…と順に検索してみよると,少なくとも 5670, 11184, 13174, 2990, 14063, 1888…の文献が1950年〜1997年の間にこのキーワードのもとに刊行されている.
データを科学するために蓄積されたこの知的財産のことを反芻すると,データイノベーションの新しい時代の要請に対応する正解はすでに用意されているのかもしれない.最後に結論を述べて終わりとする.
●統計科学と情報科学の研究者は,データを科学する専門家として互いに競い合い,また協調し合うことが,それぞれの分野の弱点の強化につながり,更に新しい有力な分野の形成の鍵となる.