ベイズ推論:いつも何度でも尋ねられること








このページをご覧頂き、ありがとうございます。


「ベイズと最尤のどちらが正しいのか」と、いつも何度でも尋ねられます。

「事前分布は何が正しいのか」と、いつも何度でも尋ねられます。

ここでは、できるだけ短く、その質問についての返答を述べます。









1.正しい統計的推論は存在しない

統計学が扱う問題では、ほとんどの場合、基礎となる確率がわからないので、 特別な場合を除いて、正しいモデル・正しい事前分布・正しい推論というものは存在しません。

条件が不足したり過剰だったりして答えられない問題のことを【不良設定問題】と いいます。

統計学は不良設定問題を扱う学問です。

この世にあるほとんどの問題は程度の違いこそあれ、みな不良設定です。 まずは「統計学は不良設定問題を扱う学問である」ということを理解しましょう。

基礎となる確率が定められていなければ【正しい統計的推論】は存在しません。

(注) 基礎となる確率が定められている場合には正しい統計的推論ができる場合もあります。 例えば、ある真の事前分布に従ってパラメータが発生し、 そのパラメータで定まる真の確率モデルからデータが発生している、というように 基礎となる確率が定められている場合には、 真の事前分布と真の確率モデルを用いたベイズ推測が正しく最適な推論になります。

(注)なお、数学も、物理学も、どんな分野でも、未知のことについて発見や証明を するための仕事をしている人、つまり研究者にとっては、学問は常に不良設定です。

(注)不良設定の状況下で、仮説を立て・理論を作り・検証する型の研究を面白いと 思ったことがある人は、データを分析する仕事に向いていると思います。

(注)逆に「定められたソフトウエアにデータを入れてグラフを描いたらお仕事終了」を 望んでいる人は、データを分析する仕事に向いていないと思います。




2.存在しない正しさを探すのはもうやめよう

そのようなわけで【正しい統計的推論】は存在しません。

ベイズも最尤も【正しい統計的推論】ではありません。

20世紀には存在しないものをめぐって不毛な論争が繰り広げられたそうですが、 お互いに深く傷つけあう以外には何も得られなかったと伝わっています。

(注)その争いは心の傷つけあいだけではなく、 論文の採録やヨーロッパやアメリカの統計学教室の人事にまで及んだそうです。

(注)フィッシャー・ネイマン・ピアソン親子(偉大な統計学者たちです)は みな最尤推測だけを認める立場であったそうですが、 それでもお互いの統計学的な考えかたについて、 それぞれの相手を間違っていると主張されていたそうです。

統計学のこの歴史は【存在しないものを探す】という課題に対するとき、 人間というものがどのような状態に陥りやすいかを表しています。

今でも統計学が不良設定であることを揶揄して「ベイズ統計で人をだませる(笑)」 という型の発言をする人がありますが、それは20世紀初頭の人々の心のありかたです。

(注)大昔に、とてもひどい論争があったために、その型の発言は 統計学を勉強したことがある人にはジョークにはならないのです。






【存在しないものを探す】のは、もうやめたほうがよいと思います。




【存在しないことを嘲笑する】のは、もうやめたほうがよいと思います。




【存在しないものが存在しないこと】は、今日ではみんな理解していると思います。




(注)統計モデルや事前分布のモデリングを行うことに意味がないといっているのでは ありません。正しい統計モデル・正しい事前分布は存在しないということを 十分に理解した上で考察している問題に適すると考えられる統計モデルや事前分布を 設計して試すことは極めて大切であり、 統計モデリングとはそのような試行錯誤の手続きのことを言います。 繰り返しになりますが、そのようにして試される統計モデルや事前分布は どんなに愛着があっても正しい統計モデルや正しい事前分布ではないということです。




3.統計学とは何ができる学問か

【正しい統計的推論】が存在しないとすれば、統計学は何もできないのでしょうか。 そうではありません。

統計学の本質は、基礎となる確率が定められていない問題を扱うことにあります。 そのためには【基礎となる確率がどんなものであっても成り立つ普遍法則】を 見つければよいわけです(☆☆☆)。

例えば、ベイズ推測を行ったとき、任意の真の分布・任意の統計モデル・任意の事前分布に 対して、推測結果の誤差がどのような挙動を持つかを導出することができます。

これにより「正しい推論」は得られませんが「推論の誤差」については正しく知ることが できます。

「データを発生した真の分布」が見つかるわけではありませんが、できるだけ 推論誤差が小さくなるように統計モデルや事前分布を選ぶことができます (注:具体例を知りたいかたは、このページの最後をご覧ください)。

『真の分布がわからなくても推論の誤差を知ることができる』ところが 統計学のスゴイところです。

これから統計学が発展すれば、さらに多くの普遍法則が発見されていくものと思います。




「ベイズと最尤のどちらが正しいか」「事前分布は何が正しいか」という問いかけをお持ちの 学生のみなさまには、統計学の答えについてご理解いただけましたでしょうか。




(☆☆☆)統計学において、この型の考え方が生まれたのは1960年代から1970年代だったと 推定されます。今日ではアタリマエのことですが、 アタリマエのことに気づくことが人類にとって簡単なことではなかったということです。




4.「人工知能の正しさ」は「統計学の正しさ」と同じ

最近よく聞かれる質問として「人工知能の推論は正しいのか」というものがあります。 今日の人工知能はデータから統計的推論を行うものですので、その正しさは統計学の正しさと 等価です。「人工知能の正しさ」を理解したい場合、統計学の本質を理解する必要があります。 統計学と同じように、人工知能は正しい推論をしませんが、しかし、その誤差については 調べることができる、ということになります。




5.まとめ

(1) ベイズも最尤も正しい統計的推論ではないが、どちらでも推論を行うことはできる。

(2) 正しい統計モデルや正しい事前分布は存在しないが、それでも推論を行うことはできる。

(3) 推論の結果は間違っているが、どのくらい間違っているかを調べる方法はある。

(4) 統計モデリングとは、適切な統計モデルや事前分布を設計することで 間違いの度合いを小さくしようと試みること。真実が見つかるわけではない。






(注)数理的な性質として解明されていることもあります。 例えば、

(a) 指数型分布でデータが多ければベイズも最尤も結果はほとんど同じ。

(b) 階層構造を持つモデルでは最尤はベイズより誤差が大きくなるので応用上適切でない。など。







以上のことをまとめてみました。

(注)統計モデルや事前分布を設計したいかたにとって、「推論の誤差」について 何がどのくらいわかるのか、ということは大切なことであると思います。
下記(↓)をご覧ください。



ベイズ推論

「統計モデルや事前分布を変えたときに予測誤差や総和誤差が どのように変わるか」ということについては
上記(↑)に書かれています。


(注)自由エネルギー(対数周辺尤度)とクロスバリデーションは、 データだけから計算できる量ですが、演算量と発散の問題があるので 実際に使う場合には色々と工夫が必要なこともあります。






















余談 ずっと不思議に思っていたこと


とても多くの人が次のことを問いかけます。

(質問1)「ベイズ推測は不明である事前分布を使って推論しているのに、 結果を信じても大丈夫ですか」

この質問に対する答えは「信じてはだめです」。


これに対して次のことを問いかける人は少ないです。

(質問2)「最尤推測は情報をひとつのパラメータに集約してしまっているのに、 信じても大丈夫ですか」

答えは「もっと、信じてはだめです(※)」。





このページの作者が昔から不思議に感じていたことは、 予断と偏見を持たずに自分自身で物事を考えているはずの自然科学の先生が、 なぜか統計学に関しては何も考えずに予断と偏見だけで (質問1)だけを問題点として指摘することが多いということです。





量子力学や統計力学を習った研究者なら(質問1)よりも(質問2)のほうが 根源的な問題であると感じるはずだと思うのですが・・・・・。

少なくても「(質問1)と(質問2)のどちらが推論の誤差に 大きな影響を及ぼすかは数理的にあるいは実験的にきちんと調べてみて初めてわかることだ」 と感じるのが自然科学者ではないでしょうか。

きちんと調べてみれば明らかになります。













◎ 学生のみなさん、あなたの先生が自然科学の研究者であるにも関わらず (質問1)だけを理由に統計学の問題点を指摘されているときには

「先生は予断と偏見を持たない自然科学の研究者であるにも関わらず、 より重大な問題である可能性がある(質問2)を、なぜ問いかけないのですか」

と聞いてみてください。


















(※)(質問1)と(質問2)について「どちらの影響が大きいか」については 数学的に問題を定式化した上で答えることが可能な場合があります。統計的正則モデルで データ数が無限に近づく極限では漸近的に両者は同等です。 統計的正則モデルでない場合には後者のほうが前者よりも誤差が大きくなります。

このため階層構造を持つ統計モデルの推測にはベイズ法が推奨されています。ベイズ法が 正しいからではありません。階層構造を持つモデルに最尤推測を適用すると 推論の誤差が大きくなるからです。






















具体的な例


(注)具体的な説明はいらないかもしれませんが、 「推論誤差が小さくなるように統計モデルや事前分布を選ぶことができます」 というのは抽象的なことではありません。その例をあげます。

ここでは推論誤差が小さくなるように事前分布を選ぶ方法を例としてあげます。


下の図を見てください。左上の図(True)は、データを発生している真の分布です。

現実には真の分布は決してわかりません。

学習結果


右上の図は、真の分布から得られた200個のデータです。

これを15個の正規分布の混合モデルで推測しようとします。 これはもちろん正しい統計モデルではありません。 モデリングする人が仮に用いているものです。

混合比の事前分布として「15次元上の 指数α=2 のディリクレ分布」を用いて推測した結果が左下の図(Estimated)になります。

推測結果は真の分布と等しくはありません。つまり推測は間違っています。

しかしながら、推測結果は真の分布のある程度の近似になっています。

カルバック・ライブラ情報量 で測って 0.08 くらいの誤差になっています。





事前分布として指数α=2 のディリクレ分布を用いたのはなぜでしょうか。

それは下図によります。

学習結果


この図の横軸はαを10^-3 から10^3まで変化させて調べていることを示しています。

真の分布からみた推測結果までのカルバック・ライブラ情報量のことを汎化誤差 (Generalization Error, GE)といいます。 図の縦軸で、○で表されているのが汎化誤差です。 汎化誤差が一番小さくなるαが、考察している中ではいちばん適切な事前分布になります。

しかし汎化誤差は真の分布がわからなければ求めることはできません。




これに対して図の□および△で表された量は、真の分布がわからなくても 求めることができます。

□は交差検証誤差、△はWAICです。

□または△を最小にすることでディリクレ分布の指数αをおおよそ決めることが できました。そのようにしてαを選びました。

事前分布の形としてディリクレ分布を使うことを決めたのはモデリングする人ですが、 αはデータに基づいて定められています。

この方法で正しい事前分布が求まったわけではありません。考察しているものの中で より誤差を小さくすると期待される指数αを求めることができたということです。

(注)汎化誤差を最小にするαと交差検証誤差やWAICを最小にするαは、 ぴったりとは一致しません。それらはどのくらいずれているのでしょうか。 混合正規分布のようなモデルではそれはまだ未解決です。

(注)この例ではたまたまα=2が選ばれましたが、いつでもα=2がよいわけでは ありません。適切なαは真の分布・統計モデル・事前分布・データに依存します。






ひょっとしたら私たち日本人は「不良設定問題」がニガテなんでしょうか。






「ベイズか最尤か」という論争でギスギス・トゲトゲしてきたら、 「いつも何度でも」という歌(映画「千と千尋の神隠し」の主題歌)を聴いて 心を癒すことを推奨します。

この歌は「ベイズか最尤か」論争のために作られたのではないかと思うくらいです。