Article

Conversation

Image
AIモデルと統計モデルは何が違うか?
もちろん、両者の違いを特徴づけるには典型的な用途や評価の観点など、いろいろな切り口があります。ただ、ここではできるだけ根っこの部分、つまり構成原理から考えてみようかと思います。
予測問題を例にしてかなり単純化して言ってしまうと、どちらもデータD、入力x、出力yとしたときp(y|x, D)と確率っぽく書けます。
実際、「学習データDと新しい入力xをもとにyを予測する」というのは、統計モデルのもっとも基本的な使い方のひとつです。そう考えると、生成AIだけが特別な原理で動いているわけではありません。実際にはものすごい高度なエンジニアリングテクニックの集積がありますが、少なくとも、データから規則性を学び、それをもとに新しいものを出すという骨格そのものは、統計モデルと地続きです。
ただし、ここで抽象度を上げすぎるのはちょっと危険です。「要は全部同じです」というのは雑ですし、何より得るものが少ないです。なので、共通しているところを踏まえたうえで、違いに焦点を当てていくことが大事です。
大きな違いは、やはり複雑さにあります。そしてその複雑さは、主にデータと学習計算の規模から生まれます。
統計モデルでよく扱われるのは、比較的小さく、構造が(少なくとも利用者にとって)把握できるモデルです。y=ax+bみたいな。利用者は、そのモデルがどのような仮定を置き、どのような性質を持ち、何ができて何ができないのかを深く理解したうえで使うことが多いです。道具として扱いやすい。
それに対して、生成AIはあまりにも巨大です。使われているデータも膨大で、作っている人たちもどんなデータをAIに学習させているのかちゃんと把握しきれていません。パラメータが多すぎるので大量のGPUをぶん回して学習させる必要がありますが、中で実際に進んでいる過程は謎に包まれています。どのような表現が内部で作られ、なぜそのような振る舞いが出てくるのかを、きれいに説明するのは簡単ではありません。
なので、巨大な生成モデルに関しては、その学習過程そのものが解析対象になってきます。社会現象や生命現象と同じです。大規模言語モデルが「ベンチマーク性能が高いらしい」ということは広く認識されていても、なぜそうした良い結果が出るのか、そもそもそのベンチマークの設計は妥当なのか、といった点には、まだかなり未解明な部分が残ります。
こうした、生成AIのよくわかっていない部分に対して、統計的な考え方で近づこうとするのはとても自然だと思います。色々あると思いますが、大量で複雑に絡み合ったパラメータを機能別に分割できないか?特定の挙動を引き起こす要因を特定できないか?学習計算の進む過程を要約・予測できないか?みたいなところでしょうか。
なので、「AIモデルはしょせん統計モデルだ」と言い切ってしまうのは、やはり乱暴です。実際には、規模の違い、複雑さの違い、解釈性などの違いがあり、同じような感覚で使ったり、性能の良し悪しを判断したりはできません。一方で、「生成AIは統計モデルとはまったく違う」と考えるのも極端です。それはそれで、統計学における有用な視点や考え方を失います。
統計モデルの延長線上にありながら、同時に、規模と複雑さによって新しい難しさを持ち込んだ存在として見ることが大事なんじゃないかと思います。
Want to publish your own Article?
Upgrade to Premium