深層学習を数学的に把握したり説明したい場合、この書籍は入門中の入門。次元数がまるで違うことの意味などから。 勾配が均一でない関数でパラメーターを定めることの数学的難しさも記述されている。確率的にするしかない。

書籍では、以前より、今泉允聡『深層学習の原理に迫る 数学の挑戦』(岩波書店,岩波科学ライブラリー303)を何度も読み返している。 iwanami.co.jp/book/b570597.h…



パラメータの学習が難しいから人間に意味があるような享受をするために追加学習やRAGがなされてきた。追加学習で修正されるのはパラメータで、RAGはプロンプト側にもパラメータ側にも出発点にも使えるだろう。


「生成」は本当にゼロから生成しているのではなく、ある出発点から、その隣に出現する可能性の高いコンテンツを置き、さらにその隣を算出し、という繰り返しで出力しており、新しいものを生み出してはいない。 ただ、膨大な記憶から確率的な平均値を出力しているだけ。


生成AIは学習対象そのものを出力することもある。NYT vs OpenAIでは、ニューヨークタイムズの記事をそのまま出力していた。依拠の類似を超えた類似というか複製。 MidjourneyやStabel Diffusionがそのまままたは酷似を出力することはよく知られている。表現をそのまま記憶している証明。


情報解析で作風や文体を学習して新しい内容を出力しているというのは幻想で、オリジナルをそのままか、他と合成した平均値で出力している。 文字のハルシネーションがそれらしいのは、近くに出現するそれっぽい言葉を繋げていくから。引用文献のように表示しつつでたらめなのがその証拠。


指が6本になるのは、手の構成を理解せず、指の隣に指がある確率が高いから、本数などお構いなしに、隣に存在しそうな色と線を並べていくから。 リボンと髪が溶けて連続するのも、違う存在という意味を把握せずに隣にありそうなものを色と線で連続させてしまうから。 これら、平均値を出力している証拠


生成AI出力画像で、要素要素がそれっぽくても、全体をみるとパースがあっていなかったりするのが、個別の要素から出発して平均的にありえる色と線をつなげていることで、全体の構造が破綻することの証拠。


Loading...

Something went wrong.


Something went wrong.