Daisuke Okanohara / 岡野原 大輔

6,535 posts
Opens profile photo
Daisuke Okanohara / 岡野原 大輔
@hillbig
Co-founder and CTO of Preferred Networks (PFN). CEO of Matlantis.

Daisuke Okanohara / 岡野原 大輔’s posts

Pinned
「対称性と機械学習」という本を岩波書店より2025/9/18に出版します。この本は物理世界でみられる対称性を機械学習でどのように扱えるのかについて解説し、特にリー群で表される変換に対する対称性を扱います。 本の概要や、目次を含めたサポートページへのリンクはスレッド内で紹介します。
Image
ロボカップにはいろいろなロボットがそこら中いますが、一番すごかったのが羽ばたいて飛ぶロボット。450g、一番重いのがバッテリー、10分飛べるそうです
0:06
微分、積分、微分方程式などのシンボリックな数学方程式はNNで驚くほどの精度で解ける。方程式を木表現経由のポーランド記法で表し、Transformerを使ったseq2seqで教師あり学習する。MathematicaやMatlabを超える求解率を達成できる他、有効な解を一つだけでなく多く列挙できる
鳥が好評だったので、そのアップの動画も。全体を軽くしたのと、エネルギー効率を良くするためになめらかに動かす部分、バランスをとって向きを変えるためにいろんなところが連動する
0:04 / 0:20
多層NNの最適化が難しそうなのになぜ成功するかについて、reluを使ったNNに対しデータが退化してなく、NNが過剰に多くのパラメータを備えていればSGDを使った学習は最適解に多項式時間で収束することが証明された。NNの未解決問題の一つが(おそらく)解かれた
深層学習がうまくいくのは、自然界の 対象の問題の特徴に低次元、局所影響性、対称性がみられ、データ生成過程にマルコフ性が成り立ち、逆向きに推論できるから。自然にみられるデータの特徴付けに物理の考えで切り込んだ物理界20歳すごい。
最小二乗法を解くには共分散行列を求める必要がある。カラテオドリの定理を使えば、d次元入力の共分散行列はd^2+1点の重み付き入力の共分散行列で近似無(!)に表せ、これらは観測点数、次元数に比例する計算量で求められる。最小二乗法を使った多くの手法を劇的に高速化可能 arxiv.org/abs/1906.04705
大規模言語モデルのHallucination(幻覚、誤った事実)の起源について。人手で作った対話ベンチマークの60%に既に幻覚が含まれており、多くが主観的な意見、または啓発的な内容に基づくもの。これを学習して作った対話モデルは幻覚を増幅、露出バイアス、最尤推定が主な原因
大規模言語モデル(ChatGPT等)についての本を岩波書店より6/20に出版します。何ができるか、課題はなにか、実現技術(自己教師あり学習、機械学習のべき乗則、本文中学習、RLHF)、言語や知識獲得の謎、今後の展望についてです。私の従来本と違い専門知識を必要とせず読んでいだけるよう書いています
Quote
岩波書店
@Iwanamishoten
【新刊予告】#ChatGPT を支える大規模言語モデルの仕組みとは。何が可能となり、どんな影響が考えられるのか。新たな知能の正負両面をみつめ今後の付き合い方を考えます。 岡野原大輔『大規模言語モデルは新たな知能か――ChatGPTが変えた世界』(6/20発売予定、予約受付中)☞ iwnm.jp/029719
統計数理シンポジウム2023(ism.ac.jp/openhouse/2023)での講演資料を公開します。大規模言語モデルや拡散モデルなどの生成モデルが世界をどのように理解しているのかについてです。自己教師あり学習、メタ学習(in-context learning)などの話題をとりあげています。 hillbig.github.io/ISM_Symposium2
LLMで使われるTransformerの内部表現がどの程度まで入力情報を保持されているか議論されてきた。この研究では、入力から内部情報はほぼ確実に単射であることが証明された。つまり異なる入力プロンプトは異なる内部状態に移ることがしめされた。また実際、内部状態から入力を高い確率で効率的に推定でき
GANの作者であるGoodfellow がGANの論文たくさんあって何から追えばいいかわからない人向けに10個の論文を推薦しています。理論、符号化、差分プライバシー、高精細、多クラス、条件付けなど
Quote
@timnitGebru (@dair-community.social/bsky.social)
@timnitGebru
Does someone have a list like the 10 or even 20 GAN related papers I should read this year or something like this? I can't keep up. @goodfellow_ian ?
今年一番驚き謎な論文。画像認識で畳み込みを使う代わりに、画素毎に固定のノイズを加え、非線形変換を施した後、カーネル1x1の線形変換を使っても同じ精度が達成できる。空間方向で情報を明示的に混ぜなくても良い。空間方向の冗長性から周辺の情報は各画素に既にあるのか arxiv.org/abs/1806.01817
本の紹介。ファイザーの新型コロナワクチンの開発9ヶ月間の内情を細やかにCEO自身が書いた。従来数年かかる開発/治験を9ヶ月で終わらせ1年で数十億本を製造/流通する体制を構築したのはアポロ計画に並ぶ偉業であり、それを国でなく一企業が実現した。面白くて一気に読んだ。
2020 Jun.のTop500においてPFNのMN-Coreを使ったMN-3が電力効率の高性能計算の実現を評価するGreen500で1位になりました。実現に向けて尽力したチームメンバーを誇りに思います。
Image
強化学習の創始者の一人として知られるR. Sutton氏がこの70年のAI研究からわかったこととして、人間のドメイン知識を利用した手法改善は短期的には有効だが、長期的には計算能力の指数的な向上を活かした”学習”と"探索”に基づく汎用の手法が大きな差をつけて上回るとコメント incompleteideas.net/IncIdeas/Bitte
DeepSeek-R1は強化学習により推論能力の大幅な改善を達成。強化学習の報酬のみでo1のような長期的推論過程を獲得。それを小型の密なモデルに蒸留した場合それらも同様な推論能力を獲得した。o1に匹敵するモデルの学習詳細が初めて述べられている例と考えられる。
GQNは複数の視点の画像だけから、対象の三次元世界を符号化し異なる視点からの視界を復元する。空間モデルを潜在変数とする潜在モデルで最適化する。Structure from MotionをNNで直接解いたものであり、この1~2年内の最大の進歩と言っていいと思う deepmind.com/blog/neural-sc
LLMに新しい知識をファインチューニングを用いて導入しようとすると、事前学習時に得た知識もハルシネーションするようになり性能が悪化する。事前学習時に知らない知識を獲得するのに時間がかかり複数回参照すると過学習するため。事前学習時に学んだが、使えていない知識をファインチューニングで引
Claudeの400万件以上の会話をプライバシーを保ったまま解析し、どのような職種・業務で利用されているか解析した。これまでAIの経済への影響予測がされていたが実態に基づいた大規模解析は初 その結果、 ・利用の50%はソフトウェア開発と文章作成が占めていた。
NNで訓練誤差が0になった後も学習を続けると汎化性能が改善されるGrokkingは、非線形領域(動画中の黒線)が分類面に移動する相転移がおき、サンプル周辺領域が線形化される(敵対的摂動にも頑健になる)現象がおこるため。動画による可視化がすごい arxiv.org/abs/2402.15555
今のLLMを使った言語処理においてパーシングや意味解析を使うことなく必要なく、本当に解きたかった対話や機械翻訳が解けているのと同様に、画像処理において画像分類や物体検出は最終的なタスクを解くのに必要ないのではという、現代の物体検出を作ってきたGirshick氏による議論をよぶプレゼン。
画像・音声・動画などの生成AIで使われる流れを使った生成を数式を使わずに説明した本を書きました。前著「拡散モデル」が専門家向けだったのに対し、今回は一般向けに、重要な部分を落とさず、生成の何が難しかったか、考え方、先人達の試行錯誤を深堀りして書いています。 hillbig.github.io/flow-generativ
Image
近年、LLMや画像モデルの学習では「データを増やせば性能が上がる」「データを選別し質を改善した方が性能が上がる」 という矛盾した結果が報告されていた。この研究では理論的・実験的にそれらがどのような状況では発生するかを明らかにした。
LLMが内省、つまり自らの内部状態を観察・報告できるかについて実験的に検証したところできることが示された。また、意図の自己帰属も行っていることがでた。これは意識の前駆的機能が現れてきているといえる。
赤ちゃん(生後6ヶ月から25ヶ月の間)にヘッドマウントカメラをつけ、何を見て聞いたのかを記録し、そのうちの60万フレーム、約3万発言を使って画像と言語の対比学習を実行。61.6%の精度(4億のウェブデータ使ったCLIPに匹敵)でin-domainの分類ができるほど対応関係を学習できる。
情報検索で埋め込みベクトルによる検索が普及しているが、理論的な限界があることが示された。それは、クエリと文書ベクトルの次元数dで表現できる、文書組み合わせの数に限界があり、「絶対表現できない検索タスク」が存在することを示す。
PLaMoの中の人ですが、以下のPLaMoがオープンにしていないという話については、PLaMo 2.0もモデルは公開しています。 huggingface.co/collections/pf PLaMo 1.0や2023年に作った最初のモデルから公開しています。 huggingface.co/collections/pf また、論文も出しています。例えば最近のplamo
Quote
うみゆき@AI研究
@umiyuki_ai
政府がPFNを支援して国産LLMを作るぞ~!とか言われても全然がんばれ~とかテンション上がんない。というのも作るのはPLaMoの後継モデルらしい。PLaMoは翻訳モデルはオープンにしてくれたけど他のPLaMo 2.0とかはクローズやんけ。国が支援して作るならオープンなLLMにしなさいよ。税金使うんだろうが x.com/livedoornews/s…
Deep Learning研究の各分野を代表する人たちが「これから取り組むべき大きな問題」「DeepLearningの理解は進んでいるか」「説明可能性」「ベンチマーク」「Transformerの次はあるか」「アカデミックの立場は」などを議論。面白いオチもついている