“Next token prediction” 描像を超えて

Screenshot

“Next token prediction” 描像を超える理論の探究

今回のセミナーの問題意識の一つは、LLMを「次のトークンを確率的に予測する」機械として捉える見方は、LLMの現実の振る舞いの説明としては、十分ではないのではというものです。

“LLM = Next token prediction Machine”という描像は、先のセミナーでも触れたように LLMの成功の技術的バックボーンの役割を果たしました。そのイメージは、一方で、「生成AI = 確率論的オーム」という誤解を生み出し、他方ではAI研究者を含む多くの人に、「LLM = ブラックボックス」であることを印象付けました。ただ、後者の認識は「誤解」ではありません。

LLMのある意味不思議な振る舞い、「LLMは、Next token predictionをするシステムだ」という還元論的特徴づけと、現実のLLMが示す柔軟で高度な意味理解能力の乖離がその典型的な例だと思いますが、そのメカニズムを、embedding論に遡って解明しようとする研究が活発に展開されていることです。

“Next token prediction” 描像を超えるLLM理論の探究は、現在のLLM研究のもっとも興味深い領域だと思います。
基本的には、カテゴリー論を使ってこの問題にアプローチする流儀と、AI研究者の「ブラック・ボックス問題」に切り込もうとする流儀の、二つのアプローチがあります。興味深いのは、両者の研究がクロスする状況が生まれていることです。

AI研究者のアプローチ

SAE Sparse Autoencoders

AnthropicのChristopher Olahらの「スパーズ・オートエンコーダー」 (Sparse Autoencoders) SAE理論が代表的な議論だと思います。

これらの議論は、ブラックボックスとしてのLLMの振る舞いを、説明可能なものとして解明しようとするものです。同時に、こうした研究は、LLMの安全性を人間がキチンとコントロールする可能性を開くものでもあります。

音声概説 SAE

個人的には、こうした研究は、VlassopoulosらのLLMの内部動作の解析と通じ、それをステップに BradleyのLLMのMagnitude論に通ずると考えています。

MI Mechanistic Interpretability

この分野では、Olahらによる議論に触発された「機械論的解釈可能性」(Mechanistic Interpretability) MI理論も 興味深いものです。

音声概説 MI

カテゴリー論的アプローチ

カテゴリー論的アプローチの代表者は、Tai−Danae Bradleyです。
彼女の 「co−presheaf 意味論」は、画期的なものです。

画像クリックで、それぞれのセミナーのまとめページにアクセスできます。

Screenshot
Screenshot

Bradley

彼女の最近の研究は、次の二つの点で大きな前進を遂げています。
・LLMの内部の確率計算の精緻な分析。プロンプトxが与えられた時、LLMが出力yを返す確率π( y | x )の計算式を与えました。
・その上で、「確率」を「距離」に変換し、「意味の幾何学」への道を開きました。

音声概説 Bradley1
音声概説 Bradley2

Vlassopoulos

Vlassopoulosは、基本的にBradley と同じアプローチをとっています。
興味深いのは、彼の議論は、SAE理論の「Superinpose」の議論と親和性が高いと、僕は感じています。

音声概説 Vlassopoulos