講演資料
講義資料スライドの表紙です。上のスライド画像をクリックすると、同じ画面のまま全編のPDF資料を快適に閲覧・印刷することができます。
セミナーの概要
本セミナー「LLMのマグニチュード論 1」は、Tai-Danae Bradleyによる2025年の論文「The Magnitude of Categories of Texts Enriched by Language Models」(arxiv:2501.06662)の前半部分を丁寧に読み解くことを目的とした、連続セミナーの第一回目です [p.5]。
このセミナーが立てる中心的な問いは、「LLMは内部でどのような確率計算を行っているのか」、そして「その確率計算はenrichedカテゴリー論の言葉でどのように定式化されうるのか」という二点に集約されます。
現在のLLMの振る舞いの最もプリミティブな核心は、Transformerがあるトークンの次に来るトークンの確率を計算し、そのトークンを選び出す確率的サンプリングにあります [p.18]。この事実は広く知られています。しかし「確率的サンプリングの連続が、なぜ言語の意味の理解として現れるのか」を説明することは簡単ではなく、「LLMはブラックボックスだ」という批判が生まれる土台ともなっています [p.19]。
Bradleyの2022年論文 [p.20] は、言語Lにおいてトークンxの後に出現できるすべてのトークンをL(x,-)で表し「これがxの意味だ」とするco-presheaf意味論を導入し、enrichedカテゴリーの手法でLLMと同様に[0,1]の確率値を射に付与する画期的なフレームワークを構築しました。ただし、π(y|x)の具体的な計算方法は明示されていませんでした。
2025年の論文はこの空白を埋めます。文頭トークン「⊥」と文末トークン「†」を導入し、有限のコンテキストサイズ(カットオフN)のもとで、プロンプトxに対するLLMの出力yの確率π(y|x)が、次トークン確率の積として厳密に定義され、かつ終端状態集合T(x)上で確率質量関数となることが証明されます [p.32, p.49]。これにより[0,1]-カテゴリー ℒ および[0,∞]-カテゴリー ℳ(Lawvereの一般化された距離空間)がLLMから自然に導出され、マグニチュード理論への橋渡しが完成します [p.95, p.101, p.104]。
産業革命が熱力学を生み、エントロピーが情報科学の中心概念となったように、LLMの理論的探究がエントロピーと深く結びついたマグニチュードの理論を呼び込みつつあるという歴史的射程もセミナーは示唆しています [p.25]。
講義のロードマップ
ここでは、セミナーの講演資料がどのようなパートから構成されているかを示します。また、それぞれのパートのポイントを紹介します。
■ Part 1: BradleyのLLMモデル論概要
Bradleyの2025年論文が解決しようとする二つの課題「2022年LLMモデルの拡大」と「LLMとマグニチュード論の結合」の全体像を俯瞰し、今回のセミナーが論文前半の「モデルの拡大」に集中することを位置づけます [p.6]。2022年モデルの限界(π(y|x)の非明示性)と、2025年論文が⊥・†・カットオフNを導入することでその限界を突破する方向性が示されます [p.10, p.11]。
■ Part 2: LLMの確率計算
本セミナーの数理的中核部分です。有限アルファベットA上の自由半群A\*からトークン・テキスト・部分カテゴリーを定義し [p.33〜p.37]、LLMの実際のステップごとの動作(次トークン確率の生成→サンプリング→終了判定)を厳密に定式化します [p.39〜p.41]。π(y|x)を次トークン確率の積として定義し [p.45]、それが終端状態集合T(x)上で確率質量関数となること命題1を帰納法で証明することがこのPartのゴールです [p.49, p.76〜p.81]。
■ Part 3: Enrichedカテゴリー論とLLMモデルの拡大
命題1で確立されたπ(y|x)を使い、LLMからenrichedカテゴリーを具体的に構成します。可換monoidal前順序の定義(定義3・4)を基盤に [p.92]、単位区間[0,1]上のenrichedカテゴリー ℒ(ℒ(x,y):=π(y|x))と、対数変換d(x,y):=−lnπ(y|x)を距離とする[0,∞]上のenrichedカテゴリー ℳ(Lawvereの一般化された距離空間)を導出します [p.95, p.101〜p.104]。これにより次回のマグニチュード計算への準備が整います [p.106]。
ページのナビゲート