大規模言語モデルの数学的構造 I

2023年11月8日 2025年8月6日 MaruyamaFujio

セミナー申し込みはこちらhttps://llm-math.peatix.com/view

セミナーへのお誘い — 巨人の肩に乗ろう！

まず最初に、なぜ、このようなセミナーを企画したのかについて述べてみたいと思います。

大規模言語モデルの働きがよくわからない

第一の理由は、個人的なものですが、単純なものです。

それは、僕自身、大規模言語モデルの働きでよく分かっていないところがいろいろあり、もっとそれをよく理解したいと思っているからです。

意味の分散表現と、補助的にはAttentionメカニズムの理解を通じて、大規模言語モデルの生誕の地ともいうべき「機械翻訳モデル」の振る舞いは、だいたい理解できたと思います。

ただ、ChatGPT以降の、いわゆる「生成AI」の働きには、いろいろ謎があるように感じています。

大規模言語モデルの振る舞いには理由がある

今回のセミナーを開催した二つ目の理由は、生成AIの「飛躍」の不思議さを数え上げることではありません。むしろ逆の、「不思議に見えることには理由があるはずだ」という考えからです。

AIに対して、その「応用」や「ビジネス」の観点からの関心が高いのは、ある意味当然のことかもしれません。ただ、AIの振る舞いに謎があるなら、その技術的な「理由」とさらに深い「根拠」を問う研究も、確実に広がっていると僕は考えています。

今回紹介するTai-Danae Bradleyのアプローチもその一つです。現実に進行している実際的な問題からはある意味無関係な議論に思えるかもしれないこうした研究も、いつか実際的な「応用」へと身を結ぶことがあると僕は考えています。

「根拠」は数学的に表現される

今回のセミナーには、もう一つの、先に述べた二つの理由より少し抽象的な開催の理由があります。

それは、技術の基礎には科学的な認識があり、さらに進んでその基礎は数学的に表現されうると僕が考えているからです。大規模言語モデルの不思議な振る舞いにも数学的根拠があるはずです。

そうした研究が切り開くのは、基礎へ掘り進んでいくだけの一方向の認識の「深化」だけではありません。興味深いのは、そうした過程が、全く抽象的な無意味な形式と思われていた数学理論の「応用」の領域の発見として、認識の「豊富化」として現れることがあるということです。

カテゴリー論の応用のフィールドとしての大規模言語モデル

Tai-Danae Bradley の議論は、まさに、カテゴリー論の応用のフィールドとして大規模言語モデルを取り上げています。これは、カテゴリー論にとっても、大規模言語モデルにとっても、あたらしい切り口です。

今回のセミナーは、すこし、とっつきにくいところがあるかもしれません。それは当然かもしれません。なぜなら、ここでの議論のベースになっているのは、50年以上前に数学の巨人であるグロタンディックやローベールたちが純粋数学の世界で作り上げた、functorial semantics, presheaf, topos という道具たちだからです。

不思議なことが起きている

しかし、大規模言語モデルの不思議さ以上に不思議なことが現在起きています。それは、かつての巨人たちが作り上げた抽象的な数学理論を、私たちが具体的な例を通じて容易に理解する道が開かれつつあるということです。僕もYoneda lemma の名前ぐらいは知っていたのですが、その「実際的な応用」をIT技術者に語ることがあるなんて、まったく考えたことはありませんでした。