大規模言語モデルの数学的構造 I

セミナー申し込みはこちらhttps://llm-math.peatix.com/view
セミナーへのお誘い -- 巨人の肩に乗ろう!
まず最初に、なぜ、このようなセミナーを企画したのかについて述べてみたいと思います。
大規模言語モデルの働きがよくわからない
第一の理由は、個人的なものですが、単純なものです。
それは、僕自身、大規模言語モデルの働きでよく分かっていないところがいろいろあり、もっとそれをよく理解したいと思っているからです。
意味の分散表現と、補助的にはAttentionメカニズムの理解を通じて、大規模言語モデルの生誕の地ともいうべき「機械翻訳モデル」の振る舞いは、だいたい理解できたと思います。
ただ、ChatGPT以降の、いわゆる「生成AI」の働きには、いろいろ謎があるように感じています。
大規模言語モデルの振る舞いには理由がある
今回のセミナーを開催した二つ目の理由は、生成AIの「飛躍」の不思議さを数え上げることではありません。むしろ逆の、「不思議に見えることには理由があるはずだ」という考えからです。
AIに対して、その「応用」や「ビジネス」の観点からの関心が高いのは、ある意味当然のことかもしれません。ただ、AIの振る舞いに謎があるなら、その技術的な「理由」とさらに深い「根拠」を問う研究も、確実に広がっていると僕は考えています。
今回紹介するTai-Danae Bradleyのアプローチもその一つです。現実に進行している実際的な問題からはある意味無関係な議論に思えるかもしれないこうした研究も、いつか実際的な「応用」へと身を結ぶことがあると僕は考えています。
「根拠」は数学的に表現される
今回のセミナーには、もう一つの、先に述べた二つの理由より少し抽象的な開催の理由があります。
それは、技術の基礎には科学的な認識があり、さらに進んでその基礎は数学的に表現されうると僕が考えているからです。大規模言語モデルの不思議な振る舞いにも数学的根拠があるはずです。
そうした研究が切り開くのは、基礎へ掘り進んでいくだけの一方向の認識の「深化」だけではありません。興味深いのは、そうした過程が、全く抽象的な無意味な形式と思われていた数学理論の「応用」の領域の発見として、認識の「豊富化」として現れることがあるということです。
カテゴリー論の応用のフィールドとしての大規模言語モデル
Tai-Danae Bradley の議論は、まさに、カテゴリー論の応用のフィールドとして大規模言語モデルを取り上げています。これは、カテゴリー論にとっても、大規模言語モデルにとっても、あたらしい切り口です。
今回のセミナーは、すこし、とっつきにくいところがあるかもしれません。それは当然かもしれません。なぜなら、ここでの議論のベースになっているのは、50年以上前に数学の巨人であるグロタンディックやローベールたちが純粋数学の世界で作り上げた、functorial semantics, presheaf, topos という道具たちだからです。
不思議なことが起きている
しかし、大規模言語モデルの不思議さ以上に不思議なことが現在起きています。それは、かつての巨人たちが作り上げた抽象的な数学理論を、私たちが具体的な例を通じて容易に理解する道が開かれつつあるということです。僕もYoneda lemma の名前ぐらいは知っていたのですが、その「実際的な応用」をIT技術者に語ることがあるなんて、まったく考えたことはありませんでした。
パラダイムシフトの舞台は大規模言語モデル
現実の大きな変化に対応して、きっと何か大きな理論的なパラダイムシフトが進行しているのだと思います。その舞台が、カテゴリー論と比較してはるかに多くの人が関心を持っている大規模言語モデルだと、僕は考えています。
巨人の肩に乗ろう!
今回のセミナーの準備を通じて、僕は、技術者には身近な大規模言語モデルを通じて、技術者が抽象的なカテゴリー論の基礎を学習することが可能なのだと思い始めています。きっと、皆が、当たり前のように、巨人の肩の上に乗ればいいのです。
大規模言語モデルや人工知能を語るにはカテゴリー論が必要で、逆に、カテゴリー論を語るには言語理論や人工知能論といった背景が必要なのだという認識が、きっと一般的なものになるだろうと考えています。
セミナーへのお誘い
( スライド資料pdf blog:「 巨人の肩に乗ろう! 」)
Part 1 構成的分散意味論の展開
語の意味をどう捉えるか?
( スライド資料pdf blog:「 分散意味論の系譜 」)
言語の構成性をどう捉えるか?
( スライド資料pdf blog:「 ことばと意味の構成性をどう捉えるか 」)
DisCoCatの登場
( スライド資料pdf blog:「 DisCoCatの登場 」)
Quntum NLP
( スライド資料pdf blog:「 Coecke のQNLP 」)
Part 2 大規模言語モデルの特徴
Tai-Danaeの問題提起
( スライド資料pdf blog:「 なぜ、Tai-Danaeの議論に注目するのか 」)
Tai-Danaeの道具箱
( スライド資料pdf blog:「 Tai-Danaeはどんな概念装置を利用したか? 」)
Part 3 言語をカテゴリーとして捉える
preorderとしての言語
( スライド資料pdf blog:「 言語のプリミティブな構造を考える 」)
categoryとしての言語
( スライド資料pdf blog:「 なぜ、言語をcategory として捉えるのか? 」)
functor:言語のcategoryと意味のcategoryを結ぶ
( スライド資料pdf blog:「 意味の世界はどこにある? 」)
Part 4 意味をカテゴリーとして捉える
functor category と意味
( スライド資料pdf blog:「 John Firthの意味理解をカテゴリー論的に解釈する 」)
Yoneda embeddingと意味の表現
( スライド資料pdf blog:「 言語と意味の関係をカテゴリー論で整理する 」)
言語のcategoryに確率を導入する --enriched category
( スライド資料pdf blog:「 セミナーを二つに分割します 」)
Part 5 言語の論理性とcopresheaf
Appendix
Tai-Danaeのアメリカ数学会デビュー論文へのコメント
( スライド資料pdf blog:「Tai-Danaeの仕事は、まだ十分には理解されていないのかも 」)
純粋数学と応用数学-- Voevodskyが考えたこと
( スライド資料pdf blog:「 若い数学者が考えたこと 」)
数学から計算科学へ、そしてその逆 -- MIP* = RE の場合
( スライド資料pdf blog:「 数学から計算科学へ、そしてその逆 」)