大規模言語モデルの数学的構造

資料pdf )

セミナーへのお誘い

このセッションでは、 まず最初に、なぜ、このようなセミナーを企画したのかについて述べてみたいと思います。

大規模言語モデルの働きがよくわからない

第一の理由は、個人的なものですが、単純なものです。

それは、僕自身、大規模言語モデルの働きでよく分かっていないところがいろいろあり、もっとそれをよく理解したいと思っているからです。

意味の分散表現と、補助的にはAttentionメカニズムの理解を通じて、大規模言語モデルの生誕の地ともいうべき「機械翻訳モデル」の振る舞いは、だいたい理解できたと思います。

ただ、ChatGPT以降の、いわゆる「生成AI」の働きには、いろいろ謎があるように感じています。

大規模言語モデルの振る舞いには理由がある

今回のセミナーを開催した二つ目の理由は、生成AIの「飛躍」の不思議さを数え上げることではありません。むしろ逆の、「不思議に見えることには理由があるはずだ」という考えからです。

AIに対して、その「応用」や「ビジネス」の観点からの関心が高いのは、ある意味当然のことかもしれません。ただ、AIの振る舞いに謎があるなら、その技術的な「理由」とさらに深い「根拠」を問う研究も、確実に広がっていると僕は考えています。

今回紹介するTai-Danae Bradleyのアプローチもその一つです。現実に進行している実際的な問題からはある意味無関係な議論に思えるかもしれないこうした研究も、いつか実際的な「応用」へと身を結ぶことがあると僕は考えています。

「根拠」は数学的に表現される

今回のセミナーには、もう一つの、先に述べた二つの理由より少し抽象的な開催の理由があります。

それは、技術の基礎には科学的な認識があり、さらに進んでその基礎は数学的に表現されうると僕が考えているからです。大規模言語モデルの不思議な振る舞いにも数学的根拠があるはずです。

そうした研究が切り開くのは、基礎へ掘り進んでいくだけの一方向の認識の「深化」だけではありません。興味深いのは、そうした過程が、全く抽象的な無意味な形式と思われていた数学理論の「応用」の領域の発見として、認識の「豊富化」として現れることがあるということです。

カテゴリー論の応用のフィールドとしての大規模言語モデル

Tai-Danae Bradley の議論は、まさに、カテゴリー論の応用のフィールドとして大規模言語モデルを取り上げています。これは、カテゴリー論にとっても、大規模言語モデルにとっても、あたらしい切り口です。

今回のセミナーは、すこし、とっつきにくいところがあるかもしれません。ただ、技術者には身近な大規模言語モデルを通じて、技術者が抽象的なカテゴリー論の基礎を学習することが可能なのだと思い始めています。

構成的分散意味論の展開

語の意味をどう捉えるか-- 分散意味論の系譜

( スライド資料pdf  blog:「 分散意味論の系譜 」)

DisCoCatの登場

( スライド資料pdf  blog:「 DisCoCatの登場 」)

Quntum NLP

( スライド資料pdf  blog:「 Coecke のQNLP 」)

大規模言語モデルの特徴

Tai-Danaeの問題提起

( スライド資料pdf  blog:「 なぜ、Tai-Danaeの議論に注目するのか 」)

Tai-Danaeの道具箱

( スライド資料pdf  blog:「 Tai-Danaeはどんな概念装置を利用したか? 」)

若干の補足

番外編1: Tai-Danaeのアメリカ数学会デビュー論文へのコメント

( スライド資料pdf  blog:「Tai-Danaeの仕事は、まだ十分には理解されていないのかも 」)

番外編2: 純粋数学と応用数学-- Voevodskyが考えたこと

( スライド資料pdf  blog:「 若い数学者が考えたこと 」)

あらためて、セミナーの目的について

( スライド資料pdf  blog:「 あらためて、セミナーの目的について 」)

Tai-Danaeのアプローチ入門

preorderとしての言語

( スライド資料pdf  blog:「 言語のプリミティブな構造を考える 」)