講演資料
講義資料スライドの表紙です。上のスライド画像をクリックすると、同じ画面のまま全編のPDF資料を快適に閲覧・印刷することができます。
セミナーの概要
本セミナー「ことばと意味の数学的構造」は、ChatGPTをはじめとする大規模言語モデルの登場によって改めて注目を集めた「ことばと意味」という問題を、AI工学の実装的な側面とは異なる、純粋に数学的・形式的な視点から深く探究するものです [p.1, p.2]。
中心的な問いは「意味とは何か、そしてその構造を数学はどのように記述できるか」です。現代のAIが採用する「意味の分散表現」単語をベクトルで表現する技術は、2003年のBengioに始まり、Word2Vec、Transformer、ChatGPTへと続く系譜を持ちます [p.3]。しかし本セミナーはその「もう一つの道」を辿ります。それがBob Coecke、Tai-Danae Bradleyらが提唱する「カテゴリー論的構成的分散意味論(DisCoCat)」です [p.5]。
この理論の知的な土台は1950〜60年代にまで遡ります。LawvereのFunctorial Semantics(1963年)は、「理論をカテゴリーと見なすならば、モデルはファンクターである」という根本的な洞察を提示し [p.35]、LambekのPregroup Grammar(1958/2008年)は「文法の計算ルールは二つの式で表される」という驚くべき発見をもたらしました [p.45, p.57]。本セミナーはこの二つの柱を丁寧に解説した上で、それらがいかにしてDisCoCatへと結実するかを示します。
さらに展望として、意味の分散表現の担い手をベクトルから密度行列へと置き換えることで、「ことばと意味」の理論が量子論と深く一致するという驚くべき発見があること、そして量子コンピュータ上での自然言語処理(QNLP)という新分野の実験が既に始まっていることが紹介されます [p.4, p.156]。本セミナーは、形式論理・カテゴリー論・言語学・量子論が交差する、知的に最も刺激的な研究フロンティアへの招待状です。
講義のロードマップ
ここでは、セミナーの講演資料がどのようなパートから構成されているかを示します。また、それぞれのパートのポイントを紹介します。
■ はじめに: セミナーの全体像と動機
ChatGPTの成功が「意味の分散表現」技術に依拠していることを指摘した上で、本セミナーがその「工学的系譜」とは異なる「数学的・形式的構造の探究」という視座から展開されることを宣言します。同時に公開された姉妹資料「意味の分散表現論の系譜」との補完関係も明示されます。
■ Part 1: 意味の形式的理論 Functorial Semantics
「理論(Syntax)」と「モデル(Semantics)」という数理論理学の根本的二項対立を出発点とし、LawvereがカテゴリーとFunctorによってこの対応を形式化した「Functorial Semantics」(1963年)の本質を解説します。「理論をカテゴリーと見なすならば、モデルはファンクターである」という命題が、意味論の数学的基礎として機能します [p.31, p.35]。
■ Part 2: ことばの構成性 Pregroup Grammar
ことばの構成性(compositionality)文の意味は語の意味とその文法的構成によって決定されるというテーゼを数学的に定式化する試みを追います。Chomsky(生成文法)とLambek(カテゴリー文法)という二人の巨人の出会いと分岐、そして50年を経た再会という知的ドラマとともに、Lambekの1998年のPregroup Grammar(From Word to Sentence)を詳説します [p.47, p.48]。
■ Part 3-1: DisCoCatの登場 Bob Coeckeによるアプローチ
2010年のCoecke, Sadrzadeh, Clark論文「Mathematical Foundations for a Compositional Distributional Model of Meaning」を詳解します。LambekのPregroupとベクトル空間意味論という「直交する」二理論を、両者が共に「compact closed category」であるという数学的構造の同一性によって統合し、文全体の意味を語の意味から構成的に計算する枠組みを構築します [p.84, p.91]。
■ Part 3-2: カテゴリー論の応用としてのDisCoCat Tai-Danae Bradleyによるアプローチ
Tai-Danae Bradleyの2018年論文「What is applied category theory?」に基づき、DisCoCatをFunctorial Semanticsの直接的応用として再解釈します。文法カテゴリー(PregX)から意味カテゴリー(FVect)へのFunctor F: PregX → FVectという枠組みで整理し、”bananas are fruit”の意味を実際に数値計算してみせます [p.114, p.115]。
■ Part 4: カテゴリー論的構成的分散意味論の展開
DisCoCatの現在進行形の展開として、CoeckeによるQuantum-NLP(QNLP)とTai-DanaeのReduced Density Matricesによる言語モデルを紹介します。特にQNLPは「意味と構造を結合するために量子的モデルが必要」という主張のもと、NISQデバイス上での実証実験が始まった新分野です [p.156, p.172]。
ページのナビゲート