全体概要

本セミナーは、「自然言語の意味(Semantics)をいかにして計算機が扱えるようにするか」という根本的な問いに挑んでいます。その核心にあるのは、Gottlob Fregeが提唱した構成性原理(Compositionality)——「複合表現の意味はその部分の意味と結合規則によって決定される」——であり [p.2]、この原理を数学的・計算論的に実装することが本講義全体を貫く主題です。Richard Montagueが宣言した「形式言語と自然言語の間に重要な理論的差異は存在しない」という命題 [p.3] は、自然言語処理を厳密な数理的枠組みで扱う正当性を与えています。

セミナーはPart I・II・IIIの三部構成に加えAppendixを持ちます。Part Iでは、音声対話AIにおけるIntent・Entity認識から始まり、Word2Vec、Scene Graph、Image-Sentence Mappingといった深層学習ベースの意味表現技術を概観します。Part IIでは、言語の構造解析をChomsky流の生成文法から Lambek の圏論的文法(Pregroup Grammar)へと昇華させる数理的基盤を丁寧に構築します。Part IIIでは、CCG(Combinatory Categorial Grammars)によるSemantic Parsingと、Coeckeらが提唱したDisCoCat(DIStributional COmpositional CATegorical)モデルを詳述し、分布意味論と圏論的構造を統合することで文の意味をFunctor(函手)として計算する手法を示します。

全体を貫く理論的中核は、F. W. Lawvereの洞察「理論をカテゴリーとして捉えれば、モデルはFunctorである」[p.4, p.233] です。すなわち、文法(Syntax)をカテゴリーとして、意味空間(Semantics)を別のカテゴリーとして定式化し、両者の間の意味保存写像をFunctorとして記述する——このLawvere的な枠組みがDisCoCatの哲学的・数学的支柱となっています。AppendixではさらにQuantum Semanticsへの接続が示され、量子テレポーテーションのプロトコルが文意味計算のアルゴリズムと同型であるという驚くべき洞察が提示されます [p.359]。

講義のロードマップ

ここでは、セミナーの講演資料がどのようなパートから構成されているかを示します。また、それぞれのパートのポイントを紹介します。

■ Part I: 自然言語意味処理の実装と現状

スマートスピーカー(Alexa)や検索エンジン(Google/MS)が実際に行っている意味処理——Intent認識・Entity抽出・Action Type分類——を具体例で示したうえで、深層学習(Encoder-Decoder+Attention、Word2Vec、Scene Graph)がどこまで構成性原理に迫れているか、またどこに限界があるかを浮き彫りにします [p.5]。

■ Part I(後半): 形式的意味表現——MRSとWatson

深層学習では難しい「アンダースペシフィケーション(意味的曖昧性の保持)」や「論理的厳密さ」に対応するため、CopestakeらのMinimal Recursion Semantics(MRS) [p.107〜p.116] と、WatsonのDeep Parsing基盤であるEnglish Slot Grammar(ESG) [p.119〜p.138] を解説します。

■ Part II: 圏論的文法論——LambekからPregroup Grammarへ

Chomsky流のMinimalist Programと、Joachim Lambek(1922–2014)[p.143] が構築したCategorical Grammar・Pregroup Grammarを対比しながら、「単語列の型計算が文の文法性を決定する」という代数的アプローチの数理的美しさと計算論的有用性を示します [p.141]。LawvereのFunctor Semantics [p.226] への橋渡しもここで完成します。

■ Part II(補論): 記号論・集合論・幾何学的意味論

Pregroup Grammarの数理構造を支える背景として、分数の演算アナロジー [p.189]、SaussureのSignifiant/Signifié [p.183]、非Euclidean幾何学(Lobachevskyのモデルに見る「公理と独立した公理系」) [p.212]、さらにZF集合論の独立性(Gödel・Cohen)[p.217〜p.218] が俯瞰されます。

■ Part III: CCGによるSemantic ParsingとDisCoCat

本セミナーの理論的到達点として、CCG(Combinatory Categorial Grammars)による意味解析と、Coecke・Sadrzadeh・ClarkらのDisCoatモデル [p.288, p.314] を詳述します。文法(Pregroup Category)から意味空間(FVect:有限次元ベクトル空間のCategory)へのFunctorFを明示的に構成することで、単語の分布ベクトルから文全体の意味ベクトルを計算できることを示します。