LLMと意味の理論モデル概説

Screenshot

LLMと意味の理論モデル概説

はじめに

LLMの言語の意味理解能力の獲得と驚異的な言語運用能力の実現という現実の進行を目の当たりにして、それを説明しようとする問題意識と理論が次々に生まれています。

MaruLaboでは、この夏以降しばらくの間、「LLMの理論モデルの新しい展開」という共通テーマで、複数のセミナーを連続して開催しようと思っています。

今回のセミナーは、今後予定している一連の「LLMの理論モデルの新しい展開」セミナーの全体の概要を紹介するものです。

Transformer意味論の問題

現在主流のTransformer意味論には、次のような問題があることが指摘されています。

  1. 説明可能性の欠如=ブラックボックスとしてのLLM
    Transformerは、その驚異的な性能にもかかわらず、学習された表現の内部の論理を解読することが極めて困難です。
  2. 意味の構成性と文脈依存性をめぐって 
    アテンションの重みは情報の混合比を決定するのですが、その合成を支配する明示的で厳密な文法的・論理的構造は存在しません。それは構造化された導出ではなく、重み付け和に過ぎないものです。
  3. 学習データの巨大化と力まかせの処理
    Transformerアーキテクチャは、その成功のために膨大な量のデータと計算リソースを必要としています。その性能は、モデルとデータの規模に大きく依存しています。それは、LLMが学習に利用する言語データが、「何の構造も持たない」と前提しているからです。

先行した二つの研究とカテゴリー論の利用

LLMと意味の理解の問題に切り込んだ先駆的な研究が二つあります。

一つは、Tai-Danae Bradleyらの「米田埋め込み」にインスパイアされた enriched co-presheaf 意味論で、もう一つは、Bob Coeckeらの「言語はそもそも量子論的だ」というQNLPです。

BradleyとCoeckeのアプローチでには大きな違いもあるのですが、言語と意味の理解についてその「構成性」が重要であるという認識では、両者は一致しています。

両者は、何の構造も持たないように見える言語データ自身に、すでに構造が先在的に内在していると考えます。こうした構造を、「構造的プライア(structural prior)」と呼びます。

こうした、Bradley とCoeckeのアプローチは先に見た現在主流のTrnsformer意味論への共通の批判的立場を提供するものです。

両者はまた、カテゴリー論(圏論)を主要な数学的なツールとして用いています。これも大きな特徴です。

Bradleyのenriched cayegiryの利用、Coeckeのcompact closed category の利用は、特徴的なものです。また、両者は文法的=構文論的なカテゴリーから意味のカテゴリーの導出に、二つのカテゴリーの構造を保存する functor(関手)を利用します。

こうしたカテゴリー論的フレームワークは、次の節で見るLLMと意味の理論をめぐる現在進行中の様々な取り組みに大きな影響を与えています。

LLMと意味の理論モデルの新しい展開

こうした先駆的な研究を受けて、現在、活発に研究されているLLMと意味の理論では、僕は次の三つの流れに注目しています。今回の連続セミナーで取り上げようと思っているのは、こうした流れです。

ここでは、こうした流れの特徴を簡単に紹介しようと思います。あわせて、それらを代表する論文を上げておこうと思います。

  1. Bradleyらの意味の距離空間モデルとMagnitude概念の導入

    Bradleyは、現在のLLMの働きを反映しているテキストの確率論的モデルに、再び enriched categoryの手法を適用して、新しいMagnitude概念をベースとした意味の距離空間モデルを構築し、そこが意味解釈の舞台として望ましい性質を持っていることを示しました。

    The Magnitude of Categories of Texts Enriched by Language Models
  2. Coeckeらの量子コンピュータ上でのQNLP実装の進展

    Coeckeらは、限られた実験環境のもとでも、着実に量子コンピュータ上での自然言語処理の実装を進めています。特に近年のsurface codeを中心とする量子コンピュータ実装技術の発展は、大きな追い風になっています。

    Scalable and interpretable quantum natural language processing: an implementation on trapped ions
  3. VlassopoulosらのLLMの内部動作の解析

    上の二つの流れとは、少し異なる取り組みです。LLMに外部から入力として与えられている学習データやLLMの外部への出力の特徴を分析するのではなく、現在のLLMの内部の振る舞いを具体的に数学的に解析しようとしたものです。驚くべきことに、その解析結果は、Bradleyらの意味モデルを支持するものになっています。

    Directed Metric Structures arising in Large Language Models

新しいモデルの数学的ツール

この注目すべき三つの流れは、それぞれ異なる数学的なツールを中心的に利用しています。その概略を紹介します。

  • 第一のBradleyらのグループの理論展開では、magnitude論、magnitude homology論の利用が目を惹きます。magnitude論を用いて「意味の近さ」だけでなく「意味の形」「意味の空間の幾何学(例えば、「意味空間の穴」)」が縦横に語られます。

    magnitude論は、エントロピー論と深い関係を持っているのですが、Bradleyの論文は、基本的には言語理論の論文なのですが、統計力学の分配関数に遡って、シャノン・エントロピーとmagnitudeとの関係が論じられています。
  • 第二のCoeckeらのグループの研究が利用する数学的ツールで興味深いのは、CoeckeがQNLPとは独立に(おそらく)量子力学のツールとして展開してきた string diagramを利用するZX-calculusの技術が、ぴたりと彼のQNLPの理論と実験の中に組み込まれようとしていることです。

    ZX−calculusは、現在の量子コンピュータ技術の革新の中心であるsurface codeの基礎理論として、熱い期待を集めている技術です。
  • 第三のVslassopoulosらの用いる数学的ツールは、少しなじみがないものかもしれません。それは、Tropical代数と言われるツールです。

    Tropical代数については、マルレクで取り上げたことがあります。次の資料を参照ください。

    ニューラル・ネットワークの数理 −− Tropical代数入門

今回のセミナーの目的

こうしたトピックを取り上げて、今後の「LLMの理論モデルの新しい展開」を共通のテーマとする連続セミナーの概要を明らかにすることが目的です。

セミナーに向けたセッション資料

8/16 マルレクへのお誘い

↑ 見出しクリックでYouTubeへ; ↓ pdfはスクロールで全文読めます

意味の理論モデルとカテゴリー論

Functorが意味を捉える

↑ 見出しクリックでYouTubeへ; ↓ pdfはスクロールで全文読めます

カテゴリーのenrich化

「一般化された距離空間」

カテゴリー論とエントロピー論

Out of Band

セミナーのタイトルを変更しました

↑ 見出しクリックでYouTubeへ; ↓ pdfはスクロールで全文読めます

Deep Dive Audio

三つのオーディオファイルを公開しました

↑ 見出しクリックでYouTubeへ; ↓ 公開したファイルの情報は次のpdfで読めます

意味の理論モデルの系譜

DisCoCat −− CoeckeとBradley

↑ 見出しクリックでYouTubeへ; ↓ pdfはスクロールで全文読めます

Bradleyの理論の発展を追う

量子コンピュータと意味のモデルの未来