意味の分散表現論の系譜

講演資料

講義資料スライドの表紙です。上のスライド画像をクリックすると、同じ画面のまま全編のPDF資料を快適に閲覧・印刷することができます。

セミナーの概要

本セミナーは「AIは意味をどのように扱っているのか？」という根本的な問いを出発点とし、現代の大規模言語モデル（LLM）が「ことばの意味」をコンピュータ上で表現するに至った技術的系譜を、2003年から2019年にかけての重要論文群を軸に丁寧に辿るものです。[p.1, p.2] ChatGPTが多くの人々に強い印象を与える理由は、機械が自在にことばを操る能力を獲得したように見えるからです。翻訳・関連データ検索・要約・対話といった「言語能力」の画期的進歩は、「大規模言語モデル」という技術の登場と成長によって初めて可能となりました。その成長の鍵は、「ことばの意味」をコンピュータ上で表現する方法を見つけたことにあります。[p.5, p.6, p.7] 重要なのは、この技術が「意味が同じ」ことのみならず「意味が近い」こと、さらには言語を超えた「意味の共通表現（インターリンガ）」の存在をも計算機上で扱えるようにした点です。Googleの多言語ニューラル機械翻訳の実験は、異なる言語で同じ意味を持つ文が、ネットワーク内部で共通のベクトル空間にクラスタリングされることを視覚的に示しており、これは「普遍的な意味表現」が存在することを強く示唆しています。[p.8, p.82, p.83, p.84, p.85, p.86, p.87, p.88] 本セミナーは、この「意味の分散表現」技術の系譜を、Bengioの分散表現論（2003年）→HintonのAutoencoder（2006年）→RNNによる文生成（2011年）→Word2Vec（2013年）→Sequence to Sequence（2014年）→Attention Mechanism（2016年）→Transformer（2017年）→BERT（2019年）という連鎖として歴史的・論理的に描き出します。講師は、21世紀のAI技術を18世紀の蒸気機関に喩え、技術が先行し理論がそれを後追いするという現在のフェーズを強調します。この技術の背後にある理論はいまだ多くの謎に満ちており、探求はまさに進行中です。[p.10]

講義のロードマップ

ここでは、セミナーの講演資料がどのようなパートから構成されているかを示します。また、それぞれのパートのポイントを紹介します。

■ Part 1: 意味の分散表現論のはじまり

「文」全体を統計的に扱うアプローチが「次元の呪い」により限界に達したことへの反省から始まり、まず「語」に意味のベクトル表現を与え、そこから「文」の意味へと段階的に拡張していく一連のブレイクスルーを追います。語の意味をm次元の実数ベクトルとして表現することで「意味の近さ」を定義できるというアイデアが、この部の核心的革新です。

■ Part 2: 大規模言語モデルへ

Seq2SeqにおけるEncoder最終状態という「固定長ベクトルのボトルネック」を、Attention Mechanismが突破します。さらにTransformerはRNN・CNNを完全に廃してAttentionのみで高性能を達成し、BERTはTransformerのEncoderを双方向・大規模事前学習に特化させることで、単一のモデルが多様な言語理解タスクへ転用可能な「言語表現モデル」として完成します。

ページのナビゲート

元のMaruLaboサイトのセミナーページに移動する

MaruLabo コンシェルジェのトップページに戻る