セミナー紹介

講演資料

講義資料スライドの表紙です。スライド画像、または下の要約文中の青いページ番号リンクをクリックすると、別のタブで無駄なノイズのない、純粋なPDFビューア画面が起動し、指定されたページへ直接ジャンプして快適に閲覧できます。

全体概要

このセミナーは「AIは意味をどのように扱っているのか？ ── ChatGPTの不思議 ──」と題し、現在のAI技術、とりわけ大規模言語モデル（LLM）が「意味」という概念をどのように計算機上で扱っているのかを、技術史的な流れに沿って深く掘り下げる試みです。

セミナーの出発点は、2022年末から2023年初頭にかけてIT業界に走った衝撃、すなわちChatGPTの登場がGoogleに「コード・レッド」を引き起こし、MicrosoftがOpenAIに100億ドル規模の投資を進めるという業界再編の予兆です。この文脈を踏まえつつ、講義は「なぜChatGPTはGoogleの検索ビジネスを脅かすのか」という問いを起点に、Googleが長年構築してきたKnowledge GraphとEntityモデルという「意味の記号的・構造的表現」のアプローチと、ニューラルネットワークに基づく「意味の分散表現」のアプローチを対比的に論じます。

前者のEntityモデルは、人間が集合知（folksonomy）によって定義した「もの・こと」の存在論的構造（Ontology）を機械に与えるものですが、その構築は人力に依存し、網羅性に原理的な限界があります。後者の分散表現論は、BengioやHintonらの問題意識を源流として、語の意味を高次元ベクトルで表すWord2Vec（Mikolov, 2013）から始まり、Seq2SeqモデルやAttention機構を経てGoogleのニューラル機械翻訳（GNMT, 2016）へと結実します。そのGNMTの多言語拡張実験において、異なる言語で同じ意味を持つ文が共通のベクトル空間にクラスタリングされるという「インターリンガ（interlingua）」の存在が示唆されたことは、機械が言語横断的な意味の共通表現を自律的に発見する能力を持つ可能性を示す、エポックメイキングな発見です。

セミナー全体の結論として浮かび上がるのは、「意味の共通表現が存在し、それを機械が自律的に発見できる」という事実こそが、ChatGPTへと続く大規模言語モデルの成功の本質的な基盤であるという洞察です。同時に、RNNが文法的に正しい文章を生成できても意味を持たせられなかった段階の議論や、compositionalityの欠如という現行LLMの弱点への言及は、この技術の限界を冷静に見つめる視座も提供しています。

講義のロードマップ

■ はじめに: ChatGPTに対するGoogleとMicrosoftの反応

この部の核心:

ChatGPTの登場が単なる技術的新奇性にとどまらず、Googleの検索＋広告という21世紀のIT基盤ビジネスモデルを根底から脅かしうる事業インパクトを持つことを、実際の報道・業界動向を通じて示します。「意味を直接答える」AIと「リンクを返す」検索エンジンの本質的差異がここで示されます。 [p.4], [p.5], [p.6], [p.7], [p.8]

論理展開:
2022年12月のNYT報道：GoogleでChatGPTが「コード・レッド」を引き起こし、CEOサンダー・ピチャイが社内の作業方針を刷新 [p.5], [p.6]
広告統合の困難さとOpenAIの運営コスト（月300万ドル）など、ChatGPTの経済的現実 [p.8]
MicrosoftがOpenAIへ100億ドル規模の投資を進め、Bing・Office・GitHub Copilotへの統合を目指す戦略的動き [p.13], [p.14]
GoogleのLaMDA：偏見・誤情報の伝播リスクを承知しつつも、AI原則を遵守するとして一般公開を慎重に進める立場 [p.9], [p.10], [p.11], [p.12]

■ Part 1: Google検索と意味理解

この部の核心:

Googleの検索技術が2012年のKnowledge Graph導入を境に「文字列検索＋PageRank」から「Entity・知識グラフベースの意味検索」へと転換したことを論じます。EntityモデルとIntentモデルという二つの意味理解アプローチの進化と融合、そしてその本質的弱点であるfolksonomy依存性が明らかにされます。 [p.16], [p.17], [p.19]

論理展開:
Knowledge Graphの目標：「正しいものを見つける」「最良の要約を得る」「さらに深く広く」── Entity（人・場所・もの）をノード、関係をエッジとするグラフ構造 [p.20], [p.21], [p.22]
Schema.orgによるEntityの型・階層・プロパティの定義（folksonomy：人間の集合知による分類）[p.23], [p.24], [p.25], [p.26], [p.27]
Knowledge Graph Search APIによるTaylor Swiftのエンティティ検索の具体例 [p.28], [p.29]
Intentモデル（Alexa/Echoのスロット・Intent Signature）：動詞命令形のみの世界からEntityモデルを援用した「文」的構造への進化 [p.31], [p.41], [p.42], [p.43]
Entityモデルの弱点：階層・プロパティは人間が経験的に決定せざるを得ず、ChatGPTの「人間のフィードバック」重視も同質のfolksonomy的陳腐化リスクを抱える [p.35], [p.36], [p.47]

■ Part 2: 意味理解への様々なアプローチ

この部の核心:

意味理解のアプローチを「語の意味表現」「文の構成性（compositionality）」「文の意味表現（Semantics）」の三軸で整理し、現在の主流実装（Intent/Entity/機械翻訳モデル）がいずれも文法的構成性を明示的に扱っていない事実を浮き彫りにします。 [p.50], [p.51], [p.58]

論理展開:
大規模言語モデルは「意味の分散表現」を語・文レベルで採用しており、自然言語の意味を実際に扱うことに成功した事実上初の実装 [p.53]
文と意味の構成性（compositionality）：チョムスキーの例文「Colorless green ideas sleep furiously」（文法的だが無意味）や構文的曖昧性「I saw a man with a telescope」[p.56]
意味の同一性と翻訳：言語を超えた「意味の共通表現」の存在が大規模言語モデル成功の根拠 [p.57]
各モデルの比較表：Word2Vec（分散表現のみ）、IBM Watson（辞書項目＋English Slot Grammar＋論理式）、CCG（型付きラムダ式・Curry-Howard対応）、DisCoCat（分散表現＋Pregroup Grammar＋Functor Semantics）[p.62]
GoogleのKristina Toutanovaらが事前学習LLMのout-of-distribution compositional generalizationの弱点を指摘し始めた動向 [p.66]

■ Part 3: 意味の分散表現論の登場

この部の核心:

「次元の呪い」という組み合わせ爆発問題を出発点として、語の意味を多次元ベクトルで表す分散表現論の誕生を辿ります。HintonのAutoencoder、MikolovのWord2Vec、IlyaのRNNによる文生成という三つの源流が合流して、文の意味ベクトルへの道が開かれます。 [p.71]

論理展開:
Bengioの「次元の呪い」（2003）：語彙10万語の10語文は10の50乗種類存在し、統計的網羅は不可能。語の特徴ベクトルを確率関数と同時学習するアイデアを提案 [p.73], [p.75], [p.76], [p.77]
HintonのAutoencoder（2006）：2000次元画像→30次元コード→復元というEncoderの構造、書籍40万冊の分類に成功した「Semantic Hashing」の概念 [p.80], [p.81], [p.82], [p.83], [p.84], [p.85], [p.86], [p.87]
Word2Vec（Mikolov et al., 2013）：CBOW・Skip-gramモデルにより語の意味ベクトルを生成、King－Man＋Woman≈Queenというベクトル演算（Vector Offset Method）、文法的・意味的規則性の発見 [p.89], [p.90], [p.91], [p.96], [p.97], [p.98], [p.99], [p.100], [p.101]
cosine similarityによる語の意味の近さの定式化 [p.102]
Ilya Sutskever（2011）：5億文字を学習したRNNが文法的に正しい文章を生成するも「意味」を欠く。Karpathy（2015）：数学論文・Cソースコード（モドキ）の生成でRNNの構文習得能力を実証 [p.112], [p.113], [p.114], [p.117], [p.118], [p.119], [p.123], [p.125]

■ Part 4: 意味の分散表現論の発展

この部の核心:

Seq2SeqモデルによるEncoderとDecoderの接続が「文の意味ベクトル」という概念を生み出し、Attentionメカニズムが固定長ベクトルのボトルネックを解消したことで、GoogleニューラルMT（GNMT）が実用化されます。多言語GNMTの実験においてインターリンガ（普遍的意味表現）の存在が示唆され、大規模言語モデルの成功の本質的根拠が与えられます。 [p.131], [p.132]

論理展開:
Ilya Sutskever et al.「Sequence to Sequence Learning with Neural Networks」（2014）：LSTMのEncoder（入力文→固定次元ベクトル）＋Decoder（ベクトル→翻訳文）という構造。英仏翻訳でBLEU 34.81を達成 [p.134], [p.135], [p.136], [p.137], [p.138], [p.139], [p.141]
Bahdanau et al.「Neural machine translation by jointly learning to align and translate」（2016）：固定長ベクトルがボトルネックとなるため、Annotation（各時刻の隠れ状態）の加重和Context c_iをDecoderに供給するAttention機構を提案。長文での翻訳精度低下を解消 [p.143], [p.144], [p.145], [p.146], [p.147], [p.148], [p.151], [p.152], [p.153]
GNMT（Yonghui Wu et al., 2016）：8段LSTMのEncoder/Decoder＋Residual Connection＋Bidirectional Bottom Layer＋Attention。量子化推論（8bit整数演算）も実装 [p.158], [p.160], [p.161], [p.162], [p.163], [p.164], [p.165]
Google多言語GNMT（Melvin Johnson et al., 2016）：ターゲット言語トークンを入力に追加するだけで単一モデルが多言語翻訳を実現。12言語・278Mパラメータが個別12モデル（計3.33B）と同等性能 [p.168], [p.169], [p.170], [p.171], [p.172]
ゼロ・ショット翻訳（スペイン語→ポルトガル語）の実証と、t-SNE可視化による「インターリンガ」の存在示唆：言語にかかわらず同じ意味を持つ文が共通のAttentionベクトル空間にクラスタリングされる [p.173], [p.174], [p.175], [p.176], [p.177], [p.178], [p.179], [p.180], [p.181]