講演資料
講義資料スライドの表紙です。上のスライド画像をクリックすると、同じ画面のまま全編のPDF資料を快適に閲覧・印刷することができます。
セミナーの概要
本セミナー「機械の言語能力の獲得を考える」は、現代AI技術の到達点を「機械が言語能力を獲得した」という視点から捉え直し、その歴史的・技術的な根拠を丁寧に辿る試みです [p.1, p.16]。
アラン・チューリングが1950年に提起した「機械は考えられるか」という問いは、当初は「意味をなさない」として退けられながらも、世紀末には自明の問いになると彼は予言しました [p.2, p.3]。その予言は、ChatGPTの登場をもって実質的に成就したと言えるかもしれません。
セミナーが中心に据える問いは「機械はどのようにして意味を理解するようになったのか」です [p.17]。講師はこの問いに対し、21世紀初頭から積み重ねられてきた「意味の分散表現論」の発展史が一つの回答を与えると主張します。語の特徴をベクトルで表す試みに始まり、Word2Vec、Seq2Seq、Attention機構、Transformer、そしてBERT・GPT・ChatGPTへと結実する理論の系譜が、本セミナーの縦糸をなしています [p.21]。
この旅の核心にあるのは「embedding(埋め込み)」という概念の発見です。講師はこれを「この四半世紀のAI研究の白眉」と称し、音声・文字に次ぐ「ことばの第三の形態」と位置づけます [p.22]。人間と機械が共通言語としてembeddingを獲得したことで、機械と意味を通じ合うことが初めて可能になったというのが、本セミナーの根本的な主張です。
一方で、AGI(汎用人工知能)論に代表される誇大な予言については批判的な距離を保ちます。「AIとはまだできていないこと全てである」というホフスタッターの皮肉を引きつつ、AI技術の到達点を冷静に評価することの重要性を強調します [p.25]。言語能力の獲得は機械が正しいことを言うことを意味せず、ただ「言語能力なしには優れた知性に成長できない」という意味において、この到達点は人類史的な重みを持つと論じられます [p.19]。
全体は三部構成で展開されます。Part 1では意味の分散表現論の歴史的系譜、Part 2では翻訳モデルから大規模言語モデル(LLM)への進化の構造、Part 3ではLLMの成功を支えた技術的優位性(Next Token Prediction、Self-Supervised Learning、In-Context Learning、RAG)が論じられます。
講義のロードマップ
ここでは、セミナーの講演資料がどのようなパートから構成されているかを示します。また、それぞれのパートのポイントを紹介します。
■ 導入: 今回のセミナーの問題意識
生物としての人間が持つ言語能力の生得性を出発点に、機械が「意味を理解する」能力をいかにして獲得したかを問います。チャメレオンのような動物の身体能力と人間のウサイン・ボルトを並置し、機械が目・コミュニケーション能力・言語能力という生物の根幹的機能を模倣してきた歴史的文脈を素描します [p.6, p.7, p.8]。
■ Part 1: 意味の分散表現論の系譜
2003年のBengioから2022年のChatGPTに至る約20年間の技術史を、「意味とは何か」を問い続ける理論的旅として描きます。各論文が前の問いへの答えであると同時に次の問いの出発点であるという、累積的な知識構築の構造が明示されます [p.27, p.33]。
■ Part 1(続): Seq2SeqからTransformerへ
語(word)レベルの意味表現から文(sentence)レベルへ、さらには多言語横断的な「意味の共通表現」へと発展していく過程を追います。翻訳という具体的なタスクが、意味表現の探究エンジンとして機能したことが示されます [p.57]。
■ Part 1(続): Transformer / BERT
Vaswaniらの「Attention is all you need」(2017)は、RNN・CNNを完全に排除し、Attention機構のみに基づく新アーキテクチャ「Transformer」を提案。これが現代の大規模言語モデルすべての基礎となります [p.83, p.84, p.85]。
■ Part 2: 翻訳モデルから大規模言語モデル LLM への進化
TransformerからBERT(Encoder-only)とGPT(Decoder-only)という二つの流れが分岐し、最終的にDecoder-onlyアーキテクチャの勝利として大規模言語モデルが成立したことを解説します。「翻訳モデルの解体」と「より一般的なAIモデルの模索」という構造的転換が主題です [p.124, p.127, p.128, p.133, p.134]。
■ Part 3: 大規模言語モデル LLM の成功を支えたもの
LLMの成功を技術的に支えた三つの柱として、(1) Next Token Prediction のシンプルさ、(2) Self-Supervised Learning による大量テキストからの学習能力、(3) In-Context Learning (ICL) と Retrieval-Augmented Generation (RAG) によるプロンプトを介した柔軟なタスク習得を論じます [p.141, p.146]。
ページのナビゲート