セミナー | MaruLabo

講演資料

講義資料スライドの表紙です。上のスライド画像をクリックすると、同じ画面のまま全編のPDF資料を快適に閲覧・印刷することができます。

セミナーの概要

本セミナー「自然言語とニューラルネットワーク」は、2012年を起点とするディープラーニングの爆発的興隆を踏まえ、「機械は人間の言語をどこまで理解できるのか」という根源的な問いに向き合う6時間集中講義です [p.1, p.4]。
2012年という年は、Googleの分散システムによる教師なし学習の成功、AlexNetによるImageNetコンテストでの圧勝、そして音声認識へのディープラーニング応用という三つの出来事が重なり、ニューラルネットワーク技術が現代AI研究の中核へと躍り出た歴史的転換点でした [p.4]。しかし、視覚や音声といった感覚・運動系の処理において革命的な成果を上げてきたCNNやRNNが、「言語」という領域に挑むとき、そこには一段と深い困難が横たわります。
言語能力は、生物進化の歴史においてごく最近の出来事であり、現生人類の祖先に生じた突然変異として誕生したとされます [p.45]。ChomksyのBiolinguisticsが明らかにするように、言語は「思考の器官」であり、有限の語彙から無限の文を生成する帰納的（recursive）な構造を持ちます [p.70, p.71]。この言語の創造性こそが、パターンマッチングや統計的手法を超えた、機械による真の言語理解を困難にしている本質的な要因です。
一方で、GoogleのKnowledge Graphに代表される大規模グラフ検索技術、Schema.orgが定義するエンティティとプロパティの体系 [p.201, p.223]、そしてAmazon AlexaやMicrosoft Cortanaに見られるボイス・アシスタント・システムの実装 [p.86, p.105]は、言語理解の「代替手段」として現実的な成果を上げています。しかしそれらは、自然言語の豊かさと比較すれば「ボキャブラリーの貧困」を露呈するものでもあります [p.250, p.255]。
講義の頂点に置かれるのは、GoogleのニューラルネットワークベースのEnd-to-End機械翻訳システム（GNMT）です [p.15]。さらに、多言語翻訳システムが示したゼロ・ショット翻訳とインターリンガ（言語横断的な意味表現空間）の可能性 [p.18, p.19] は、機械が言語の「意味」に近づきつつあることを示唆する画期的な知見として提示されます。本セミナーは、言語の生物学的基盤から始まり、現在の技術の到達点と限界を誠実に照らし出す、密度の高い知的な探求の旅です。

講義のロードマップ

ここでは、セミナーの講演資料がどのようなパートから構成されているかを示します。また、それぞれのパートのポイントを紹介します。

■ Part 1: 自然言語と人工知能

「言語とは何か」という問いを生物学・言語学・AI技術史の三つの軸から整理します。人間固有の言語能力の生物学的基盤（遺伝子FOXP2 [p.41]、脳の言語野 [p.58p.67]）を確認した上で、現在のボイス・アシスタント・システムや知識グラフ検索が、その「豊かさ」にどこまで迫れているかを批判的に検討します。Amazon Alexa、Microsoft Cortana、IBM Watsonの実装を比較することで、「文字列マッチング」から「意味理解」への距離感を具体的に示します。

■ Part 2: RNNとLSTMの基礎

系列データ（文章・音声等）を処理するために設計されたリカレントニューラルネットワーク（RNN）と、その勾配消失問題を克服したLSTM（Long Short-Term Memory）の理論的基礎を丁寧に解説します。これは第三部のGNMT理解への直接的な橋渡しであり、「なぜLSTMがシーケンス変換に有効なのか」という核心的問いに答えます [p.25]。

■ Part 3: Googleニューラル機械翻訳（GNMT）

本講義の技術的頂点として、Google Neural Machine Translation System（GNMT）のアーキテクチャと、その先に示されるゼロ・ショット翻訳・インターリンガ仮説を解説します [p.15, p.17]。ルールベース・統計的機械翻訳（SMT）の限界を乗り越えたEnd-to-EndのニューラルMTが、翻訳品質をいかに飛躍させたか、そして機械が「言語の意味空間」を内部に獲得しつつあることの含意を考察します。

ページのナビゲート

元のMaruLaboサイトのセミナーページに移動する

MaruLabo コンシェルジェのトップページに戻る