講演資料
講義資料スライドの表紙です。上のスライド画像をクリックすると、同じ画面のまま全編のPDF資料を快適に閲覧・印刷することができます。
セミナーの概要
本セミナーは、2017年3月に丸山不二夫氏が主催するマルレク(丸山不二夫勉強会)において開催された講義「RNNの応用と発展 — Google翻訳とDNC –」の講義資料です。2012年に幕を開けたディープラーニングのブームが5年を経て、いよいよ新たな局面へと進化しつつある転換期を鮮やかに描き出しています [p.1, p.6]。
講義が提起する中心的な問いは、「機械は言語を理解できるか」という人類永遠のテーマに対し、ニューラルネットワーク技術がどこまで迫れているのか、という問いです。その答えを探る二つの軸として、Googleのニューラル機械翻訳(GNMT)と可微分ニューラルコンピューター(DNC)が取り上げられます [p.6]。
前半のGoogle翻訳パートは、1990年代の統計的機械翻訳(SMT)から始まり、Bengioの「次元の呪い」を経由し、Word2Vecによる語の意味ベクトルの発見、LSTMによる文法認識能力の解明という技術的系譜を丁寧にたどります [p.46, p.50, p.60]。その集大成として登場したGNMT(Encoder-Decoder構造+Attentionメカニズム+Wordpiece)の詳細を解説した後、多言語翻訳システムへの拡張と「ゼロ・ショット翻訳」という驚くべき現象を紹介します。特に、異なる言語で同じ意味を持つ文がネットワーク内の同一の潜在空間にクラスタリングされるという「インターリンガ」の存在の示唆は、言語の本質に触れるサウシュール的な問いと共鳴します [p.3, p.5, p.166]。
後半のDNCパートでは、RNNやLSTMが苦手とする「変数やデータ構造の表現」「長期記憶」という限界を外部メモリで克服しようとするGoogle DeepMindの取り組みを紹介します。DNCはLSTMでは解けない複雑な推論タスクをこなし、ノイマン型コンピューターとニューラルネットワークの融合という新しいアーキテクチャの地平を切り開いています [p.185, p.186]。
講義全体を通じて、「最良のアルゴリズム vs 最大のデータ」という問いや、Chomsky階層による機械の文法理解能力の位置づけ、そして言語記号の恣意性(ソシュール)・言語能力の再帰性(チョムスキー)といった言語学・哲学的問いが、技術的議論と鮮やかに交差します [p.3, p.4, p.65]。
講義のロードマップ
ここでは、セミナーの講演資料がどのようなパートから構成されているかを示します。また、それぞれのパートのポイントを紹介します。
■ Part I: Google翻訳
ニューラル機械翻訳(NMT)の誕生に至るまでの技術的系譜を体系的に解説します。ルールベース翻訳モデル(RBMT)の限界、統計的機械翻訳(SMT)の成功と限界、そしてBengioに始まる語の分散表現の思想が、Encoder-Decoder構造とAttentionメカニズムを持つGNMTへと結実する過程を、概念的・技術的に丁寧に追います [p.14, p.79]。多言語への拡張がもたらした「ゼロ・ショット翻訳」と「インターリンガ」の存在は、機械が言語の深層構造を捉え始めている可能性を示唆します [p.134, p.166]。
■ Part II: 可微分ニューラルコンピューター(DNC)
CNNが感覚・運動系に、RNNが言語シーケンスに強みを持つ一方、「論理的推論」と「構造化データの操作」という領域には、別のアーキテクチャが必要です。Google DeepMindのDNCは、ニューラルネットワーク(コントローラ)に外部メモリ行列(RAM相当)を接続し、システム全体を微分可能に設計することで、勾配降下法によるエンドツーエンド学習を実現します [p.185, p.186, p.193]。これにより、LSTMでは解けなかった複雑な推論・計画問題をこなします [p.188]。
ページのナビゲート