講演資料
講義資料スライドの表紙です。上のスライド画像をクリックすると、同じ画面のまま全編のPDF資料を快適に閲覧・印刷することができます。
セミナーの概要
本セミナーは、「機械は自然言語の文法を理解できるか」という根源的な問いを軸に、RNN(Recurrent Neural Network)とLSTM(Long Short-Term Memory)の基礎を丁寧に解説した技術講義です。
2012年のAlexNetによる画像認識革命以降、Deep Learningは急速に発展しましたが、2016年末にGoogleが発表した「ニューラル機械翻訳」は、それに匹敵する新たなブレイクスルーとして位置づけられています [p.5, p.6]。その中核技術がRNN/LSTMであり、本セミナーはこの技術の本質的な理解を目指すものです。
技術史的な観点では、RNNは1990年代に一度注目されながらも「勾配消失問題」によって放棄された経緯があります [p.103, p.106]。しかし1997年にHochreiterらがLSTMを提案したことで復活を遂げ、現在のGoogle翻訳の基盤技術となっています [p.113]。この「放棄と復活」の物語は、問題の難しさを最も深く理解した研究者が解決者となった逆説的な歴史でもあります。
言語理論との接点も重要なテーマです。Chomskyの「文法階層(Chomsky Hierarchy)」という枠組みを援用することで、機械が学習できる文法の複雑さが段階的に整理されます。1997年のHochreiterによる有限オートマトン(正規文法)の学習 [p.15]、2015年のKarpathyによるLaTeXやC言語(文脈自由文法)の学習 [p.13]、そして2016年のGoogle翻訳による自然言語(文脈依存文法)への挑戦 [p.40] という系譜は、機械の文法理解能力が階層を着実に登ってきたことを示しています。
技術的な核心としては、RNNが「同一パラメータを共有する再帰的ネットワーク」であること、そしてLSTMがMemory Cell・三つのGate(Input/Forget/Output)によって「長期記憶」を実現する仕組みであることが、数式とグラフを組み合わせて丁寧に解説されます。本セミナーを通じて受講者は、世界最大規模の機械翻訳システムの設計思想を支える数理的基盤を、根本から理解できるようになります。
講義のロードマップ
ここでは、セミナーの講演資料がどのようなパートから構成されているかを示します。また、それぞれのパートのポイントを紹介します。
■ Part I: RNNの驚くべき能力について
RNNが実際にどれほどの能力を持つかを、歴史的な実験と具体的な生成例を通じて感覚的・直観的に示します。機械が「文法」を学習するとはどういうことかという問いを提起し、Chomsky Hierarchyという理論的枠組みによってその到達点を位置づけます [p.9]。
■ Part II: RNNとは何か
RNNの構造的本質を「単純なネットワークを横に並べ、パラメータを共有する再帰的繰り返し」として定義し、展開形と再帰形という二通りの表記法を用いて明示します。さらに、かつてRNNが放棄された理由(勾配消失問題)と、その後の復活の経緯も解説します [p.63]。
■ Part III: LSTMの基礎
LSTMがRNNの「勾配消失問題」をどのように克服するかを、Memory Cellの「Constant Error Carousel」とForget Gateという二つのアイデアで説明します。さらに三つのGate(Input/Forget/Output)の数式とグラフを詳細に解説し、LSTMの動作原理を完全に明示します [p.119]。
ページのナビゲート