講演資料
講義資料スライドの表紙です。上のスライド画像をクリックすると、同じ画面のまま全編のPDF資料を快適に閲覧・印刷することができます。
セミナーの概要
本セミナーは、「機械は自然言語で書かれた論証や推論を理解できるか」という問いを中心に据え、Google DeepMindが2016年にNature誌に発表したDifferentiable Neural Computer(DNC)を軸として展開されます [p.7, p.11]。
音声認識や画像認識において目覚ましい成果を上げてきたディープラーニング技術は、しかしながら、音声を文字列に変換した後の「意味理解」や「推論」という段階においては依然として大きな限界を抱えています [p.6]。ボイス・アシスタンス・システムの普及がこの現実を多くの人に気づかせているように、現代AIの次なる焦点は、自然言語の理解・推論能力の獲得にあります [p.6]。
従来のニューラルネットワークが抱える本質的な弱点は、計算リソースとメモリリソースが「重みとニューロンの活動」の中に混じり合っており、外部メモリを持たない点にあります [p.13, p.16]。これにより、新しい情報のための動的なストレージ確保や、値とは独立に動作するアルゴリズムの学習が困難でした [p.16]。
DNCはこの限界を突破すべく、ニューラルネットワークをCPUとして、外部メモリ行列をRAMとして組み合わせた「ハイブリッド・コンピューティング」システムです [p.85]。微分可能な設計により、システム全体を勾配降下法でエンドツーエンドに訓練でき、ネットワークは目標指向の方法でメモリを操作・編成する方法を自ら学習します [p.17]。
セミナーはDNCの理解のために、まず現代ニューラルネットワーク技術の基本モデル(DNN・CNN・RNN・Attention)を丁寧に解説し、次いでコンピュータアーキテクチャの変遷を俯瞰した上で、DNCのシステム設計の詳細(Controller、Head、Content Lookup、Dynamic Memory Allocation、Temporal Memory Linkage)を論じます [p.8, p.9]。DNCが取り組んだ三つの課題(質問応答・グラフ推論・ブロックパズル)の実験結果も詳述されます [p.102]。
最後に著者・丸山不二夫氏は、DNCの成果を冷静に評価しながら、「確率分布による状態遷移の徹底した記述」というDNCの革新性を量子コンピュータとの親和性にまで敷衍し、同時に「具体的な情報から形式的な法則性を取り出すことの難しさ」という次なる課題を率直に指摘します [p.235, p.237]。技術的達成の最前線を示しつつ、AI研究の次の地平を見据える視点が本セミナーの核心です [p.7]。
講義のロードマップ
ここでは、セミナーの講演資料がどのようなパートから構成されているかを示します。また、それぞれのパートのポイントを紹介します。
■ Part 1: 導入問題意識と背景
baBiタスクのサンプル問題(Task 16の帰納推論、Task 17の位置推論)を冒頭に提示することで、「機械が自然言語による推論問題に答えられるか」という具体的な問いを立ち上げます [p.2, p.3]。Jason WestonとAlex Gravesの言葉を引用しながら、知的対話エージェントの構築と、ネットワークパラメータを変えずに継続的に知識を獲得するシステムという、二つの長期的目標が提示されます [p.4, p.5]。
■ Part 2: ニューラルネットワークの基本モデルとメモリー利用のスタイル
DNCの革新を理解するための前提として、DNN・CNN・RNN・Attentionという四つの基本モデルを体系的に解説します。とりわけGravesが指摘した「ニューラルネットワークの計算リソースとメモリリソースは重みとニューロンの活動の中に混じり合っている」という限界が、各モデルにおいてどう現れるかを丁寧に追います [p.18, p.26]。
■ Part 3: コンピュータとシステムのアーキテクチャーの変化
Turing Machine → Von Neumann Architecture → Neural Computerという歴史的系譜を辿ることで、DNCが「メモリの導入」という計算機科学の本質的課題を再度扱っていることを示します [p.68, p.70, p.71]。同時に現代コンピュータが直面するメモリボトルネック・発熱・クロック停滞・GPU台頭・大規模分散化という諸問題を概観し、DNCの設計思想の文脈を与えます [p.72, p.74, p.75, p.77, p.78, p.81, p.83]。
■ Part 4: DNCシステムの概観
DNCは「ニューラルネットワークをCPU、外部メモリ行列をRAMとするコンピュータ」であり、システム全体が微分可能なため勾配降下法でエンドツーエンドに訓練可能です [p.85]。アーキテクチャはController・Memory Access・Headの三層構造を持ち、DNC自体が三本の「横串」(access_output, access_state, controller_state)が通ったRNNとして実装されています [p.93, p.95, p.96]。
■ Part 5: DNCが取り組んだ三つの課題
DNCの能力を実証する三つの実験①baBiを用いた合成質問応答、②グラフ上の推論・経路探索、③ブロックパズル(強化学習)の設計と結果を詳述します。DNCはいずれの課題でもLSTMとNTMを大幅に上回り、特にグラフ実験でLSTMが最初のレベルすら達成できなかったのに対しDNCは98.8%の精度に到達しました [p.106, p.125]。
■ Part 6: MethodsDNCの実装詳細
DNCの動作原理を数式レベルで詳述するパートです。メモリへのアクセスが「唯一アドレスによる指定」ではなく「N個のロケーションにわたる確率分布(重み付け)」で行われる点がDNCの最大の特徴であり、この原理がread・write・Dynamic Memory Allocation・Temporal Linkageの全操作を貫いています [p.161, p.180]。
■ Part 7: 人工知能研究のパースペクティブ
著者はDNCの成果を率直に評価し、いくつかの重要な批判的視点を提示します。baBiの「帰納」「位置推論」での失敗 [p.228]、グラフ問題がPrologで簡単に解ける水準にあること [p.230]、DNCが実験に用いたメモリは最大256ロケーションに過ぎないこと [p.232]、そしてN×N行列のスケーラビリティ問題 [p.234] を指摘します。一方でDNCの真の革新性は「全ての状態遷移を確率分布で記述し、その重ね合わせを導入するという徹底した原理」にあり、これは量子コンピュータとの親和性を示唆すると論じます [p.235, p.236]。
ページのナビゲート