セミナー紹介 [20171217]

全体概要

本セミナーは、「ニューラル・ネットワークの基礎──MLP（Multi-Layer Perceptron）とCNN（Convolutional Neural Network）を中心に」と題し、ディープラーニングの根幹をなす二つのモデルアーキテクチャを、歴史的背景・数理的基礎・実装の三つの軸から体系的に学ぶことを目的としています [p.1, p.2]。

セミナーが提起する中心的な「問い」は、「一つのニューロンは、受け取った入力をいかにして出力へと変換するのか」という、きわめて根源的なものです [p.2]。この問いへの答えは、φ(W·X + b) という一本の数式に集約されます。重みW、バイアスb、そして活性化関数φ──この三つの要素の組み合わせが、単純なパーセプトロンから最先端のCNNに至るまで、すべてのニューラル・ネットワークの動作原理を貫く「唯一の基本」である、というのが本講義の根底に流れるメッセージです [p.2, p.85]。

技術史的な位置づけとして、本講義はHubel & Wieselの大脳視覚野研究（1959年）[p.4, p.5] に始まり、Rosenblattのパーセプトロン（1958年）[p.8, p.10]、Minsky & Papertによる批判（1969年）[p.14]、Rumelhartらのバックプロパゲーションを含むPDP研究（1986年）[p.17, p.18]、そして2012年のAlexNetによるディープラーニングの爆発的台頭 [p.25, p.30] という約60年の歴史を丁寧に辿ります。2010年のIEEE「AIの殿堂」にディープラーニングの開拓者が一人も選ばれていなかったという逸話 [p.29] は、このパラダイム・シフトがいかに急速かつ非連続であったかを象徴的に示しています。

数理的核心においては、MLPの全結合構造とその数学的表現、損失関数（Loss Function）、勾配降下法（Gradient Descent）、バックプロパゲーションという「学習」のメカニズムが丁寧に積み上げられます [p.93〜p.149]。CNNについては、全結合ネットワークが抱えるパラメータ爆発問題と局所特徴抽出の限界を出発点とし [p.171〜p.184]、局所受容野・パラメータ共有・Pooling層という三つの革新的設計思想がいかに問題を解決するかが段階的に解説されます [p.185〜p.208]。コンボリューション計算の詳細はアニメーション的なパラパラ図解によって直感的に示され [p.233〜p.349]、CNNの可視化研究によってフィルターが「眼」「花」「車輪」「文字」といった高レベルの意味的特徴を自律的に獲得することが明示されます [p.365, p.366]。

実習との接続も本講義の重要な特徴であり、TensorFlow/Kerasを用いたMNIST手書き数字認識とCIFAR-10画像分類というハンズオンの課題と対応づけながら、理論と実装が往復的に学べる構成となっています [p.2, p.270〜p.273]。

—

講義のロードマップ

ここでは、セミナーの講演資料がどのようなパートから構成されているかを示します。また、それぞれのパートのポイントを紹介します。

—

■ Part 1: ニューラル・ネットワークの歴史

現代のディープラーニングがいかなる知的系譜の上に立っているかを理解するため、大脳視覚野研究からパーセプトロン、PDP/コネクショニズム、2012年のブレイクスルーに至る約60年の歴史が俯瞰されます。パラダイム・シフトの非連続性と、技術的必然性の両面が浮き彫りにされます [p.3〜p.33]。

■ Part 2: 一つのニューロンの動作原理

すべてのニューラル・ネットワークの基本単位である「一つのニューロン」が、入力をどのように出力へ変換するかを、シナプスの重み・バイアス・活性化関数という要素で数式的に定式化します。この定式化こそが、以降の全議論の土台です [p.34〜p.53]。

■ Part 3: MLP（Multi-Layer Perceptron）の構造

複数のニューロンからなる「層」を多段に積み重ねたMLPの全体構造を、TensorFlowのグラフ表現を用いて視覚的かつ数式的に把握します。グラフ・ノード・テンソルという概念が、複雑なネットワークを単純に記述する強力な道具であることが示されます [p.54〜p.78]。

■ Part 4: 活性化関数（Activator）

ニューロンの「発火」という非線形な振る舞いを関数として定式化した活性化関数の種類と役割を解説します。活性化関数の選択がネットワークの表現力と学習効率に直結します [p.79〜p.92]。

■ Part 5: ニューラル・ネットワークの学習メカニズム

「学習」とはパラメータ（W, b）を最適化することであり、損失関数・勾配降下法・バックプロパゲーションという三つの道具がその核心を成します。線形回帰という最も単純なモデルを足場に、これらの概念が具体的に積み上げられます [p.93〜p.149]。

■ Part 6: CNN（Convolutional Neural Network）の設計思想

全結合ネットワーク（DNN）が抱えるパラメータ爆発と局所特徴抽出の限界という二つの本質的問題を出発点に、CNNがどのような設計上の革新によってこれを克服したかを解明します [p.170〜p.208]。

■ Part 7: コンボリューション計算の詳細

3次元データ（画像）から3次元データ（Activation Map群）を生み出すコンボリューション演算の具体的な計算過程を、四段階（面→点→面→立体）に分解して丁寧に追跡します [p.209〜p.349]。

■ Part 8: CNNの可視化と応用

CNNの各層のフィルターが自律的にどのような視覚的特徴を学習するかを「CNNの可視化」研究が明らかにしており、単純なパターン検出から「眼」「花」「車輪」「文字」といった高レベルの意味的特徴への階層的抽出が実証されています [p.362〜p.368]。