全体概要
本セミナーは、ディープラーニングにおける二つの根幹的なモデル——DNN(Deep Neural Network / Full Connect FeedForward Network)とCNN(Convolutional Neural Network)——の構造的差異を、数学的基礎から丁寧に紐解くことを中心的なテーマとして据えています [p.1, p.2]。
ディープラーニングの「Hello World」とも称されるMNIST手書き数字認識を実践的な題材として用いながら [p.2]、単なるハンズオンの手順説明に留まらず、「なぜCNNが必要とされたのか」という技術史的な問いに正面から向き合います。1980年代から90年代にかけて隆盛したFull Connect型ネットワークは、画像認識という課題に対して二つの根本的な限界を抱えていました。一つはパラメーター数の爆発的増大であり、もう一つは画像が本来持つ局所的・空間的な構造を活かせないという問題です [p.77, p.78, p.84]。CNNは、この二つの問題に対する明確な回答として設計されており、「局所的受容野」と「パラメーターの共有」という二つのアーキテクチャー上の革新がその核心をなします [p.91, p.98]。
すべての議論の出発点は、一つのニューロンの動作を表す極めてシンプルな式、φ(W・X + b) にあります [p.2, p.57]。一つのニューロンの発火条件も、複数ニューロンからなる層の出力も、行列演算によってこの同一の形式で表現できるという数学的な統一性が、本講義全体を貫く美しい骨格となっています [p.38]。TensorFlowのグラフ表現はこの抽象化を可視化するツールとして位置づけられ、実際のプログラムコードの中にφ(X・W + b)の形を発見するという演習を通じて、理論と実装の橋渡しが図られます [p.65, p.67]。
さらに、CNNの要であるConvolution演算を「3次元立体から3次元立体への変換」として丁寧に図解し、フィルターがデータ上をスライドしながらActivation Mapを生成するプロセスを段階的に解説することで、AlexNetやLeNetの図中に現れる直方体や四角錐の意味が初めて明確に理解できる構成となっています [p.102, p.169, p.184]。CNNの可視化研究の紹介によって、低次層フィルターがエッジや模様を、高次層フィルターが「眼」や「車輪」といった意味的特徴を抽出するという、階層的表現学習の実態が示され、CNNの設計思想の正しさが視覚的に裏付けられます [p.257, p.258]。
講義のロードマップ
ここでは、セミナーの講演資料がどのようなパートから構成されているかを示します。また、それぞれのパートのポイントを紹介します。
■ Part 1: ニューロンの基本動作とφ(W・X + b)の導出
ヘッブの法則に着想を得た生物学的ニューロンのモデルから出発し [p.14]、シナプスの重み・バイアス・活性化関数という三要素が揃って初めてニューロンの動作が記述できることを示します。一つのニューロンから複数ニューロンの層へと議論を拡張し、すべてのケースが行列演算によりφ(W・X + b)という単一の形式に統合されることを導出します [p.38, p.56, p.57]。これがDNNおよびCNN全体を貫く最重要の数式です。
■ Part 2: DNNのアーキテクチャーとTensorFlowグラフ表現
複数の層を深く積み重ねたFull Connect型DNNの全体構造を、TensorFlowのグラフ表現(変数ノード・演算ノード・プレースホルダー)によって簡潔に可視化する方法を示します [p.40, p.41]。旧来の「ニューロンの粒」レベルのグラフより、層単位のブロック図の方が構造を直感的に把握しやすいことを強調します [p.48]。実際のTensorFlowコードの中にφ(X・W + b)の形を発見する演習により、理論と実装が接続されます [p.67, p.69]。
■ Part 3: DNNの問題点とCNNによる解決
Full Connect型DNNが画像認識に適用された際の二つの本質的問題——パラメーター数の爆発と空間的局所性の無視——を定量的・概念的に明示します [p.78, p.84]。MNISTの784次元からImageNetの196,608次元に至るパラメーター増大の深刻さを示した後 [p.79, p.80]、CNNが「局所的受容野」と「パラメーターの共有」によってこれらを根本的に解決する論理を展開します [p.91, p.98]。
■ Part 4: CNNの3次元ボリューム構造とConvolution演算の詳解
CNNの資料に頻出する「直方体」と「四角錐」の図形が何を意味するのかを丁寧に解説します [p.169, p.176, p.179]。32×32×3の入力に5×5×3のフィルターを適用してActivation Mapを生成し、複数フィルターの適用によって出力が3次元ボリュームへと変換される全プロセスを、「面から点→立体から点→立体から面→立体から立体」という4段階の計算として体系化します [p.184, p.186, p.191, p.198, p.221]。
■ Part 5: CNNの可視化とハンズオン課題の構造解説
ZeilerらのCNN可視化研究を引用し、CNNの低次層フィルターが「エッジ・グラデーション・波紋」のような単純なパターンを、高次層フィルターが「眼・花・車輪・文字」のような意味的特徴を抽出していることを示します [p.257, p.258]。これにより、CNNの階層的特徴学習という設計思想が実証的に裏付けられます。続いてハンズオン課題のネットワーク構造(2段のConvolution+MaxPooling+2段のFull Connect)を図と対応させながら解説します [p.261]。