セミナー「ニューラル・ネットと技術革新の展望 + PROJECT ARAへの期待」紹介 [20160312]

全体概要

本セミナーは、「ニューラル・ネットワークと技術革新の展望＋ Project Araへの期待」と題され、2016年前後のAI技術の勃興という歴史的転換点を正面から捉えた講義です [p.1]。

中心的な「問い」は、極めてシンプルかつ本質的です。「クラウドとモバイルが世界を変えた過去の10年を経て、次の10年を決定する技術とは何か？」というものです [p.3]。講師はその答えをニューラル・ネットワーク、すなわちディープラーニングに見出しつつ、それが単なる連続的な技術進化ではなく、ほとんどの技術者にとって「技術的断絶」を伴う、全く新しいパラダイムであることを強調します [p.4]。だからこそ、冒頭から一貫して「まず、学ぶことから始めよう」というメッセージが繰り返されます [p.2, p.6]。

講義はAI技術を五つの流れとして整理することから始まります。統計的機械学習、パーソナルアシスタント型の知識・推論システム、感覚・運動系を模倣するディープラーニング、言語能力の機械的実現、そして論理・数学的推論への応用という五分類です [p.8]。この整理を足場として、なぜニューラル・ネットワークが現在の「技術的中核」となっているのかを丁寧に論じていきます [p.19, p.20]。

技術的な核心としては、生物の視覚野研究からインスピレーションを得たCNN（畳み込みニューラルネットワーク）の原理と歴史的成果、時間的・系列的情報を扱うRNN（リカレントニューラルネットワーク）およびLSTMの仕組み、そしてWord2Vecによる言語の分散表現という三つの柱が詳述されます [p.47〜p.100]。さらに、言語理解を巡るChomsky的な言語学からのアプローチとニューラルアプローチの緊張関係も丁寧に解説され、「大量データさえあれば十分か」という問いに批判的な視座が与えられます [p.56〜p.78]。

後半はProject Araという「モジュール式スマートフォン」構想を軸に、DARPAのAVM（Adaptive Vehicle Make）プログラムが提示した「設計の民主化」「分散製造」「クラウドソーシングによるものづくり」というビジョンへと議論が拡張されます [p.101〜p.151]。講義は最終的に、「ロボットやAIの進出を脅威として受け止めるのではなく、すべての人がロボットやAIを自らの手で作り出す基本的なスキルを持つことが最良の応答である」という力強い提言で締めくくられます [p.151]。

—

講義のロードマップ

ここでは、セミナーの講演資料がどのようなパートから構成されているかを示します。また、それぞれのパートのポイントを紹介します。

—

■ Part 1: 来たるべきAI新時代と「学ぶ」ことの必然性

2004年のGoogle上場から2012年のFacebook上場に至るクラウド・モバイルの10年 [p.3] を振り返り、次の10年の技術的中核としてAI・ニューラルネットワークを位置づけます。ただしモバイルがスマートフォンの、クラウドがデータセンターの延長線上にある「連続的発展」だったのに対し、ニューラルネットワークはほとんどの技術者にとって「断絶」を伴う全く新しい技術であると明言します [p.4]。人工知能を作るには人間の知能が、機械学習を知るには人間の学習が必要だという逆説的な出発点が示されます [p.6]。

論理展開:
クラウド・モバイルの歴史的経緯（Google・Amazon・Apple・Microsoft・Googleによる2004〜2012年の主要事件）を整理 [p.3]
「次の10年」に向け、すべての技術者にとってAI学習が不可避の課題となるという問題意識を提示 [p.4]
「人間の学習」こそが出発点であるという命題を、CAMELのOpening Remarkを参照して強調 [p.5, p.6]

—

■ Part 2: AI技術を構成する五つの流れとその布置

AI技術を五つのカテゴリ（A：統計的機械学習、B：知識・推論・対話システム、C：ディープラーニング、D：言語能力、E：数学的論理的推論）に分類し、それぞれの特徴と現在地を整理します [p.8]。特にニューラルネットワーク（C）が他のすべての分野（A〜D）に対して技術的インパクトを与えており、現在のAI新時代の「技術的中核」であることを明示します [p.20]。

論理展開:
A（統計的分析）：回帰・クラスター分析と本質的に同類だが、計算資源の飛躍と「統計的アプローチの優位」という方法論的自覚が新しい [p.9]。Azure MLがその代表例 [p.10]
B（パーソナルアシスタント）：Siri・Cortana・Alexa等はTuring Test的には「知的」に振る舞うが、実装の多くは必ずしも「知的」ではないと批判的に評価 [p.11]
C（ディープラーニング）：文字認識・画像認識・ロボット制御・自動運転への応用が急拡大中。生物の知覚・感覚の神経回路を基本モデルとする [p.13]
D（言語能力）：機械翻訳は「意味理解」への接近を目指すが多くの課題が残る。人工知能の「本丸」 [p.15]
E（論理・数学的推論）：COQなどの証明支援システムが興味深い前進を示す。ただし現在のAI研究の主流ではない [p.17, p.18]

—

■ Part 3: ニューラルネットワーク技術の特徴と生物学的起源

ニューラルネットワーク技術が持つ固有の特徴—非言語的コントロール・確率論的ふるまい・データ依存性・学習と実行の非対称性・ハードウェア依存性—を整理します [p.22]。同時に、生物の進化史（カンブリア紀5億年前の「視覚」の誕生 [p.32]、HubelとWieselの大脳視覚野研究 [p.35, p.36]）を辿ることで、なぜ「視覚」をモデルとするCNNが強力なのかの根拠を与えます。

論理展開:
非言語的制御・確率論的・データ依存・学習/実行の非対称性（GPU利用で消費電力600kWから4kWへ、コスト500万ドルから3.3万ドルへ）という五特性を提示 [p.22, p.46]
線虫C. Elegansの302ニューロン・8,000シナプスという完全解明例から、脳の大脳新皮質が100億ニューロン・60兆シナプスを持つことまでのスケールの対比 [p.30, p.38]
視覚と運動能力が不可分に結びついた「感覚・運動系」というモデルの重要性を強調 [p.34]
人間の脳の驚異的なエネルギー効率を、ハードウェア進化の文脈で指摘 [p.39]

—

■ Part 4: CNN（畳み込みニューラルネットワーク）の原理と歴史的成果

CNNの基本原理は、生物の視覚野が傾き・運動・色・パターンといった特徴だけを抽出する「フィルター」機能をシミュレートする「コンボリューション」にあります [p.48]。本質的な出力はニューロンの「興奮」であり、「dog」というラベルは人間が後からつけるものに過ぎないという鋭い指摘がなされます [p.49]。2012年のImageNet競技会での圧倒的勝利がCNNを主流に押し出した歴史的転換点として詳述されます [p.52]。

論理展開:
LeCunのLeNetによるMNIST手書き文字認識が先駆的成果として位置づけられる [p.50]
交通標識・生物画像・顔・自動運転への応用（Mobileye・NVIDIA）がConvNetの実践的成功として列挙される [p.51]
Krizhevsky・Sutskever・Hintonによる「ImageNet分類」論文でエラー率を競合の半分に削減という「目を見張るような結果」 [p.52, p.53]
MS Research「Project Adam」：1,400万枚の画像を学習し22,000カテゴリーに分類、犬種判別まで可能 [p.26]

—

■ Part 5: 言語理解をめぐる挑戦——データ万能論の限界とWord2Vec

「大量のデータがあれば言語理解に到達できる」という初期の楽観論（2001年Banko & Brillのパーセプトロン研究、2006年Googleのデータ優先戦略）が成果を上げられなかったという冷静な評価から始まります [p.57, p.59, p.60]。Bengio（2003年）が提起した「次元の呪い」——10語からなる文だけで1050通りという組み合わせ爆発——という根本問題 [p.66, p.67] に対し、語の「分散表現（特徴ベクトル）」という解法が示されます [p.68]。

論理展開:
「勝つのは最良のアルゴリズムを持つ人ではなく最も多くのデータを持つ人」という2001年の命題とその限界 [p.59]
スペル訂正・機械翻訳でのGoogleのデータ活用戦略と「コーパスが2倍になれば翻訳品質は0.5%上がる」という定量的知見 [p.63, p.65]
Word2Vec（Mikolov 2013年）：W(“woman”)−W(“man”) ≃ W(“queen”)−W(“king”) という意味変換ベクトルの発見 [p.76]、文法的関係もベクトルで表現可能なことを実証 [p.77, p.78]
Chomskyの「普遍文法」「言語獲得装置」という生得的言語能力論が対抗軸として位置づけられる [p.72]

—

■ Part 6: RNN（リカレントニューラルネットワーク）と言語・文法への接近

CNNが「空間的特徴」を扱うのに対し、RNNは「時間的・系列的特徴」を扱うことに本質があります [p.81]。隣り合うネットワーク間でパラメーターを共有することで時間を超えた「記憶」を実装するという仕組みを丁寧に説明し [p.83, p.84]、LSTM（Long Short-Term Memory）という命名の由来を示します [p.84]。Karpathyによる「RNNの驚くべき能力」の実証や、Socherらによる文法構造のニューラル表現という最前線の研究も紹介されます [p.89, p.94]。

論理展開:
SutskeverがWikipedia・NYTimesで学習させたRNNは英語に見えるが意味が通じない文を生成——言語理解の未達を示す [p.87, p.88]
KarpathyのRNNが数学論文モドキ・Cプログラムモドキを生成——形式的パターン習得の驚くべき能力と限界の同時提示 [p.89, p.91, p.92]
SocherらのRecursive Neural Networksが “((the cat) (sat (on (the mat)))” という木構造文法をニューラルネットで表現 [p.95, p.96]
Bengio et al.の「Show, Attend and Tell」：CNN+RNNにより画像から自然言語キャプションを自動生成 [p.97, p.98, p.99]

—

■ Part 7: Project Araとものづくりの民主化——DARPAのビジョンから

「60億人のためにデザインされたモジュール式スマートフォン」Project Ara [p.102] を入口に、現在のモバイルが「拡張性のないブラックボックスとして早いサイクルで消費・使い捨てされている」問題を提起します [p.103]。その解法として、DARPAのAVM（Adaptive Vehicle Make）プログラムが提示した三つのビジョン——設計ツールMETA・分散製造工場iFAB・クラウドソーシングのFANG——が詳述されます [p.120, p.122, p.125]。

論理展開:
META：「Correct-by-Construction」によるモデルベース設計でシステム開発期間を短縮 [p.120]
iFAB（Instant Foundry, Adaptive through Bits）：3Dプリンター・レーザーカッターを用いた分散小規模工場。製造データはネット経由 [p.122]
FANG Challenge：200チーム・約1,000人が参加した次世代軍用車両の公開設計コンペ [p.125, p.127〜p.129]
オークリッジ国立研究所：3Dプリンターによる「製造業の民主化」を目標とし、「産業革命に先行した零細企業にハイテクが帰ってくる」と表現 [p.146]
製品の重要な側面をOEM・パワーユーザー・エンドユーザーのどこが担うかという三段階モデルの提示 [p.135]
結論：「ロボットやAIの進出を脅威としてではなく受け止める最良の方法は、すべての人がロボットやAIを自らの手で作り出す基本的なスキルを持つことである」 [p.151]