全体概要

本セミナー「自然言語と人工知能」は、「なぜ機械は人間のように言語を理解できないのか」という根源的な問いを中心に据え、コンピュータ科学・言語学・脳科学・進化生物学という四つの知的領域を横断しながら、その困難の本質に迫ろうとするものです [p.1, p.7]。

人工知能研究において、視覚やロボット運動制御の分野ではニューラルネットワークによる飛躍的な発展が見られる一方、言語理解の成果は相対的に限定的なものにとどまっています。その理由を解き明かすことが、本講義全体の動機となっています [p.7]。

第一部では、大規模コーパスの統計的利用から始まり、RNNによる文生成、Word2Vecによる意味ベクトル表現、IBM Watsonの質問応答システムに至るまで、コンピュータによる言語アプローチの歴史的展開を概観します。そこで浮かび上がる根本的な問題は、「語」の複雑さと「文」の複雑さの次元が質的に異なるという事実であり、文法への関心の薄さがアプローチの限界を生み出してきたという認識です [p.8, p.9]。

第二部では、チョムスキーの生成文法理論・Minimalist Program・biolinguisticという言語学的観点から、言語能力が人間という種に固有の生得的なものであるという主張を丁寧に紹介します。「普遍文法」と「Merge」という概念は、言語能力の計算システムとしての本質を照射し、機械による言語実装の方向性とも深く共鳴します [p.11, p.12, p.13]。

第三部では、画像からの意味抽出・自然文生成という最前線の研究を取り上げます。画像の一部と文の一部の対応付け、Scene Graphによる構造化、そして「文の意味とは何か」という哲学的問いへと議論は深化します。そこで浮かび上がるのは、チョムスキーのいう「概念のリソース」の存在であり、言語能力を超えたより根源的な認識能力が人間には生得的に備わっているという洞察です [p.14, p.15, p.16]。

本セミナー全体を貫く結論は、言語の創造性・帰納性・生得性という三つの本質的特徴を見据えない限り、機械による言語理解は表面的なものにとどまるという、力強いメッセージです [p.12]。

講義のロードマップ

ここでは、セミナーの講演資料がどのようなパートから構成されているかを示します。また、それぞれのパートのポイントを紹介します。

■ Part I: 言語へのコンピュータによるアプローチ

大量データの統計的処理から始まるコンピュータによる言語アプローチの歴史を辿りながら、その楽観的な見通しがなぜ失敗したのかを分析します。核心は、語レベルの複雑さと文レベルの複雑さの次元的断絶であり、文法という構造的枠組みへの無関心がもたらした限界の認識です [p.8, p.9, p.41]。統計的手法の行き詰まりを経て、語の意味ベクトル(Word2Vec)と質問応答システム(IBM Watson)という二つの高い到達点が示されつつも、「文の意味」と「文法」という二大課題への接近はまだ緒についたばかりであることが明確にされます [p.10]。

■ Part II: 言語への言語学からのアプローチ

チョムスキーの言語理論を軸に、言語能力が人間という種に固有の生物学的基礎を持つ生得的なものであることを論じます。「有限の語彙から無限の文を生成する」帰納的文法の存在、普遍文法(UG)の初期状態としての位置づけ、そして「Merge」という最小操作による言語能力の計算システム的構成というMinimalist Programの核心が展開されます [p.11, p.12, p.13]。これらは、コンピュータによる言語アプローチの初期の誤りを理論的に鋭く照射します [p.11]。

■ Part III: 画像からの意味抽出あるいは自然文生成の試み

画像とテキストの対応付けという最前線の研究を通じて、文の構造と現実の関係構造の間に対応関係があるという重要な発見が浮かび上がります。Karpathyらの研究では文法解析が明示的に活用され、Scene Graphでは人間の「概念のリソース」という生得的な認識能力が可視化されます [p.14, p.15]。同時に、Scene Graphが静止した名詞の世界を扱うにとどまり、動詞が表す運動や状態変化を捉えられないという本質的限界も示されます [p.16]。