全体概要
本セミナーは、2016年7月22日に開催されたマルレク(MaruLabo)の技術講義であり、「自然言語と人工知能」をテーマとして掲げています。中心的な「問い」は、ニューラルネットワークによる画像認識やロボット制御が飛躍的な発展を遂げた一方で、なぜ機械による言語理解の成果は依然として限定的なのか、という根本的な疑問です [p.7]。
この問いに答えるべく、本講義は三つの視座を縦横に組み合わせて探求を進めます。第一は、コンピュータサイエンスの側からのアプローチです。大量のコーパスを統計的に処理すれば言語の特質が掴めるという楽観的な見通しがいかに誤っていたか、そしてWord2Vecや画像キャプション生成の試みがいかにして「文法」と「意味」という本質的課題へと近づいてきたかを追います [p.8, p.9, p.10]。第二は、言語学からのアプローチです。ChomskyのbiolinguisticおよびMinimalist Programが提示する「普遍文法」「言語能力の生得性」「Mergeという帰納的操作」の概念を紹介し、コンピュータによるアプローチの初期の誤りを鋭く照らし出す理論的枠組みとして位置づけます [p.11, p.12, p.13]。第三は、画像と言語の対応付けという実践的な試みです。Scene Graphやキャプション生成の研究を通じて、現実の事物の関係構造と文の構造の間に対応関係が存在するという発見が、いかに重要な含意を持つかを論じます [p.14, p.15, p.16]。
探求の結論として本講義が示唆するのは、人間の言語能力は単なる統計的パターン認識に還元できず、生得的な「概念のリソース」と帰納的計算システムに支えられているという点です。意味の世界は現実の世界との素朴な対応(参照理論)によって成立するのではなく、人間の言語能力そのものが意味の世界を独自のスタイルで作り出しているのだという洞察が、本セミナー全体を貫く結論として提示されています [p.297, p.298]。
—
講義のロードマップ
ここでは、セミナーの講演資料がどのようなパートから構成されているかを示します。また、それぞれのパートのポイントを紹介します。
—
■ Part I: 言語へのコンピュータによるアプローチ
大量データによる統計的言語処理から始まり、RNN・Word2Vec・IBM Watsonへと至る一連のコンピュータ側からのアプローチを概観します。「データが多ければ勝てる」という楽観論が、語と文の複雑さの次元の違い(「次元の呪い」)の前に限界を露呈する過程を丁寧に追いつつ、それでも「文法」と「意味」という本質的課題への接近がいかにして起きたかを論じます [p.8, p.9, p.39]。
■ Part II: 言語への言語学からのアプローチ
ChomskyのbiolinguisticおよびMinimalist Programを軸に、言語能力が生物学的・遺伝的基礎を持つ生得的なものであるという立場を紹介します。「有限の語から無限の文を生成できる」帰納性、「普遍文法(UG)」の生得性、そして言語能力を計算システムとして構成する「Merge」の概念が、コンピュータによるアプローチの初期の誤りを照らし出す理論的枠組みとして機能します [p.11, p.12, p.125, p.127]。
■ Part III: 画像からの意味抽出あるいは自然文生成の試み
画像とテキストの対応付けという実践的課題を通じて、文の構造(文法)と現実の事物の構造が対応しているという発見が浮かび上がります。自然言語による画像検索、Scene Graphによる画像の構造化記述、そして「文の意味」の本質への問いかけが、本Partの三本柱です [p.14, p.15, p.16]。