人工知能と自然言語

2018/10/26 「人工知能と自然言語」概要

セミナー紹介

 自由に言語を操る人間の能力を機械で実現することは、人工知能研究にとって、大きな目標の一つです。おそらくそれは、人工知能研究の「究極」の目標になるだろうと僕は考えています。他の動物にはない人間の「知能」の核心部分を構成しているのは、人間の言語能力に他ならないと考えているからです。

 ここ数年で、この分野では大きな前進がありました。Googleのニューラル機械翻訳やAlexa等の音声インターフェースを備えたパーソナル・アシスタント・システムの登場は、画期的なものです。今回のレクチャーでは、「自然言語とコンピュータ」をテーマに、この分野の取り組みを概観したいと思います。コンピュータによる自然言語処理に興味を持つ人だけではなく、広く人工知能技術の現在の到達点に関心を持つ人にも、有益な情報を提供したいと考えています。ご期待ください。

 第一部では、ディープラーニング技術からのこの分野のアプローチを紹介します。ここでの目覚ましい成果は、ディープラーニング技術の機械翻訳への応用です。また、「文章題」で小学生程度の「推論」能力を機械に持たせようという、bAbi(「ベイビー」と読むようです)データセットをめぐるGoogle, Facebookの取り組みについても紹介しようと思います。

 第二部では、Amazon Echo, Google Home等の、パーソナル・ボイス・アシスタントの取り組みの現状を紹介します。正確にいうと、この両者は、言語について多少異なるアプローチをとっているのですが、第一部で取り上げるディープラーニングに基づいたアプローチとは、明確に異なる技術に基づいていることには注意が必要です。同時に、両者ともに、Schema.org の提供するEntity モデルに依存しています。

 第三部では、「文法」に基づいてコンピュータで「文」を生成しようという取り組みを紹介します。主要には、言語学の世界で生まれたアプローチで、コンピュータ上での実装では遅れていますが、コンピュータで可能な「計算」として言語能力のモデルを作ろうという試みは、興味深いものです。こうした「計算主義的言語理論」の代表として、Lambekのカテゴリー文法とChomskyの"Merge"の理論を紹介したいと思います。  

「はじめに」から

自由に言語を操る人間の能力を機械で実現することは、人工知能研究にとって、大きな目標の一つである。おそらくそれは、人工知能研究の「究極」の目標の一つになるだろうとさえ、僕は考えている。他の動物にはない人間の「知能」の核心部分を構成しているのは、人間の言語能力に他ならないと考えているからである。
ここ数年で、この分野では大きな前進があった。Googleのニューラル機械翻訳やAlexa等の音声インターフェースを備えたパーソナル・アシスタント・システムの登場は、機械による自然言語処理の歴史の中で、画期をなす出来事といっていい。
こうした前進を踏まえて、我々は、人間の言語能力の解明に着実に進んでいるのであろうか?とあらためて、問いかけることは意味があるように思う。

コンシューマ・レベルでのプロダクトの普及と人々の経験の広がりは、自然言語処理技術の可能性とともに、その未熟さを、多くの人に気付かせることになるだろうと僕は考えている。
それは、次の技術の飛躍を準備する重要な契機になる。現在の自然言語処理技術の現状を知ることは、次のステップに進む上で必要なことだ。

コンピュータで自然言語を扱うアプローチは、多様である。小論では、言語に対する現在の主要なアプローチを、   

  1. ディープラーニング技術に基づくもの  
  2. 知識表現と検索技術に基づくもの  
  3. 計算主義的言語理論に基づくもの

と、大きく三つのタイプに分けて、それぞれの特徴と動向を紹介しようと思う。

第一、第二のアプローチについては、これまでのレクチャーで、たびたび述べてきた。小論では、第三の「計算主義的言語理論」に基づくアプローチの紹介に重点を置こうと思う。この第三のアプローチに関心を持っている人は、ITの世界では少ないと感じているからである。
僕自身は、文法的に正しい文をリアルタイムに受容し生成する言語能力を「計算能力」として捉える第三のアプローチに魅力を感じている。
ただ、総体として人間の言語能力を見たとき、「聴く・話す」といった、その「感覚・運動」的側面については、第一のアプローチが、意味や知識を活用する言語能力の「概念・思考」的側面については、第二のアプローチが有効だと考えている。

はじめに

講演資料 はじめに (ダウンロード


Part I: ディープラーニングからの自然言語へのアプローチ

ディープラーニングからの自然言語へのアプローチでの大きな成功例は、Google ニューラル機械翻訳と、Hintonらが切り開いたディープラーニングを用いた音声認識技術である。後者については、ボイス・アシスタントの基礎技術であり、Part II の冒頭で取り上げる。この Part Iでは、主要に、ニューラル機械翻訳技術の進化をあとづける。
ニューラル機械翻訳の最初のアイデアは、2004年のBengioの論文で提示される。それは、それ以前の機械翻訳の主流であった「統計的機械翻訳モデル」への批判的考察に基づいたものであった。ただ、そのアイデアがニューラル機械翻訳として実を結ぶまで、10年以上の時間が必要だった。

ニューラル機械翻訳のアーキテクチャーは、基本的に、Encoder-Decoder Modelに基づいている。Googleのニューラル機械翻訳は、先行したいくつかの研究を忠実に受け継いだものである。
DNC(Differentiable Neural Computer)は、小学生程度の国語の問題を機械に解かせようという試みである。一定の成功を収める。これらの訓練に利用されたbabIデータセットの日本語版の作成は、日本でのこうした研究・開発にとって不可欠であると僕は考えている。
DNCは、アーキテクチャー的には、ディープラーニングのエンジンに、外部メモリー(行列)を持たせようとする。ただし、そのメモリー・アクセスを含めて、徹頭徹尾、ディープラーニングの手法にこだわる。

講演資料 Part I (ダウンロード

Part II: ボイス・アシスタント・システム -- Entity Modelと知識検索

ボイス・アシスタント・システムの最も基礎的な技術は、2012年にHintonらが開発した、ディープラーニング技術を用いた音声認識技術である。ただ、こうした Speech2Text, Text2Speech という機能以外の部分には、ディープラーニング技術は使われていないと思っていい。
ボイス・アシスタント・システムの最初の商業プロダクトでの成功例は、Googleの音声検索システムである。(2008年)その、バックエンドでは、Entityモデルに基づいたグラフ検索エンジンが走っていた。それはまた、GoogleのKnowledge Graphという新しい検索モデルの導入と連動していた。

Googleらが設立した、Entity Modelのスキーマを標準として定義しようとする組織 Schema.orgは、Entity Modelの世界では、参照枠として、影響力を持っている。
ボイスのインターフェースを持たず、限られた目的(クイズ番組Jeopardyで人間と対抗する)の為の試験プロジェクトだったが、IBM Watson(2011年)は、自然言語の理解でも、パーソナル・アシスタント・システムとしても、当時、最高の達成だったと思う。それは、Wikipediaの全てのテキストを「知識」として持ち、システムは、基本的には検索とその結果の評価を高速で行うことで、正解にたどり着く。同時に、プロジェクト内では、検索に限らず、様々な多様なアプローチの模索が行われたことは、特筆に値すると、僕は考えている。

AmazonのEcho/Alexaは、当初は、発話を束ねるIntent 以外の抽象を持たず、 Speech2Text, Text2Speech の能力に依存して、「ああいえば、こういう」というシナリオを、全て人間が用意するという、非常にプリミティブなシステムとして出発する。
ただ、その後、Intentを補う情報としてのSlotが導入され、あわせて、Slotにマッチする語を事前に準備できるSlot Typeが提供される。また、その後、Intent自身のビルトイン・ライブラリーと、そのインターフェースとして、Intent Signatureが導入される。人工的なシステムで起きていることだが、ある意味で、言語システムの「進化」を見ているようで、興味ふかい。Intent Signatureは、「文法性」への志向としても理解できるのである。

講演資料 Part II (ダウンロード

Part III: 計算主義的言語理論-- MinimalistとCategorial Grammar

言語に対する現代の計算主義的なアプローチは、人工知能研究と同じくらい古い。Church-Turingによる「計算可能性」の定式化やTuringによる「機械は考えることができるか?」という問題提起が行われた時代の1950年代に、Chomskyは登場する。Chomsky Hierarchyの論文が出たのは1956年、”Syntactic Structures”が出るのは1957年だ。
1995年、Chomskyの”Minimalist Program”が出版される。それは、それまでの彼自身の言語理論をも一新したものだった。それは、それ以降の文法理論に深い影響を与えることになる。”Minimalist”の名前は、必要最小限の構成要素から文法理論を再構成しようというアプローチを示すものだが、その直接のソースは、”Principles of minimal computation” (「最少計算の原理」)から来ている。彼は、最も簡単な計算操作は、二つのものを一つに合わせる”Merge” だとする。

言語能力を計算能力として捉えようとするときに、その中心的な課題は、文法的に正しい文を生成する計算規則を見つけることだ。それは、文法の計算ルールを見つけることだと言って良い。MinimalistのChomskyは、それをMergeだとする。
時計の針を、少し、巻き戻そう。60年ほど前の1958年に、Chomskyの僚友だったLambekは、驚くべき発見をする。文法の計算ルールは、次のたった二つの式で表されるというのだ。
   (x/y)y --> x
   y(y∖x) --> x
Lambekは、名詞を表す型nと、文を表す型sというたった二つの型を用いて、語の並びから、先の二つの計算ルールで文を導く計算をしてみせる。Categorial Grammarの誕生である。

講演資料 Part III (ダウンロード

Part IV: 意味の形式的理論

「理論」と「モデル」の形式的定義

ここでは、「ルールの世界」と「たとえの世界」の数学的形式化を紹介したい。
ある世界で、基本的な公理と一階の述語論理の演繹規則が与えられているとしよう。この世界を「理論 Theory」と呼ぶことにしよう。この「理論」の世界で、ある命題φが成り立つのは、この理論の中で、命題φが証明される場合に限る。
今度は、もう一つ別の世界を考えよう。この世界では、ある命題φが妥当する(「真」である)ことが、何らかの方法で定義されているとする。こうした世界を「モデル Model」と呼ぼう。
ある理論TとあるモデルMについて、すべての命題φについて、次の関係が成り立つとする。
   Tにおいてφは証明可能 → Mにおいてφは真である
この時、TはモデルMを持つ。あるいは、MはTのモデルである。という。   

講演資料 Part IV (ダウンロード)