全体概要
本セミナー「ボイス・アシスタントから見るAIの未来」は、丸山不二夫氏によって、Amazon EchoおよびGoogle Homeに代表されるコンシューマ向けボイス・アシスタントの現状と、その先に広がるAI技術の課題を多角的に論じたものです [p.1]。
セミナーが根底に置く問いは、「ボイス・アシスタントは本当に『知能』を持つのか?」という一点に収斂します。現在市場に流通するスキルやアプリの大部分は、単純なプログラムの音声入出力化あるいはデバイスへのボイスコマンド化に過ぎず、「人工知能」の名にふさわしい知的パーソナルアシスタントの実現はこれからの課題であると、著者は率直に指摘します [p.5]。
現在のボイス・アシスタントはディープラーニングによるSpeech2TextおよびText2Speechに立脚しており、音声と文字列の相互変換は可能になりましたが、それだけでは機械が真の意味で「理解する」には至りません [p.6]。それでもなお著者がこの技術を重要視する理由は、人間と機械の日常的インターフェースが自然言語に移行することで、コンシューマ市場における「知能」への要求が質・量ともに飛躍的に高まり、自然言語処理をはじめとする現在のAI技術の諸課題の解決に向けた強力な「淘汰圧」として働くことへの期待です [p.6, p.7]。
Larry Pageがかつて語ったように、Googleの検索エンジンがAIによって完成されるとき初めてGoogleのミッションは果たされます [p.3, p.4]。この洞察はそのままボイス・アシスタントの未来にも通じており、セミナーはそのビジョンへ向けて、Intent/Slot/Entityモデルというアーキテクチャの進化、知識グラフとSchema.orgの限界、自然言語の意味理解という三層の問題を丁寧に解きほぐしていきます。
AlexaとGoogle Homeの開発モデルを比較・分析する中で、著者は「Alexaが知識検索能力を獲得するか、GoogleがそれをAPIで公開するとき、競争の第一幕は終わり次の段階へ進む」と展望します [p.7]。さらにAppendixでは、質問応答システムとしてこれまでの最良の達成であるIBM Watsonが蓄積した知見、特に英文スロット文法(ESG)と述語引数構造(PAS)、そして大規模ドキュメントからの知識フレーム自動抽出システムPRISMATICを詳しく取り上げ、真に「知的」なボイス・アシスタントを実現するために学ぶべき先行技術として提示しています [p.367, p.394]。
本セミナーは、現状への冷静な批評と、未来への技術的根拠に基づく期待を同時に携えた、AIの現在地を測るための精緻な技術地図です。
—
講義のロードマップ
ここでは、セミナーの講演資料がどのようなパートから構成されているかを示します。また、それぞれのパートのポイントを紹介します。
—
■ Part I: ボイス・アシスタントの現状
Amazon EchoとGoogle Homeが市場に登場した経緯と、対応アプライアンス・スキル・Smart Home応用・多言語対応・サードパーティ開発ツールまでを網羅的に俯瞰します。ボイス・アシスタントが「コンシューマ向け初のAIアプライアンス」としてどのような生態系を形成しつつあるかを具体的に示します [p.10, p.11]。
■ Part II: Amazon EchoとGoogle Homeの開発モデル/開発環境
AlexaのIntent Modelの歴史的進化(Intent → Intent+Slot → Intent+Slot+Entity)と、Google HomeのAssistant SDK・Dialogflow SDK・Action SDKという三層の開発環境を比較分析します。両者の設計思想の共通点と相違点を技術的に精査することで、ボイス・アシスタント開発の現在地を明示します [p.89, p.90, p.91, p.92]。
■ Part III: ボイス・アシスタントから見るAIの課題
「ボイス・アシスタントは知識を持つか」という根本的問いを軸に、知識グラフの探索・Schema.orgのEntityモデルの限界・知識データベース構築の試み・文の意味理解という四つの問題圏を順に論じます。Larry Pageの「検索エンジンのAI完全化」というビジョンと現実の技術的ギャップを、具体的なAPIの挙動や仕様の分析を通じて明確化します [p.221, p.222]。