セミナー紹介 [20170912]

全体概要

本セミナーは、「ボイス・アシスタント・システム——機械と人間のインターフェースの変化に備えよう」と題し、Amazon Echo/Alexa、Google Assistant、Apple Siriに代表される音声インターフェース技術の急速な台頭を、IT技術者がどのように捉え、実践的に活用すべきかを多角的に論じたものです [p.1, p.4]。

2016年5月のAmazon Code ConferenceでJeff Bezosが「ボイス・アシスタントの熱狂的な流行はすぐそこまで来ている」と宣言したように、本セミナーが開催された2017年時点において、この分野はApple・Google・Amazonによる三つ巴の激しい競争の舞台となっていました [p.2, p.3]。ボイス・アシスタントは自動運転カーと並ぶ「AI技術がコンシューマーに普及する上での最初の2大プロダクト」と位置づけられ、そのプラットフォーム覇権がAIビジネスの未来を左右すると論じられています [p.2]。

セミナーの中心的な「問い」は二層構造をなしています。第一は、「音声中心のインターフェースへの移行は現実のものか？」という問いであり、答えは明確に「Yes」とされます。キーボード・マウス・タッチスクリーンという歴史的な変化の延長線上に、音声インターフェースは必然的に位置します [p.42]。第二は、「ディープラーニングは、言語を理解する賢い機械を実現できるか？」という問いであり、ここでの答えは慎重なものです。ディープラーニングが音声認識（Speech-to-Text）の精度を飛躍的に向上させたことは確かですが [p.28, p.38]、変換された文字列の「意味理解」や「推論」については、現時点では確実に達成できていないと明確に指摘されます [p.44, p.64]。

この現実認識に基づき、セミナーはBotの機能を「入出力のボイス化」「情報提供型」「汎用会話Bot」の三類型に整理し、IT技術者が今すぐ着手すべきは第一の類型であると実践的に提言します [p.68, p.72]。さらに、Amazon AlexaのIntent/Slotモデル、MicrosoftのLUIS・Bot Framework、GoogleのAssistant SDKといった具体的なプログラミング実装を詳細に解説し、Schema.orgのEntityモデルとの連携やグラフ検索技術との接続という、より深い技術的地平へと議論を展開します [p.136, p.101, p.259]。音声インターフェースのUX設計という新たな実践課題を提示して締めくくられる本セミナーは、ディープラーニングの可能性と限界を冷静に見極めながら、今この瞬間に何をすべきかを技術者に問いかける、極めて実践的かつ知的誠実な講義です。

—

講義のロードマップ

ここでは、セミナーの講演資料がどのようなパートから構成されているかを示します。また、それぞれのパートのポイントを紹介します。

■ Part 1: ボイス・アシスタント・システムの現状と課題

主要なボイス・アシスタント製品群の概観から始まり、2012年のディープラーニング革命が音声認識技術をいかに変革したかを解説します [p.27, p.28]。その上で、「音声中心UIへの移行」という期待は正当であるが、「機械が言語を本当に理解する」という期待は現時点では過大であるという、二層の期待の峻別を本セミナー全体の基本的な認識論的基盤として確立します [p.40, p.41]。現在のディープラーニングが確実に達成できることは「音声を文字列に変換するところまで」であり、それ以上の自然言語理解はFacebookのMemory NetworkやGoogle DeepMindのDifferentiable Neural Computerでさえ「小学4年生程度の国語問題」に苦戦している現実が示されます [p.64]。

■ Part 2: 人工知能と検索技術——ボイス・アシスタントの情報基盤

ボイス・アシスタントの情報提供機能（第二類型）を支えるのは、ディープラーニングではなく「グラフ検索技術の進化」であるという重要な指摘がなされます [p.101]。Google音声検索の誕生から日本語対応の困難を乗り越えた歴史 [p.78, p.79]、Knowledge Graphの仕組み [p.92]、そしてSchema.orgというグローバル標準のEntityモデル [p.119] を丁寧に解説することで、「ボイス・アシスタントとはつまり何者か」をより深い技術的視点から再定義します。Googleの究極の目標が「AIによる完全な検索エンジン」であるというLarry Pageの言葉 [p.111] が、この議論の象徴的な締めとなります。

■ Part 3: ボイス・アシスタント・システムのプログラミング

Speech2TextとText2Speechという原始的なモデルから始まり、Voice Command、Intent Model、Intent+Slotモデル、Intent Signature（Schema.orgのEntity Modelの採用）へと段階的に発展してきたボイス・アシスタントの開発モデルの「必然的な進化」を、Microsoft Cortana・Amazon Alexa・LUIS・Bot Framework・Google Assistant SDKの具体的なコードと定義ファイルを通じて実践的に解説します [p.136, p.137]。この階層はプリミティブなものからより複雑なものへの構造的な進化であると同時に、時間の中での歴史的変化でもあります [p.137]。

■ Part 4: 音声インターフェース時代のユーザー・エクスペリエンス

画面デザインだけがUI/UXである時代は終わり、音声インターフェースにも固有のUXが存在するという認識が提示されます [p.392]。AlexaのMulti-turn DialogとDelegate/ElicitSlot/ConfirmSlotディレクティブを中心に、スロットを段階的に埋めていく対話設計の具体的な実装方法が解説されます [p.393, p.397]。最後にEugene GoostmanとTuring Testの事例 [p.439, p.442] を通じて、「会話らしさ」の本質と「人工無脳」的アプローチの可能性が問われ、ボイスインターフェースの本質的な難しさと面白さが示唆されます。