セミナー「ボイスアシスタント・システム?? 人間と機械のインターフェースの変化に備えよう」紹介 [20171114]

全体概要

本セミナーは「ボイス・アシスタント・システム」をテーマに掲げ、Amazon Echo/Alexa、Google Home/Assistant、Microsoft Cortana、Apple Siriといったプロダクト群の登場が、ITエンジニアにとって何を意味するのかを問い直すものです [p.1, p.4]。

その問いの背景には、2016年のAmazon Code Conferenceにおいてジェフ・ベゾスが「ボイス・アシスタントの熱狂的な流行はすぐそこまで来ている」と宣言し、Apple・Google・Amazon三社の「戦争」を予告した事実があります [p.2, p.3]。ボイス・アシスタントは自動運転カーと並び、AI技術がコンシューマーに普及する最初の二大プロダクトの一つと位置づけられており、その市場とプラットフォームを誰がどう押さえるかが、AIビジネス全体の行方を左右する可能性を秘めています [p.2]。

本セミナーが提起する最も重要な「問い」は、ボイス・アシスタントに向けられた「二つの期待」の峻別です [p.41]。第一の期待、すなわち「音声中心のインターフェースへの移行」は正しい。しかし第二の期待、つまり「ディープラーニングによって機械が言語を真に理解する知性を持つ」という期待については、現時点では難しいと明確に結論づけます [p.42]。ディープラーニングが音声認識（speech2text）の精度を飛躍的に高めたことは疑いようがなく [p.29, p.32]、マイクロソフトが2017年に人間と同等の5.1%という誤認識率を達成したことはその証左です [p.39]。しかし音声を文字列に変換した先——その文字列をどう理解し処理するか——については、現在のディープラーニングはほとんど何も教えてくれないのです [p.45, p.65]。

この現実認識に立脚しながら、本セミナーはエンジニアが今何に取り組むべきかを三つのBotタイプ（入出力のボイス化、情報提供型、汎用会話型）という実践的枠組みで整理し [p.69, p.71]、特に第一のタイプから実装スキルを磨くことを強く推奨します [p.73]。後半では、Alexa、Cortana、LUIS、Google Assistant、Dialogflowといった実際の開発モデルを、Intent Model・Slot Model・Intent Signature・Entity Modelという進化の軸に沿って体系的に解説し、Multi-turn Dialogによるユーザー体験設計の重要性にまで踏み込みます [p.150, p.365]。ボイス・インターフェース時代においてUI/UXの概念そのものが刷新されるという認識が、本セミナー全体を貫く底流です [p.363, p.364]。

—

講義のロードマップ

ここでは、セミナーの講演資料がどのようなパートから構成されているかを示します。また、それぞれのパートのポイントを紹介します。

■ Part 1: ボイス・アシスタント・システムの現状と課題

市場に登場している主要なボイス・アシスタントのプロダクトを俯瞰した上で、その技術的基盤であるディープラーニングと音声認識の関係を整理します。そして「機械は言語を理解できるか」という問いに対し、現在の技術の到達点と限界を、Google翻訳やDeepMindのDifferentiable Neural Computerといった最先端研究の成果を参照しながら冷静に評価します [p.5, p.27, p.46]。

■ Part 2: ボイス・アシスタントへの期待と実践戦略

二つの期待（音声インターフェース化と機械の知性化）を峻別した上で、Botの機能を三つのタイプに分類し、エンジニアが現実的に取り組むべき優先順位を提示します。「汎用会話Bot」の幻想を退け、第一の入出力ボイス化タイプから着手することの合理性と、スマートフォンをプラットフォームとして活用する視点を示します [p.40, p.42, p.69, p.73, p.82]。

■ Part 3: 人工知能と検索技術——Google Knowledge Graphの役割

ボイス・アシスタントの情報提供能力を支えるのは、従来の文字列検索ではなくグラフ検索技術であることを示します。GoogleのKnowledge GraphとSchema.orgのEntity Modelの構造を理解することが、第二タイプのBot開発の鍵となります [p.83, p.100, p.129]。

■ Part 4: ボイス・アシスタントのプログラミング——開発モデルの進化

ボイス・アシスタントのプログラミングモデルがどのように進化してきたかを、Speech2Text/Text2Speech→Voice Command→Intent Model→Intent+Slot Model→Intent Signature/Entity Modelという段階的な発展として体系的に解説します [p.150, p.151]。

■ Part 5: 音声インターフェース時代のユーザー体験設計

ボイス・インターフェースにもUI/UXの設計が必要であるという観点を確立し、特にMulti-turn Dialogという「対話の連鎖」の実装を通じて、ユーザーが自然に情報を提供できる体験設計の方法論を示します [p.363, p.364, p.365]。