AIの利用とインターフェースを考える

講演資料

講義資料スライドの表紙です。上のスライド画像をクリックすると、同じ画面のまま全編のPDF資料を快適に閲覧・印刷することができます。

セミナーの概要

本セミナー「AIの利用とインターフェースを考える」は、2023年に急速に進展しつつあったマルチモーダルAIの登場を契機として、AI技術の未来と人間の役割を根本から問い直す試みです。中心的な「問い」は、「AIはどのような存在であるべきか、そして人間はAIとどのような関係を築くべきか」という点に集約されます。
講師が一貫して提示するのは、「Be My AI!」というコンセプトAIをあくまでも人間のパーソナルなアシスタントとして設計・利用するという展望です。AI技術をめぐっては「AIが人間を超える自律的な知能を獲得しつつある」という言説が台頭しつつありましたが、本セミナーはその方向性に疑問を呈し、むしろ現段階のAI研究は「人間の持つ諸能力の再評価」のフェーズにあると捉え直します。
この問いに答えるため、講義は四つの部から構成されます。第一部では、マルチモーダルAIの登場を背景に、ボイスAIこそがAI利用拡大のゲームチェンジャーになりうるという仮説が提示されます。第二部では、電報・電話・ラジオ・テレビ・インターネットと続いたメディアのマルチモーダル化の歴史を精緻に辿り、Visualなメディアへの人間の強い欲求が産業構造変革を何度も引き起こしてきたという事実が確認されます。そのうえで、メディアとAIのコミュニケーション・モデルの根本的な違いが論じられます。第三部では、OpenAIが公開したGPT-4V System CardおよびCLIP論文を丁寧に読み解き、「眼を持ったAI」の技術的達成と限界が具体的な事例を通して分析されます。第四部では、望遠鏡・顕微鏡・CTスキャン・重力波望遠鏡・加速器といった「視覚能力を持つ機械」の歴史を俯瞰し、人間の認識能力の階層構造（感覚運動能力→言語能力→数学的認識能力）を描き出すことで、AIが依拠する人間の力の本質が照らし出されます。
全体を貫く視座は、「AIは人間の力が外部に現れたものであり、それをいかに人間のために役立てるかの設計こそが重要である」という人間中心の哲学です。

講義のロードマップ

ここでは、セミナーの講演資料がどのようなパートから構成されているかを示します。また、それぞれのパートのポイントを紹介します。

■ Part 1: はじめにパーソナルなAIを展望する

「Be My AI!」というOpenAIのドキュメントに見つけた言葉を羅針盤として、AIをAI優位の自律的な知能としてではなく、すべての人間が日常的に使えるパーソナルなアシスタントとして設計することこそが次の突破口であると宣言します。その鍵として、テキスト入出力を音声に単純変換するだけでなく、会話的なインタラクションを可能にする「ボイスAI」の新しいインターフェース設計が提起されます。[p.5〜p.18]

■ Part 2: メディアのマルチモーダル化から学ぶ

電信から電話・ラジオ・テレビ・インターネットへと続くメディアのマルチモーダル化の歴史は、人間のVisual情報への強い欲求によって駆動され、そのたびに新しいデバイスと巨大産業を生み出してきました。しかしメディアとAIはモデルが根本的に異なるため、単純なアナロジーは成り立ちません。メディアの両端には共通の感覚能力を持つ人間が存在し、コンテンツの同一性を保証するのは人間の側です。AIのAgent-Base-Modelにおいては、感覚能力の拡大と「自律性・能動性」が問われます。[p.47〜p.98]

■ Part 3: AIのマルチモーダル化の始まり

GPT-4V System CardとCLIP論文の精読を通じて、「眼を持ったAI」の技術的達成と限界を具体的に検証します。GPT-4Vは複雑な科学図表の読解、毒キノコの識別、テキストスクリーンショットの解釈など幅広い能力を示す一方、幻覚・ステレオタイプ的推論・視覚的脆弱性・偽情報生成のリスクといった深刻な限界を抱えています。CLIPは大規模なテキスト・画像ペアによる訓練で画像認識を高度化しましたが、手書き数字や分布外データへの汎化失敗、natural language supervisionの限界、バイアス問題など多くの課題が残ります。[p.102〜p.173]

■ Part 4: AIの進化と人間の役割

望遠鏡・顕微鏡・CTスキャン・重力波望遠鏡・加速器CERNといった「視覚能力を持つ機械」の歴史を辿ることで、機械は常に人間の感覚能力の拡大として構想・構築されてきたことが示されます。人間の認識能力の階層感覚運動能力・言語能力（ことばと文字）・数学的認識能力が整理され、大規模言語モデルは「文字を読む」領域に依拠し、マルチモーダルAIはその範囲を視覚・聴覚・音声へと拡張しようとしていると位置づけられます。RLHFの登場こそが、「人間の力の再評価」という現段階のAI研究の本質を体現しています。[p.177〜p.289]

ページのナビゲート

元のMaruLaboサイトのセミナーページに移動する

MaruLabo コンシェルジェのトップページに戻る