AI とマインクラフトの世界

講演資料

講義資料スライドの表紙です。スライド画像、または下の要約文中の青いページ番号リンクをクリックすると、別のタブで無駄なノイズのない、純粋なPDFビューア画面が起動し、指定されたページへ直接ジャンプして快適に閲覧できます。

全体概要

本セミナーは「AIとマインクラフトの世界と、昔の話をしよう」というタイトルのもと、DeepMindが開発した強化学習エージェント「DreamerV3」を中心的な事例として取り上げながら、AIの自律性・エージェント性とは何かという根源的な問いを深く掘り下げる内容です。

現在のAI議論はLLMを核とするエージェント化に注目が集まっていますが、本セミナーはその流れとは一線を画し、言語能力を持たないにもかかわらず、Minecraftというオープンワールドゲームでダイヤモンド採掘に世界初で成功したDreamerV3を通じて、「知覚・想像・行動」という知能の原始的かつ本質的な構造を照射します [p.8], [p.11]。

さらにセミナーは「昔の話」として、1970年のウィノグラードのSHRDLU（積み木の世界）[p.49]と1987年のロドニー・ブルックスの「表象なき知能」論 [p.70] を丁寧に再検討し、世界モデルをめぐるAI史の断絶と継承を明らかにします。DreamerV3の世界モデルは、SHRDLUが手作りの記号表現に依存した静的なモデルでも、ブルックスが全否定した内部表現でもなく、データから動的に学習された確率論的な世界モデルであり、両者の歴史的限界を乗り越える試みとして位置づけられます [p.86], [p.87]。

後半ではDreamerV3のソースコードを実際に読み解き、12個のサブゴールという「隠れたカリキュラム」の実態を明らかにすることで、「完全な疎な報酬から独学で学習した」という論文の主張を批判的に検討します [p.126]。そして締めくくりにDeepMindのAlphaGeometryとAlphaEvolveを並置し、強化学習・記号推論・進化的アルゴリズムという三つの異なるアプローチが、「汎用的で自律的なAI」という一つのビジョンに向けてどのように収束・分岐しているかを論じます [p.145], [p.191]。最終章ではディドロの「すべてに答えるオウム」という1746年の思考実験を召喚し、知性の本質とは外部からのパフォーマンスか内部の論理的整合性かという、AI研究が今なお格闘する問いを280年前の哲学に重ね合わせて閉じます [p.204]。

講義のロードマップ

■ Part 1: DeepMind DreamerV3とは何か

この部の核心:

DreamerV3は「ゲームをするAI」として紹介されますが、その本質はゲームの勝利ではなく、「世界のモデルを内部に学習し、未来を想像することで行動を改善する」という汎用エージェントの構造にあります。LLMベースのエージェントが言語を介して世界を理解するのに対し、DreamerV3は視覚入力から直接世界を知覚・予測するという根本的に異なるアーキテクチャを持ちます [p.25], [p.27]。

論理展開:
Minecraftでのダイヤモンド発見は「専門家デモもカリキュラムもなし」で達成された最初のRLアルゴリズムとして位置づけられる [p.11]。
AIのAgent化の起源としてのMulti Modal化（2023年9月）と、言語能力以前に存在しうる自律性の概念が提示される [p.16], [p.17]。
World ModelはRNNで構築され、5フレームの現実入力から45フレームの「想像された未来」を生成する [p.28]。
Critic（価値評価）とActor（行動選択）の二つのネットワークがWorld Modelと並行して訓練される三構成アーキテクチャが示される [p.36], [p.38]。

■ Part 2: 昔の話をしよう

この部の核心:

AI史における世界モデル論の変遷を、ウィノグラードのSHRDLUとブルックスのSubsumption Architectureという二つの歴史的転換点を軸に再検討します。前者は言語的・記号的な世界モデルの成功と限界を、後者はそれへの根底的な批判と反動を代表しており、この対立がDreamerV3を理解する歴史的文脈を形成します [p.47]。

論理展開:
SHRDLUは「積み木の世界」という閉じたマイクロワールドで言語理解・推論・行動計画を統合したが、現実世界へのスケールアップには失敗した [p.55], [p.56]。
ブルックスは「世界そのものを最良のモデルとして使え」と主張し、内部表現への依存を停滞の原因と断じた [p.74], [p.75]。
DreamerV3は「学習された動的な内部表現」によってブルックスの批判に応えつつ、SHRDLUが持っていた計画能力を取り戻した歴史的統合として位置づけられる [p.86]。
「純粋に記号的なSHRDLU」と「純粋に反応的なSA」の限界が、データ駆動型エージェントへの移行を促した [p.83], [p.84]。

■ Part 3: DreamerV3でのAI技術の飛躍

この部の核心:

DreamerV3のソースコードを実際に読み解くことで、「隠れたカリキュラム」の存在を明らかにし、論文の主張との乖離を批判的に検証します。また、Minecraftの最終ボスEnder Dragonを倒せるかという問いを通じて、DreamerV3の能力の実際の限界と、サブゴール設計という戦略的アプローチの可能性を論じます [p.97], [p.127]。

論理展開:
GitHub上のソースコード（`minecraft_flat.py`）には12個のサブゴールにそれぞれ報酬が設定されており、これは「隠れたカリキュラム」と呼びうる [p.116], [p.123]。
「単一の固定ハイパーパラメータで150以上の多様なタスクを習得」という汎用性がDreamerV3の核心的な技術的新規性である [p.131], [p.134]。
ロバスト性技術（報酬の正規化・バランシング・変換）が、多様なドメインにわたる安定学習を可能にしている [p.134]。
RSSMベースのWorld Modelは長期的な想像タスクで予測誤差が蓄積する弱点を持ち、Ender Dragon打倒は現状では困難と評価される [p.138], [p.139]。

■ Part 4: DeepMindの研究動向とDreamerV3

この部の核心:

DeepMindが同時並行で進めるDreamerV3・AlphaGeometry・AlphaEvolveの三プロジェクトを並置することで、「単一のAIアプローチへの収束」ではなく「知能の異なる側面への多面的探求」というDeepMindのビジョンの全体像を描き出します。締めくくりにディドロの哲学的思考実験を召喚し、AIの本質論的問いへと接続します [p.145], [p.191]。

論理展開:
AlphaGeometryはニューラル言語モデルと記号的演繹エンジンを組み合わせたニューロシンボリックシステムで、IMO問題30題中25題を解いた [p.153], [p.154]。
AlphaEvolveはLLMと進化的アルゴリズムを組み合わせ、56年ぶりにストラッセンのアルゴリズムを改良するなど科学的発見に貢献した [p.170]。
三プロジェクトはそれぞれ「環境との相互作用」「記号的証明」「コード空間の探索」という根本的に異なる知識獲得メカニズムを追求している [p.191]。
1746年のディドロの「すべてに答えるオウム＝思考する存在」論は、知性を外部パフォーマンスで判断するチューリングテストの先駆であり、LLMへの過剰な期待への批判的視座を与える [p.204], [p.211]。