全体概要
2023年3月、OpenAIは「GPT-4 Technical Report」を無署名で公開しました。無署名という形式は、これが特定の研究者個人の見解ではなく、OpenAIとしての公式な技術的到達点の宣言であることを意味しています [p.2]。本セミナーは、この論文と同時公表された「GPT-4 System Card」という80ページ超の付属資料とを合わせて精読し、GPT-4という技術が現代社会に突きつけている問いの本質に迫るものです [p.5]。
セミナーが提起する中心的な問いは二層構造をなしています。第一の問いは「GPT-4はどこまで何ができるのか」という能力の問いであり、第二の問いは「その能力はいかなる危険をはらんでいるのか、そしてOpenAIはそれにどう立ち向かっているのか」という安全性の問いです。前者については、司法試験の模擬試験で受験者上位10%に入るスコアを叩き出すという驚異的な結果や、画像とテキストを同時に扱うマルチモーダル能力が論じられます [p.16]。後者については、幻覚(ハルシネーション)、有害コンテンツ、偽情報と影響力操作、ユーザーによるモデルへの過信といった多岐にわたるリスクが赤裸々に論じられます [p.7]。
本セミナーが特に重要な文脈として位置づけているのが、2023年5月のGeoffrey Hintonの「Google離脱」という出来事です。AI研究の父とも称されるHintonが、その危険性を警告するために業界を去ったこの事件の背景が、二つの論文を丁寧に読み解くことで初めて鮮明に見えてくる、とセミナーは主張します [p.12]。
そして本セミナー第三部では、OpenAIがGPT-4の出力を制御するために開発したRBRM(Rule Based Reward Model)というプロンプトベースの分類器の実装例を詳細に読み解きます [p.75, p.172]。これは単なる技術解説にとどまらず、「巨大な言語モデルを倫理的・安全なものに誘導しようとする人間の格闘」の最前線を見せるものです。OpenAI自身が認めるように、緩和策の効果は「限定的で脆いまま」であり [p.7]、AI安全性の問題は開発者のみならず社会全体が直面すべき構造的な問題として提示されます。
講義のロードマップ
ここでは、セミナーの講演資料がどのようなパートから構成されているかを示します。また、それぞれのパートのポイントを紹介します。
■ Part 1: GPT-4 Technical Report を読む
GPT-4 Technical Report本体(全12ページ程度)の内容を精読します。モデルの基本設計、「Predictable Scaling(予測可能なスケーリング)」という工学的ブレイクスルー、各種試験・ベンチマークにおける驚異的な性能、マルチモーダル(視覚入力)能力、そして本モデルが依然として抱える根本的な限界とリスク緩和策を段階的に論じます [p.23]。
■ Part 2: GPT-4 System Card を読む
Technical Reportに付属する80ページ超の「GPT-4 System Card」を軸に、OpenAIが観察・分類した安全上の課題群を詳細に論じます。本Cardの要点は「緩和策は機能しているが、効果は限定的かつ脆弱であり、先を見越した計画とガバナンスが必要だ」という率直な宣言にあります [p.95]。
■ Part 3: RBRM Prompt Examples を読む
GPT-4 System Cardの付録A〜Cとして公開されている三種類のRBRMプロンプト(拒否スタイル分類・規制アドバイス分類・性的コンテンツ分類)の実際のソースコードを精読します。「プロンプトとは何か」「プロンプトにできることとできないこと」という根本的なプログラミング論的考察を経て、RBRMプロンプトの設計パターンを解説します [p.187, p.190]。