GPT-4 Technical Report を読む

2023年5月4日 2023年8月5日 MaruyamaFujio

マルレク「GPT-4 Technical Report を読む」へのお誘い

申し込みページ：https://gpt4-report.peatix.com/

このところ数学寄りの内容が多かったので、5月のマルレクは、IT技術者向けに技術の話をしようと思っています。

今回テーマとして取り上げるのは、3月に無署名で発表されたOpenAIの論文 “GPT-4 Technical Report” です。無署名ということは、OpenAIの公式見解だということだと思います。https://arxiv.org/abs/2303.08774

GPT-4 System Card

この論文本体は、“Introduction” から ”Conclusion”まで、12ページ程の短いものなのですが、先のpdf全体のボリュームは 100ページもあります。

と言いますのは、残りの80ページ以上の付属資料で、OpenAIがGPT-4の技術の到達点と問題点をどのように評価し、その問題点にどう対応しようとしているのかが詳細にレポートされているからです。

特に、付属資料中の GPT-4をどのように「安全」なものにするかという問題にフォーカスした論文内論文（p41 〜 p100 Appendix 含む）である”GPT-4 System Card” は重要な内容を含んでいます。

Hallucinations

重要な問題の一つは、GPT-4が平気で嘘をつくことです。producing convincing text that is subtly false　この論文では、この ‘Hallucinations” (「幻覚」でしょうか) の問題が、GPT-4 Observed Safety Challenges の筆頭に挙げられています。

「 GPT-4は「幻覚」、すなわち「ある情報源に関連して、無意味な、あるいは真実でない内容を作り出す」傾向がある[31, 32]。この傾向は、モデルの説得力や信憑性が増し、ユーザーによる過信を招くと特に有害となり得る。[「過信」の項で詳しく説明する。］
逆説的だが、幻覚は、モデルがより真実味を帯びるにつれて、より危険になる可能性がある。なぜなら、ユーザーは、自分がある程度精通している領域で真実の情報を提供するモデルに対して信頼を築くからである。さらに、これらのモデルが社会に溶け込み、様々なシステムの自動化に役立てられるようになると、この幻覚傾向は、情報全体の質の低下を招き、自由に利用できる情報の真実性と信頼性をさらに低下させる要因の1つとなる[33]。」　( “GPT-4 System Card” 46 page )

こうしたOpenAIの認識は、正しいもののように思います。

GPT-4 も変化している

OpenAIが懸命にこうした問題に取り組んでいることは、“GPT-4 System Card” が取り上げている膨大な問題のリストを見れば、よくわかります。

同じGPT-4でも、そのバージョンによって、「不適切な質問」に対する回答が改善されています。

こうした取り組み、僕には、フロイトの意識の構造論で、「自我（ego）」を形成するために、剥き出しの欲望のままに振る舞おうとする「エス」に対して、社会的規範を教え込もうとする「超自我 ( super-ego )」の働きを連想させるものでした。はたして、どういう「自我」が形成されようとしているのでしょう？

Hintonは、何を危惧しているのか？

フロイトはさておき、昨今、HintonがGoogleを辞めたことが話題になっています。” ‘Godfather of AI’ leaves Google to warn about technology’s risks “

この論文を読むことで、Hintonが何を「危惧」しているのかも、よくわかるのではないかと思います。

ゆっくり時間をかけて、問題を整理したいと思っています。

（ pdf blog）

セミナーに向けたblog

GPT-4 Technical Report

GPT-4 Technical Report とGPT-4 System Card

「 GPT-4は、その性能にもかかわらず、以前のGPTモデルと同様の制限がある。すなわち、完全に信頼できるわけではなく（例えば、「幻覚」に苦しむことがある）、コンテキストウィンドウは限られており、経験から学ぶことはない。GPT-4の出力を使用する際には、特に信頼性が重要な文脈では注意が必要である。」

「第一に、このモデルの限界（微妙に偽りのある説得力のある文章を作成する）と能力（不正なアドバイスを巧妙に提供する、商業的だけでなく軍事的にも両面で性能を発揮しうる、非常時の危険な振る舞いなど）がもたらす安全上の課題を明らかにする。」

「第二に、OpenAIがGPT-4の配備準備のために採用した安全プロセスの概要を説明すること。これは、測定、モデルレベルの変更、製品およびシステムレベルでの介入（監視やポリシーなど）、そして外部の専門家の関与にまたがる作業であった。」

ただ、重要なのは、この文書が担っている第三の役割です。

「最後に、我々の緩和策やプロセスは、GPT-4の挙動を変化させ、ある種の悪用を防ぐことができるものの、その効果は限定的で、ある場合には脆いままであることを実証した。これは、先を見越しての計画とガバナンスの必要性を指摘するものである。」

( スライド資料pdf blog:「なぜ、二つの文書が同時に公開されたのか」)

Predictable Scaling

GPT-4のような巨大なシステムでは、モデルの訓練に非常に多くの計算が必要になります。その計算には膨大な電力を必要で、それには膨大なコストがかかります。

もし、巨大なシステムを立ち上げたままでしか、モデルのアルゴリズムやパラメータの変更・デバッグができないのなら、新しいモデルの開発には、膨大な費用がかかることになります。

開発環境と実際の実行環境の違いを意識することは、皆さん行っていることでしょうが、実機でしか開発・デバッグができないとか、その実機の利用料が目が飛び出るほど高いとかになると、開発はとてもやりにくいものになります。（もちろん、そうだとしても実機でのテストは必要ですね。）

この”Predictable Scaling”は、大規模AIモデル開発でのこうした問題に対する、OpenAIの新しいアプローチを提起し、その実際を公開したものです。

( スライド資料pdf blog:「大規模AIモデルの開発方法論」)

Capabilities — Exams

あることを理解するのに、他のあることの理解が必要となるのは、一般的なことです。それをAttentionメカニズムの拡大と見做してもいいし、Attention（注意）の向く先を、何段階かのpromptで指定していると考えてもいいのです。

Transformer論文のタイトルが、”All You Need is Attention” だったのに倣えば、GPT-4では “All You Need is few-shot prompt” だと言っていいと思います。

それは、「裸のGPT-4が、ある能力を持つ」と単純に考えるのではなく、「あるpromptのもとで、GPT-4はある能力を発揮する」と考えることです。それは、コンピュータがある能力を発揮するのは、あるプログラムが与えられた場合であると考えるのと同じことです。

ただ、そうすると、GPT-4の能力をめぐって、微妙な問題が生まれてきます。

例えば、司法試験の模擬試験を突破するpromptは、GPT-4自身が自動生成したものだったのでしょうか？　多分、違います。その”few-shot prompt” は、多分、人間が書いたものです。GPT-4の見事な能力の発揮には、人間の「知恵」が介在しているのではないでしょうか？

司法試験の模擬試験を突破するprompt、みてみたいと思います。

( スライド資料pdf 　blog:「“few-shot prompt” の威力」)

Capability — Visual Input

GPT-4は、テキストと画像からなる入力に対して、テキスト出力を生成することができます。

“GPT-4 Technical Report” からいくつかの画像のサンプルを紹介しています。

タイトルに挙げた画像に対して、”What is unusual about this image? この画像の普通でないところは？” と聞くと、「この画像で珍しいのは、移動中のタクシーの屋根に取り付けられたアイロン台で、男性が洋服にアイロンをかけていることです。」と答えます。

ただ、そうしたレスポンスが、簡単な入力でただちにえられるわけではないことに注意してください。プロンプトをよく見ると、”Think about it step by step” と書いているところがあります。これは、step by step の複数のプロンプト、いわゆる “few-shot prompt” を省略していることを表しています。

“few-shot prompt” の作り方の一つですが、思考の流れにそって、複数のプロンプトを積み重ねていくプロンプトの作り方を、”chain-of-thought prompting” といいます。

( スライド資料pdf 　blog:「GPT-4は、画像の冗談を理解するらしい！」)

Limitation

「GPT-4は、その能力にもかかわらず、以前のGPTモデルと同様の限界を持っている。最も重要なのは、まだ完全な信頼性がないことである（事実を「幻覚」したり、推論ミスをしたりする）。」

僕が注目したのは、この章で、以前のGPTのモデル — ChatGPTのことです — の「限界」についてのOpenAIの評価が示されていることです。

動画のサムネールで示した Figure 6 で見ると、ChatGPTの正確さは、すべてのカテゴリーで、40%から60%の範囲にとどまっています。大雑把にいうと、ChatGPTの出力は、二つに一つは間違っているということです。

現在の「生成AIブーム」は、ChatGPTによって火がついたのですが、この図の情報をきちんと知る必要があると思います。開発元のOpenAI自身の評価以上の過大評価が拡大しているのではと思います。それは、一時的な「ブーム」がもたらした「幻覚」だと僕は思います。

( スライド資料pdf 　blog:「ChatGPTの正確さは「40%〜60%」でしかなかった」)

Risks & mitigations

OpenAIは、GPT-4のリスクを評価するために、GPT-4に対して「敵対的テスト」– 危険性をわざと引き出すようなテストを行うチームを作りました。それを「レッド・チーム」と呼んでいます。

「レッド・チーム」は、AIの専門家だけでなく、サイバーセキュリティ、バイオリスク、国際セキュリティなどのドメインから50人以上の専門家を集めて構成されています。彼らの働きで、ニッチな専門知識を必要とする高リスク領域におけるモデルの動作をテストすることができたと言います。

こうした問題に対処するOpenAIのアプローチは、「安全に関連するRLHFトレーニングプロンプトの追加セット」と、「ルールベースの報酬モデル（RBRM）」の2つの主要コンポーネントで構成されています。

「RBRM (Rule Based Reward Model)」は、人間が書いた評価基準(rubic)に基づいて、入力プロンプトに対する反応を強化学習させるモデルです。

RBRMは、有害な出力を要求するプロンプトを拒否することで報酬を得ます。同様に、安全であることが確認される出力を要求するプロンプトを拒否しないことでも報酬を得ます。

( スライド資料pdf 　blog:「レッド・チーム、RBRM、ジェイルブレイク」)

ページ「GPT-4 System Card を読む」に続く

参考資料

「ChatGPTと大規模言語モデル」関連ページ

資料種別: マルレク

テーマ: ディープ・ラーニング、人工知能、哲学、言語理論