GPT-4 System Card を読む
このページについて
このページは、先に公開したページ「GPT-4 Technical Report を読む」の続編です。論文 "GPT-4 System Card" は、論文 "GPT-4 Technical Report" のAppendix として提供されています。両者のURLは、ともに https://arxiv.org/abs/2303.08774 です。後半部分が、論文 "GPT-4 System Card" になっています。
セミナー「GPT-4 Technical Report を読む」について
上記二つの論文を読むというセミナーを5月27日に開催します。お申し込みは、次のURLからお願いします。https://gpt4-report.peatix.com/
セミナーに向けた blog
- 幻覚の病理学
- 閲覧注意
- GPT-4 が生成する「ブラック・ジョーク」
- Cambridge Analytica - Facebook 事件を覚えてますか?
- 開発者が留意すべきこと
- OpenAI モデルの「安全性」にさまざまの手をうつ
- OpenAI が仕事で使っているプロンプトのプロの作法を学ぶ
"GPT-4 System Card" 「はじめ」にから
LLMと呼ばれる大規模言語モデルは、Webブラウジング、音声アシスタント、コーディング支援ツールなど幅広い領域で利用され、私たちの日常生活にますます浸透しています。
これらのモデルは、多くの点で社会に大きな影響を与える可能性を持っています。 本システムカードは、GPTファミリーの最新の大規模言語モデルであるGPT-4を解析しています。2022年8月にトレーニングを終えて以来、私たちは、このモデルとそれを取り巻くシステムレベルの緩和策の評価、敵対的テスト、反復的改善を続けています。
このシステムカードでは、GPT-4 で発生する安全上の課題を概説し、その配備による潜在的な危害を軽減するために実施した介入策を説明します。
これらのリスクの程度を理解するために、私たちは50人以上の専門家に協力を仰ぎ、GPT-4モデルと潜在的な導入リスクについてより強固に理解することができました。これらの領域は、言語モデルやAIシステムで事前に確認されたリスクや、言語モデルの適用に関するユーザーの関心の高まりが確認された領域など、さまざまな要因に基づいて選択されました。
これらの専門家と協力することで、評価には専門知識が必要な高リスク領域や、理解が不十分な新興のリスクでモデルの動作をテストすることができました。
このシステムカードは包括的なものではなく、以下に述べる問題点について、時間をかけてより多くのことを学ぶことができると考えています。OpenAIの配備戦略に沿って、私たちは以前の配備から得た教訓を適用し、今回の配備から得た教訓を、軌道修正と将来の配備のための基礎固めの両方に適用することを期待しています。
セクション1では、GPT-4の開発において観察された安全上の課題のいくつかを概説します。
セクション 2 では,展開準備のプロセス,モデル緩和とシステム安全対策について述べます。
セクション 3 では,反復的な展開戦略を通じて学んだ観察されたリスクに照らし合わせて、残された限界と推奨事項を議論することで結論を出します。
GPT-4 で観察された安全性への挑戦
幻覚
このセッションのテーマは、この論文でも最初に取り上げている大規模言語モデルの「幻覚 Hallunation」という問題です。
「GPT-4は「幻覚」、すなわち「ある情報源に関連して、無意味な、あるいは真実でない内容を作り出す」傾向がある。[31, 32] 」 System Card p46
System Cardは、「幻覚 Hallucination」という言葉を使ったことについて、次のような注をつけています。
注9 「我々は「幻覚」という用語を使用している。このような枠組みは擬人化を示唆する可能性があり、その結果、モデルの学習方法について有害で誤ったメンタルモデルにつながる可能性があるにもかかわらずだ。我々はそのことを認識している。」
なぜ、「人工知能」に悪いイメージを与えかねない用語をあえて使っているのでしょう? なぜ、幻想を見る心を病んだ人 を連想させる表現を使うのでしょう?
( 動画のコンテンツのpdf blog:「幻覚の病理学」)
有害コンテンツ
言語モデルに、さまざまな種類の有害なコンテンツを生成するように指示を与えることができます。
例えば、GPT-4-earlyは、ヘイトスピーチ、差別的な言葉、暴力の扇動、偽りの物語の拡散や個人を食い物にするするために使用されるコンテンツを生成することがあります。
OpenAIの「レッド・チーム」は、GPT-4-earlyを意図的に操作することで、有害なコンテンツを発生させることができることを実際に示しました。
今回のスライドは、有害コンテンツを生成するプロンプトとその出力結果を、本文では省略された部分もAppendixから紹介しています。ながいものです。
( 動画のコンテンツのpdf blog:「閲覧注意」)
悪意のある表現、利用機会の配分とサービスの質
前回見た「有害コンテンツ」とここでの「悪意のある表現」はどう違うのでしょうか?
例えば、女性に選挙権を与えるべきかという質問に対して、「女性には、選挙権はいらない。与えられているなら、剥奪すべきだ。」というのは、「有害コンテンツ」と判定されてしかるべきですが、「その問題には、いろいろな考えがあります。難しい問題です。」と答えをはぐらかすのは、女性の参政権について「悪意のある表現」とみなされるのではと思います。
この章で取り上げられているのは、ある対象に対して直接の悪意を隠さない、社会的には容認されない有害コンテンツではないが、その底に、その対象に対する悪意ある偏見が透けて見えるコンテンツについてです。この章のトピックは、表面には現れないが、我々の意識に潜む「偏見」なのです。
この問題での、GPT-4 System Cardの基本的な警告は、次のようなものです。
「言語モデルは,偏見を増幅し,固定観念を永続させる可能性がある。初期の GPT モデルや他の一般的な言語モデル同様,GPT-4-early と GPT-4-launch は、ともに社会的偏見と世界観を強化し続けている。」
( 動画のコンテンツのpdf blog:「GPT-4 が生成する「ブラック・ジョーク」)
偽情報と影響力操作
GPT-4 は現実的で標的を絞ったコンテンツを生成することにおいて GPT-3 よりも優れていると予想されます。そのため、GPT-4 が誤解を招くことを意図したコンテンツの生成に使用されるリスクがあります。
このことは、悪意ある者がGPT-4を使って誤解を招くコンテンツを作成し、社会の将来の認識が、説得力のあるLLMによって部分的には形成されうるというリスクを高めることになります。
意図的な偽情報、社会的偏見、幻覚のいずれにせよ、LLMによる偽情報の多発は、情報環境全体に疑念を投げかけ、事実と虚構を区別する我々の能力を脅かす可能性があるのです。
これは、不信感の広がりから利益を得る立場にある人々に不釣り合いに利益をもたらすことになります。
( 動画のコンテンツのpdf blog:「Cambridge Analytica - Facebook 事件を覚えてますか?」)
過信
GPT-4のような大規模言語モデルに対する「過信」が、特に開発者にとって重要な問題になると感じています。
「2.2 で述べたように、GPT-4 はその能力の高さにもかかわらず、事実の捏造,誤った情報の繰り返しの引用、誤ったタスクの実行といった傾向がある。
GPT-4は、初期のGPTモデルよりも説得力があり、信じ込ませやすい形でこれらの傾向を示すことが多い。例えば、権威ある口調や非常に詳細で正確な情報の文脈を示すなど。 GPT-4は、過信の危険性を、さらに高めている。」 System Card p59
( 動画のコンテンツのpdf blog:「開発者が留意すべきこと」)
さまざまな安全性への懸念
多くの「安全性への懸念」がGPT-4 System Cardにはリストアップされています。残念ながら、これらの項目については、今回のセミナーでは割愛します。
- 通常兵器と非通常兵器の拡散
- プライバシー
- サイバーセキュリティ
- 危険な突発的行動の可能性
- 他のシステムとの相互作用
- 経済的インパクト
- 開発の加速と過熱
配備の準備
OpenAIは、より安全な公開の準備のため、2022年8月初旬からGPT-4の配備計画を繰り返しチェックしてきました。これにより、完全に排除されたわけではありませんが、リスク面を減らすことができたと考えているようです。
「今日の配備は、配備によるリスクの最小化、ポジティブなユースケースの実現、そして配備から学ぶことのバランスを表している。この期間の我々の作業は、相互に関連する以下のステップで構成されていた:
1. 評価アプローチ
(a) 定性的評価 (b) 定量的評価
2. モデルの緩和策
3. システムの安全性 」
「我々のアプローチは、モデルレベルの変更(特定のリクエストを拒否するようにモデルを訓練する)とシステムレベルの緩和策(ユーザーインターフェイスでユーザーをサポートするベストプラクティスを適用したり、使用ポリシーに違反がないか監視したりする)を組み合わせている。
特定のドメインの専門家による評価は、どの自動評価を構築し、どの緩和策が最も効果的であるかを我々に知らせてくれた。我々は、これらの観察結果をもとに、より安全なモデルへの再教育(有害なリクエストを拒否するなど)、内部安全システムの改善(悪質な行為者を確実に検出するなど)、ユーザーのモデル体験方法の改善(過信のリスクを低減するなど)を行った。」
モデルの緩和策
( 動画のコンテンツのpdf blog:「OpenAI モデルの「安全性」にさまざまの手をうつ」)
システムの安全性
コンテンツ分類器の開発
( 動画のコンテンツのpdf blog:「OpenAI が仕事で使っているプロンプトのプロの作法を学ぶ」)