OpenAIは、GPT-4の安全性向上のためにさまざまな取り組みを行っています。GPT-4に対して危険性を引き出すテストを行う「レッド・チーム」の存在や、人間のフィードバックを用いた強化学習の適用などが紹介されています。また、「RBRM」というモデルも採用されており、有害な出力を拒否し報酬を得る仕組みが取り入れられています。これらの取り組みは、GPT-4の安全性を高めるための社会的規範の教え込みに似ており、システムの複雑さや開発コストの増加という課題も存在します。しかし、競争が激化する中で防壁をすり抜ける可能性や、ジェイルブレークと呼ばれる手法の問題も指摘されています。これらの取り組みは重要ですが、難易度も高い課題であることが明示されています。
Bing AIの説明
OpenAIのレッド・チームとは、**大規模言語モデル(LLM)**のリスクをテストするために雇われた専門家のグループです。LLMとは、人間の言語を理解し、生成することができる人工知能のシステムです。OpenAIは、マイクロソフトが支援する人工知能の研究機関で、GPT-4という最新のLLMを開発しています。
レッド・チームのメンバーは、GPT-4が悪用されたり、誤った情報を流したりする可能性があるかどうかを調べるために、さまざまな質問や要求をGPT-4に投げかけました。レッド・チームの目的は、GPT-4の弱点や危険性を発見し、改善する方法を提案することです。
RBRMは、人間の評価者がGPT-4の複数の候補出力をランク付けすることで、ランク付けを行います。例えば、ユーザーが「ジョークを教えて」と言ったとき、GPT-4が生成した5つのジョークを評価者が最も面白いものから最もつまらないものまで順に並べます。その結果、最も面白いジョークには最も高い報酬信号が与えられ、最もつまらないジョークには最も低い報酬信号が与えられます。
ジェイルブレイクとは、スマートフォンやゲーム機などの情報機器で、開発元がソフトウェアの実行環境に施している制限を非正規な方法で撤廃し、自由にソフトウェアを導入・実行できるようにすることです。例えば、iPhoneでは、Appleが認証したアプリしかインストールできませんが、ジェイルブレイクすると、Appleが認証していないアプリもインストールできるようになります。
ジェイルブレイクにはメリットもありますが、デメリットも多くあります。例えば、セキュリティや保証が失われたり、動作が不安定になったりする可能性があります3。ジェイルブレイクは自己責任で行う必要があります。
https://maruyama097.blogspot.com/2023/05/risks-mitigations.html
【このカテゴリーの最新記事】
-
no image
-
no image
-
no image