【レッド・チーム、RBRM、ジェイルブレイク】(丸山先生のBlog）: iroiro

<< ハリケーンでも無傷　全米が大注目するフロリダ州の“持続可能な町”　電力自給や電線地中化など数々の災害に強い秘密が…【news23】 | TOP | 【幻覚の病理学】(丸山先生のBlog） >>

2023年05月19日

【レッド・チーム、RBRM、ジェイルブレイク】(丸山先生のBlog）

ChatGPT

OpenAIは、GPT-4の安全性向上のためにさまざまな取り組みを行っています。GPT-4に対して危険性を引き出すテストを行う「レッド・チーム」の存在や、人間のフィードバックを用いた強化学習の適用などが紹介されています。また、「RBRM」というモデルも採用されており、有害な出力を拒否し報酬を得る仕組みが取り入れられています。これらの取り組みは、GPT-4の安全性を高めるための社会的規範の教え込みに似ており、システムの複雑さや開発コストの増加という課題も存在します。しかし、競争が激化する中で防壁をすり抜ける可能性や、ジェイルブレークと呼ばれる手法の問題も指摘されています。これらの取り組みは重要ですが、難易度も高い課題であることが明示されています。

Bing AIの説明

OpenAIのレッド・チームとは、**大規模言語モデル（LLM）**のリスクをテストするために雇われた専門家のグループです。LLMとは、人間の言語を理解し、生成することができる人工知能のシステムです。OpenAIは、マイクロソフトが支援する人工知能の研究機関で、GPT-4という最新のLLMを開発しています。
レッド・チームのメンバーは、GPT-4が悪用されたり、誤った情報を流したりする可能性があるかどうかを調べるために、さまざまな質問や要求をGPT-4に投げかけました。レッド・チームの目的は、GPT-4の弱点や危険性を発見し、改善する方法を提案することです。
RBRMは、人間の評価者がGPT-4の複数の候補出力をランク付けすることで、ランク付けを行います。例えば、ユーザーが「ジョークを教えて」と言ったとき、GPT-4が生成した5つのジョークを評価者が最も面白いものから最もつまらないものまで順に並べます。その結果、最も面白いジョークには最も高い報酬信号が与えられ、最もつまらないジョークには最も低い報酬信号が与えられます。
ジェイルブレイクとは、スマートフォンやゲーム機などの情報機器で、開発元がソフトウェアの実行環境に施している制限を非正規な方法で撤廃し、自由にソフトウェアを導入・実行できるようにすることです。例えば、iPhoneでは、Appleが認証したアプリしかインストールできませんが、ジェイルブレイクすると、Appleが認証していないアプリもインストールできるようになります。
ジェイルブレイクにはメリットもありますが、デメリットも多くあります。例えば、セキュリティや保証が失われたり、動作が不安定になったりする可能性があります3。ジェイルブレイクは自己責任で行う必要があります。

https://maruyama097.blogspot.com/2023/05/risks-mitigations.html

[商品価格に関しましては、リンクが作成された時点と現時点で情報が変更されている場合がございます。]

OpenAI Gym／Baselines 深層学習・強化学習人工知能プログラミング実践入門 [ 布留川英一 ]
価格：3,520円（税込、送料無料) (2023/5/26時点)

楽天で購入

【このカテゴリーの最新記事】

posted by 3chan at 12:37| （カテゴリなし）

日	月	火	水	木	金	土
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

iroiro

2023年05月19日

【 レッド・チーム、RBRM、ジェイルブレイク 】(丸山先生のBlog）

【レッド・チーム、RBRM、ジェイルブレイク】(丸山先生のBlog）