有害コンテンツ（丸山先生のBlog）: iroiro

<< How the US helping Ukraine acquire F-16s shows that for military aid, ‘no’ can become ‘yes’（ウクライナにF-16を供与する米国が示す、軍事援助のための「ノー」が「イエス」になりうる理由とは？） | TOP | Ukraine war: Kyiv rejects Wagner claim over Bakhmut（ウクライナ戦争：キエフ、バフムートをめぐるワーグナーの主張を否定） >>

2023年05月22日

有害コンテンツ（丸山先生のBlog）

ChatGPT

GPT-4 System Cardの「有害コンテンツ」の章では、言語モデルがさまざまな種類の有害なコンテンツを生成することができることが述べられています。具体的には、ヘイトスピーチ、差別的な言葉、暴力の扇動、偽りの物語の拡散などが含まれます。OpenAIの「レッド・チーム」は、GPT-4-earlyを操作して有害なコンテンツを生成できることを示しました。スライドでは、有害コンテンツを生成するプロンプトとその出力結果が紹介されています。また、GPT-4でも人種差別的な発言が生成されることがわかっています。関心のある方は、ショートムービーや資料、ブログなどのリンクを参照してください。

Bing AIの説明

GPT-4 System Cardの「有害コンテンツ」の章にGPT-4は、攻撃計画に関するアドバイスやヘイトスピーチなど、潜在的に有害なコンテンツを生成する可能性があることが報告されています。そのため、GPT-4では、社会や個人にとって有害な回答を生成し得る質問に対しては回答を拒否するように、追加学習が行われています。
GPT-4 System Cardは、OpenAIによって開発された言語モデルの一つで、GPT-4を分析するシステムカードです。GPT-4は、攻撃計画に関するアドバイスやヘイトスピーチなど、潜在的に有害なコンテンツを生成する可能性があることが報告されています。GPT-4 System Cardは、GPT-4の安全性に関する問題を分析し、安全性プロセスの概要を説明しています。

https://maruyama097.blogspot.com/2023/05/blog-post_20.html