OpenAIは、大規模マルチモーダルモデル「GPT-4」を発表しました。GPT-4は、テキストと画像が混在した入力にも対応し、模擬司法試験や大学院記録試験、美術史、生物学などの試験でGPT-3.5を上回る結果を示しています。GPT-4は英語の能力だけでなく、ラトビア語、ウェールズ語、スワヒリ語などの言語でも優れた能力を発揮し、他の大規模言語モデルの性能を上回っています。また、「OpenAI Evals」というフレームワークをオープンソース化しており、誰でもモデルの欠点を報告して改善に役立てることができます。ただし、GPT-4は2021年9月以降に発生した事象の知識がなく、その経験から学習することもないという制限があります。
Bing AIの説明
GPTシリーズは、インターネット上のテキストデータを学習して、様々なタスクに対応できる汎用的なAIです。GPT-1からGPT-3まではテキストだけを扱っていましたが、2023年3月に発表されたGPT-4は画像も入力として受け付けることができるようになりました。
これは、マルチモーダルと呼ばれる複数のモダリティ(情報の種類)を扱えるAIの進化を示しています。GPT-4は、テキストだけでなく画像も理解し、それらに関連するテキストを生成することができます。例えば、写真や絵画について詳しく説明したり、物語や詩を作ったりすることが可能です。
しかし、GPT-4も完全ではありません。Open AIは、GPT-4が不正確や不適切な回答をする場合があることや、倫理的や社会的な問題を引き起こす可能性があることを指摘しています。また、他社のAIと比較しても優位性や差異性が明確ではありません。
https://kn.itmedia.co.jp/kn/articles/2303/15/news110.html