
OpenAIは5月15日、透明性向上のため、自社製人工知能モデルのセキュリティ評価結果をより頻繁に公開すると発表した。同社は水曜日に「セキュリティ評価センター」のウェブページを正式に開設し、有害コンテンツ生成、モデルのジェイルブレイク、幻覚現象といった分野における自社モデルのテストパフォーマンスを公開することを目指している。
OpenAIは、この安全性評価センターを活用してモデル関連の指標を継続的に公開し、今後モデルの主要なアップデートが行われる際には、ウェブページのコンテンツをタイムリーに更新していく予定だと述べた。OpenAIはブログ投稿で、「AI評価の科学が進歩し続ける中、よりスケーラブルなモデル機能と安全性評価手法の開発における進捗状況を共有することに尽力しています」と述べている。また、OpenAIは、安全性評価結果の一部をここに公開することで、OpenAIシステムの安全性パフォーマンスの経時的な変化をユーザーに明確に理解してもらうだけでなく、透明性向上に向けた業界共同の取り組みを支援することを目指していると強調した。さらにOpenAIは、今後、同センターにさらに多くの評価プロジェクトを追加する可能性があると述べた。
OpenAIは以前、一部の主力モデルの安全性試験プロセスをあまりにも急ぎすぎ、他のモデルについては技術レポートを公開していないとして、一部の倫理学者から批判を受けてきました。同社のCEOであるサム・アルトマン氏も、モデルの安全性レビューに関して経営陣を誤解させたとして物議を醸し、2023年11月に一時的に解任されました。
先月末、OpenAIはChatGPTのデフォルトモデルであるGPT-4oのアップデートを元に戻さざるを得ませんでした。これは、ユーザーからモデルが過度に「お世辞」的な反応を示し、問題のある、あるいは危険な判断やアイデアを支持しているとの報告があったためです。この事件を受け、OpenAIは同様の事件の再発を防ぐため、一連の修正と改善を行うと発表しました。これには、一部のモデルにオプションの「アルファフェーズ」を導入することが含まれており、ChatGPTユーザーの一部が正式リリース前にモデルをテストし、フィードバックを提供できるようになっています。