
最近、人工知能(AI)分野でベンチマーク論争が再燃しています。OpenAIの最新の大規模モデル「o3」は、ファーストパーティとサードパーティのテスト結果の乖離により、「誇張された結果」を理由に疑問視されています。サードパーティによる実際のテストでは、権威ある数学テスト「FrontierMath」におけるモデルの正解率はわずか10%で、公式発表の25%から大幅に低下しています。
この騒動は、昨年12月にOpenAIが発表した注目を集めた発表に端を発しています。OpenAIは、OpenAI o3モデルが180問の難問で構成されるFrontierMathテストで25%以上の正解率を達成し、「競合他社の2%レベルと比べて世代を超えた進歩」を遂げたと主張しました。しかし、独立系調査機関Epochの新たなレポートによると、OpenAI o3の公開版は、290問のテストの拡張版を使用した場合、正解率が約10%に急落したとのことです。
OpenAIは、この差異はテスト構成の違いによるものだと説明した。内部テストでは「アグレッシブなコンピューティング設定」を備えたハイエンドモデルが使用され、パブリックベータ版では製品のニーズに合わせてコンピューティングレベルが調整された。パートナー組織であるARC Prizeは、o3のパブリックベータ版が内部バージョンよりも確かに「スリム」であることを認めたが、o3-mini-highなどの後継モデルの性能はオリジナルバージョンを上回っていることを強調した。
注目すべきは、Epoch Instituteが2024年にOpenAIから資金提供を受けたことを明らかにしたが、最初の報告書ではその提携について説明しなかったことだ。FrontierMathの構築に参加した複数の学者は、論争が勃発するまでOpenAIの深い関与を知らなかったと述べている。
この事件は、AIベンチマークテストにおける信頼の危機がピークに達した時期と重なった。今月、Metaはプロモーションモデルと開発者版の間に差異があることを認めた。先月、マスク氏のxAIは、Grok 3モデルのテストチャートが誤解を招くものだと非難された。業界関係者は、AI競争が激化するにつれ、メーカーにとって技術革新の追求と商業的利益のバランスを取ることがますます困難になっていると指摘しています。
OpenAIは現在、o3-pro版の開発を加速させており、今後数週間以内に強化版をリリースする予定です。同社のテクニカルディレクターはソーシャルメディアで、すべてのテストデータは真実かつ有効であり、差異は異なるアプリケーションシナリオにおけるパフォーマンスを反映しているだけであると改めて強調しました。