
アレン研究所の専門家は、科学者が AI モデルの有用性を評価できるようにする SciArena プラットフォームを発表しました。少なくとも2本の論文を発表している研究者だけがこの施設で作業することが許されており、その前に1時間の説明を受ける。
SciArena では、科学者が質問すると、システムが Semantic Scholar データベースから科学記事を選択し、ランダムに選択された 2 つの AI モデルに渡します。彼らは与えられた資料に基づいて詳細な回答を書き、科学者がその中から最も良いものを選択します。この後初めて優勝モデルの名前が発表されます。
現在、リーダーはChatGPT o3で、評価は1172ポイントです。続いてClaude Opus 4(1080)、Gemini 2.5 Pro(1063)、DeepSeek R1-0528(1062)、ChatGPT o4-mini(1054)が続きます。 ChatGPT o3は、エンジニアリング、健康、科学、人文科学、社会科学の4つの人気カテゴリーすべてで1位にランクされました。
SciArena は主にプロの科学者を対象としており、その活動では本物で検証済みの情報のみに依存していることは注目に値します。