
OpenAIは本日、新世代のマルチモーダル推論モデル「o3」と「o4-mini」を正式にリリースしました。これらのモデルは、Web検索、Pythonデータ分析、画像ディープ推論、テキストベースのグラフィック機能など、ChatGPTのフル機能ツールチェーンのインテリジェントな呼び出しと組み合わせを初めて実現しました。2つのモデルは、ツールの使用シナリオを独立して判断し、構造化された出力を通じて複雑な問題を解決できます。開発者はこれらを「AIツール組み合わせマスター」と呼んでいます。
技術的な詳細を見ると、o4-miniは複数の分野のテストで優れた成績を収めており、数学的推論能力はAIME 2024/2025テストでそれぞれ93.4%と92.7%の精度を達成し、プログラミングコンテストのスコアは2700点(Codeforces Global Top 200レベル)に達しました。また、科学的推論精度は前世代より35%向上しています。このモデルは革新的な学習方法を採用しており、テキスト生成を学習するだけでなく、計算機や画像処理ツールなどの外部プログラムを呼び出して特定のタスクを実行する能力も獲得します。例えば、複雑な数学問題に直面した際に、計算モジュールを自動的に呼び出すことができます。画像データを処理する際には、切り取りや回転などの前処理プログラムを起動できます。
セキュリティ管理の面では、OpenAIは同時に「安全志向の推論監視システム」を発表しました。これは、生物学や化学といった機密性の高い分野において、モデルがリスク推奨を行うのを防ぐことに重点を置いたものです。このシステムは1,000時間のレッドチームテストに合格しており、生物学的脅威に関連する質問を識別してブロックすることができます。
今回リリースされた2つのモデルは、従来のテキストインタラクションの限界を打ち破り、マルチモーダルなディープコラボレーションを実現します。ユーザーが旅行の写真をアップロードすると、モデルは視覚分析モジュールを呼び出して地形の特徴を識別し、地理データベースと組み合わせてグラフィックレポートを生成します。また、企業のフローチャートを処理する際には、チャート生成ツールと連携してレイアウトを自動的に最適化することができます。開発者は、o4-miniのアクティベーションコストが類似モデルと比較して50%低く、API応答速度が20ミリ秒であることを強調しました。
現在、o3とo4-miniはChatGPTの「Deep Investigate」機能に統合されており、リアルタイムのウェブ検索と調査レポート作成をサポートしています。OpenAIのCEOであるAltman氏は、このモデルシリーズはGPT-5への重要な移行製品であり、今後数か月以内にさらに強力な反復バージョンがリリースされる予定であると発表しました。
本日から、企業ユーザーはOpenAIプラットフォームを通じて新しいモデルAPIへのアクセスを申請でき、個人ユーザーはChatGPTツールセットの一部機能を体験できます。ツール呼び出し機能の開放により、AIアシスタントは「情報提供者」から「問題解決者」へと変化し、インテリジェントアプリケーションの新時代を切り開きます。