
NVIDIAは先日、新しい視覚言語モデル「Eagle 2.5」をリリースしました。わずか80億のパラメータを持つこのAIは、長時間動画理解の分野において画期的な進歩を遂げました。Video-MMEベンチマークテスト(入力フレーム数512)において72.4%の精度を達成し、その性能はQwen2.5-VL-72Bといった大規模なパラメータを持つ競合製品に匹敵します。
Eagle 2.5の中核となるのは、2つの革新的な技術です。情報優先サンプリング、画像領域保存技術により、元画像の有効情報保存率が60%以上に向上します。また、自動ダウンサンプリングシステムは、コンテキストに応じて画像とテキスト入力の比率を動的に調整できます。さらに、段階的な学習後処理戦略により、コンテキストウィンドウを32Kから128Kに拡張することで、モデルは徐々に適応し、特定のデータ長へのオーバーフィッティングを回避します。
長時間動画の理解をサポートするために、NVIDIAは専用のEagle-Video-110Kデータセットを構築しました。このデータセットは、二重アノテーションメカニズムを採用しています。GPT-4によって生成された章レベルのストーリー記述と、GPT-4oによってアノテーションされたフラグメントレベルの質問と回答のペアの両方が含まれており、コサイン類似度スクリーニングによってデータの多様性が確保されています。長時間動画タスクでは、128フレーム以上のコンテンツに対するモデルの理解精度が23%向上しました。
パフォーマンステストでは、Eagle 2.5はMVBench動画理解テストで74.8ポイントを獲得し、前バージョンから18%の向上を達成しました。DocVQA文書画像分析テストでは、94.1%の精度で業界新記録を樹立しました。アブレーション実験では、増分トレーニングを削除すると長時間動画タスクのパフォーマンスが12%低下し、情報優先サンプリングをキャンセルすると画像詳細認識率が9%低下することが確認されました。
現在、このモデルはSigLIPビジュアルエンコーダーを統合し、4K解像度の画像処理をサポートしています。実車故障検出テストでは、3分間のドライブレコーダー映像からターボチャージャーの異常振動の兆候を検出することに成功し、応答速度は従来のソリューションの3倍に高速化しました。
NVIDIAは、Eagle 2.5テクノロジーが主に医療画像解析や産業品質検査の分野で活用されることを発表しました。軽量設計により、エッジデバイスへの導入が可能です。RTX 4090グラフィックスカード1枚で、毎秒45フレームのリアルタイム映像解析が可能です。開発キットは6月にパートナー向けにテスト用に提供される予定です。