
長久以來,如何讓機器像人類一樣理解動態世界,始終是電腦視覺領域的核心挑戰。如今,Google DeepMind宣布推出全新統一模型D4RT(動態四維重建與追蹤),透過將三維空間與時間維度融合,正式推動AI視覺進入「四維全感知」時代。
傳統方法依賴多個模型分別處理深度、動作和視角,效率低且認知切割。 D4RT創新採用「查詢式」架構,將複雜任務簡化為直接定位像素在特定時間和視角下的空間座標,實現了從分散分析到整體建模的跨越。效能測試顯示,此模型運行速度比以往技術快18至300倍,解析一分鐘影片僅需5秒,首次讓AI具備即時建置四維場景的潛力。
此外,D4RT能夠全時空追蹤像素,即使物體被遮蔽或移出視野,也可預測其運動軌跡;同時支援瞬時產生精確3D場景結構,並自適應還原相機運動路徑。這項突破將直接推動機器人導航、擴增實境及通用人工智慧等領域的進展,讓AI得以深入理解流動變化的現實環境。這不僅是技術升級,更為機器感知世界的方式開啟了全新維度。