Google DeepMind突破AI视觉瓶颈，D4RT实现动态世界四维感知

長久以來，如何讓機器像人類一樣理解動態世界，始終是電腦視覺領域的核心挑戰。如今，Google DeepMind宣布推出全新統一模型D4RT（動態四維重建與追蹤），透過將三維空間與時間維度融合，正式推動AI視覺進入「四維全感知」時代。

傳統方法依賴多個模型分別處理深度、動作和視角，效率低且認知切割。 D4RT創新採用「查詢式」架構，將複雜任務簡化為直接定位像素在特定時間和視角下的空間座標，實現了從分散分析到整體建模的跨越。效能測試顯示，此模型運行速度比以往技術快18至300倍，解析一分鐘影片僅需5秒，首次讓AI具備即時建置四維場景的潛力。

此外，D4RT能夠全時空追蹤像素，即使物體被遮蔽或移出視野，也可預測其運動軌跡；同時支援瞬時產生精確3D場景結構，並自適應還原相機運動路徑。這項突破將直接推動機器人導航、擴增實境及通用人工智慧等領域的進展，讓AI得以深入理解流動變化的現實環境。這不僅是技術升級，更為機器感知世界的方式開啟了全新維度。