昨天下午,人工智慧企業DeepSeek正式發布一項突破性研究成果,推出名為「流形約束超連接」(manifold-constrained Hyperconnection, mHC)的新型神經網路架構,旨在解決傳統超連接(HC)在大規模模型訓練中普遍存在的不穩定與記憶體開銷問題。架構由解振達、韋毅軒、Huanqi Cao三位研究員領銜,DeepSeek創辦人兼CEO梁文鋒亦位列作者名單,彰顯團隊對底層架構創新的深度參與。
傳統超連接雖顯著提升了模型性能,卻因過度擴展殘差路徑,破壞了殘差連接固有的恆等映射特性,導致訓練過程震盪、收斂困難,並伴隨嚴重的內存訪問瓶頸。 mHC架構透過將超連接的參數空間投影至特定流形流形,重新約束其拓撲結構,在保留多樣化連接優勢的同時,精準恢復了恆等映射的數學穩定性。這項設計不僅從理論上重建了殘差網路的表達邊界,更在工程層面實現了高效的記憶體調度與計算優化。
實驗結果顯示,mHC在千億參數級模型訓練中表現卓越,相較傳統HC架構,收斂速度提升23%,顯存佔用降低18%,且在語言建模與多模態任務中均實現穩定性能增益。研究團隊指出,mHC並非替代方案,而是對現有超連結系統的系統性升級,為未來基礎模型的架構設計開啟了新路徑。
目前,相關論文已公開,開源程式碼預計於近期發布,業界普遍預期將推動下一代大模型訓練範式的演進。