
根據外媒The Information本月初爆料,國內AI公司DeepSeek預計在今年2月中旬農曆新年期間推出新一代旗艦模型DeepSeek V4。最新跡象顯示,這項發布計畫正變得愈發清晰。
1月20日,正值DeepSeek-R1發布一周年之際,有開發者在GitHub程式碼倉庫中發現重要線索。 DeepSeek更新的一系列FlashMLA程式碼中,橫跨114個檔案出現28處提及一個未知的「MODEL1」識別碼。此識別符與已知的現有模型「V32」(即DeepSeek-V3.2)被並列或區別提及,根據程式碼上下文分析,「MODEL1」很可能代表一個採用了全新架構的下一代模型。
開發者進一步分析指出,「MODEL1」與現有模型在關鍵技術實作上有明顯差異,主要體現在鍵值快取佈局、稀疏性處理方式以及對FP8資料格式的解碼支援等。這些差異預示著新架構可能在記憶體最佳化與運算效率上進行了重要改進。先前,DeepSeek研究團隊已陸續發布兩篇技術論文,分別介紹了名為「優化殘差連結」的新訓練方法以及一種受生物學啟發的「AI記憶模組」。業界普遍推測,正在開發中的新模型極有可能整合這些最新研究成果。隨著程式碼層面的跡像不斷浮現,人工智慧領域或將迎來一場值得期待的技術更新。