
2026年開年,人工智慧基礎設施迎來關鍵轉折:英偉達以200億美元授權費引入Groq的專用推理架構,標誌著通用GPU主導推理時代的終結。德勤數據顯示,2025年底,AI模型推理環節的效益首次超越訓練環節,延遲與狀態維持能力成為新競爭核心。面對預填充與解碼任務的結構性分化,英偉達不再依賴單一GPU架構,而是將Groq的SRAM高速緩存技術嵌入其Vera Rubin晶片體系,專攻低延遲解碼場景,同時以GDDR7記憶體取代HBM,降低大規模預填充成本。
SRAM的超低能耗特性——單數據位元傳輸僅需0.1皮焦耳——使其成為邊緣AI、語音辨識與即時機器人控制的理想載體,尤其適配參數低於80億的精簡模型。這一細分市場正因模型壓縮技術爆發而迅速擴張,而英偉達先前並未佈局。同時,Anthropic成功實現Claude模式在TPU與GPU間的無縫遷移,打破CUDA生態壟斷,迫使英偉達透過科技整合守住生態護城河。 Meta收購Manus公司,更凸顯KV緩存命中率對智能體連續推理的關鍵作用,Groq的SRAM正成為這「短期記憶」系統的理想載體。
未來,AI架構不再是“買什麼晶片”,而是“把任務送到哪裡”。預先填充、解碼、邊緣、雲端-每類負載將精準地路由至最適配的硬體單元。英偉達的這場戰略轉身,不是退讓,而是對碎片化時代的主動重構。