
阿里巴巴發布了一個大型語言模型—Qwen3-Max Thinking。該車型以其獨特的「思考」方式而著稱,在性能測試中,其表現已超越了Gemini和DeepSeek。
Qwen3-Max Thinking 的關鍵特徵在於它突破了傳統推理方法的限制。 Qwen3 並非採用線性生成詞元的方式,而是使用一種「硬模式」——也就是說,它並非簡單地產生多個答案並選擇最佳答案,而是採用一種累積式的多階段策略。
這種方法模擬了人類的問題解決過程。例如,模型會進行迭代式自我分析,利用自身經驗從先前的推理階段擷取資訊。這使得Qwen3-Max思維能夠克服僵局,並將資源集中在解決“未解決的不確定性”,而不是重複先前的結論。該模型的另一個優點在於它結合了思維模式和正常模式,並且可以同時運作。
該神經網路在 GPQA 基準測試中獲得 92.8 分,在 LiveCodeBench v6 中獲得 91.4 分。在邏輯推理測驗 (HMMT) 中,其得分為 98 分,而 Gemini 3 Pro 和 DeepSeek V3.2 的得分分別為 97.5 分和 92.5 分。 Qwen3-Max Thinking 也參加了「人類最後的考試」(HLE) 測試,得分為 49.8 分(Gemini 3 Pro 和 GPT-5.2-Thinking 的得分分別為 45.8 分和 45.5 分)。在 Arena-Hard v2 測試中,其得分為 90.2 分,而 Claude-Opus-4.5 的得分為 76.7 分。
Qwen3-Max Thinking 的代幣價格介於 Claude Haiku 4.5 和 Gemini 3 Pro 之間:100 萬個用於輸入資料的代幣售價為 1.20 美元,而 100 萬個用於週末的代幣售價為 6 美元。您可以在 Qwen Chat 聊天機器人中或透過 API 體驗神經網路的功能。