1月30日,阿里千問團隊正式開源 Qwen3-ASR 系列模型,該模型是由 Qwen 開發的一系列強大的語音識別模型,包括兩個強大且全面的語音識別模型 Qwen3-ASR-1.7B 與 Qwen3-ASR-0.6B,以及一個創新的語音強制對齊模型 Qwenwen3-ForcedAligner-0.3-ForcedAligner-0.3-ForcedAligner-0.3-ForcedAligner。 Qwen3-ASR 系列的語音辨識模型支援 52 個語種與方言的語種辨識與語音辨識。
根據官方介紹,依托創新的預訓練 AuT 語音編碼器與 Qwen3-Omni 基座模型的強大多模態能力,Qwen3-ASR 實現了精準與穩定的語音識別,其 1.7B 模型在中文、英文、中文口音與歌唱識別等場景下達到 SOTA,具有復雜文本識別能力以及強噪聲模型在 0.68B 下實現了強噪聲並發非同步服務推理能夠達到 2000 倍吞吐,即 10 秒鐘處理五個小時以上的音訊。
強制對齊模型 Qwen3-ForcedAligner-0.6B 是基於 NAR LLM 推理的時間戳預測模型,支援 11 個語種的任意位置的靈活精準的強制對齊,其時間戳預測精度超越傳統的 WhisperX,Nemo-Forced-Aligner 等模型,單並發推理 RTF 達到了高效的 0.0089。
阿里千問團隊稱,希望 Qwen3-ASR 系列模型的開源能夠推動語音識別與理解的研究與發展,三個模型的結構與權重、以及一個全面易用的推理框架將一併開源。
All-in-one: Qwen3-ASR-1.7B 與 Qwen3-ASR-0.6B 皆透過單一模型支援 30 個語種的語種辨識與語音辨識、22 個中文口音與方言語音辨識、多個國家與地區的英文口音辨識。
精準快速的語音辨識能力:在複雜的聲學環境與文字模式的場景下,Qwen3-ASR 系列模型均能維持穩定穩健的語音辨識能力,包括歌唱辨識等。 Qwen3-ASR-1.7B 實現了語音辨識準確率的全面領先,在開源與閉源自建評測上較主流開源模式與眾多商用 API 上更優。 0.6B 模型則實現了效能與效率的均衡,在非同步推理模式下,128 並發的模型能夠達到 2000 倍的吞吐,處理 5 小時的音訊僅需要 10 秒。 Qwen3-ASR-1.7B 與 Qwen3-ASR-0.6B 皆支援串流 / 非串流一體化推理,最長一次處理 20 分鐘的音訊。
獨創且強大的強制對齊模型:我們推出 Qwen3-ForcedAligner-0.6B,一個支援 11 個語種在 5 分鐘內語音的任意單元的時間戳預測,經評測其時間戳精度超越了一眾基於傳統端到端方案的強制對齊模型,其非自戳回歸的推理邏輯保證了推理的高效性。
全面且易用的推理與微調工具:除了 Qwen3-ASR 系列模型的結構與權重開源,我們一次性推出強大且全面的推理框架,支援基於 vLLM 的 batch 推理、非同步服務、流式推理、時間戳預測功能等。我們對 Qwen3-ASR 系列模型在中文 / 英文、多語種、中文方言、歌聲識別,以及複雜聲學與複雜語言場景下進行了系統評估。結果顯示,Qwen3-ASR-1.7B 在多個維度的公開與內部基準上取得開源 SOTA;同時比較多家商業公司最新的 ASR API,在若干基准上也取得最佳成績。具體來說:
英文:不僅在常見公開基準上達到最優,我們還在內部構建的覆蓋 16 個國家口音的英文測試集上進行評測,整體表現全面優於 GPT-4o Transcribe、Gemini 系列、Doubao ASR 系列,以及綜合能力最強的開源模型 Whisper-large-v3。
多語言:最高支援 30 種語言;在 20 個主流語種上,Qwen3-ASR-1.7B 全面超過現有開源模型,取得最佳平均 WER。
中文與方言:在國語、粵語及 22 種地區方言上,Qwen3-ASR-1.7B 整體領先商業 API 與開源模式;尤其在方言上,相較於 Doubao-ASR 平均錯誤率再降 20%(15.94 vs 19.85)。
複雜聲學 / 語言場景:面對老人 / 兒童語音、極低信噪比、鬼畜重複等挑戰場景,仍能穩定輸出,保持極低的字 / 字錯誤率。
歌唱識別:支持帶 BGM 的整首歌中 / 英文轉寫;中文 / 英文分別達到 13.91% / 14.60% 平均 WER。
Qwen3-ASR-0.6B 在性能與效率之間實現了良好平衡:不僅在多項中英文測試基準上表現穩健,而且無論離線還是在線推理,在高並發場景下都能保持極低 RTF 與極高吞吐。例如:單並發下 100 倍加速比;非同步服務 128 並發下 2000 倍加速比,10 秒鐘處理五個小時音訊。
強制對齊模型 Qwen3-ForcedAligner-0.6B 支援 11 種語言的高精度強制對齊,可在音訊中任意位置進行靈活、精確的時間戳標註。與常用主流對齊工具相比,我們在可支援語種覆蓋與時間戳預測精度上均取得更優表現,整體超過 WhisperX、NeMo-ForcedAligner(NFA)等方案。