阿里千問開源 Qwen3-ASR 語音辨識模型:支援 52 種語種與方言

阿里千問開源 Qwen3-ASR 語音辨識模型:支援 52 種語種與方言

1月30日,阿里千問團隊正式開源 Qwen3-ASR 系列模型,該模型是由 Qwen 開發的一系列強大的語音識別模型,包括兩個強大且全面的語音識別模型 Qwen3-ASR-1.7B 與 Qwen3-ASR-0.6B,以及一個創新的語音強制對齊模型 Qwenwen3-ForcedAligner-0.3-ForcedAligner-0.3-ForcedAligner-0.3-ForcedAligner。 Qwen3-ASR 系列的語音辨識模型支援 52 個語種與方言的語種辨識與語音辨識。

根據官方介紹,依托創新的預訓練 AuT 語音編碼器與 Qwen3-Omni 基座模型的強大多模態能力,Qwen3-ASR 實現了精準與穩定的語音識別,其 1.7B 模型在中文、英文、中文口音與歌唱識別等場景下達到 SOTA,具有復雜文本識別能力以及強噪聲模型在 0.68B 下實現了強噪聲並發非同步服務推理能夠達到 2000 倍吞吐,即 10 秒鐘處理五個小時以上的音訊。

強制對齊模型 Qwen3-ForcedAligner-0.6B 是基於 NAR LLM 推理的時間戳預測模型,支援 11 個語種的任意位置的靈活精準的強制對齊,其時間戳預測精度超越傳統的 WhisperX,Nemo-Forced-Aligner 等模型,單並發推理 RTF 達到了高效的 0.0089。

阿里千問團隊稱,希望 Qwen3-ASR 系列模型的開源能夠推動語音識別與理解的研究與發展,三個模型的結構與權重、以及一個全面易用的推理框架將一併開源。

All-in-one: Qwen3-ASR-1.7B 與 Qwen3-ASR-0.6B 皆透過單一模型支援 30 個語種的語種辨識與語音辨識、22 個中文口音與方言語音辨識、多個國家與地區的英文口音辨識。

精準快速的語音辨識能力:在複雜的聲學環境與文字模式的場景下,Qwen3-ASR 系列模型均能維持穩定穩健的語音辨識能力,包括歌唱辨識等。 Qwen3-ASR-1.7B 實現了語音辨識準確率的全面領先,在開源與閉源自建評測上較主流開源模式與眾多商用 API 上更優。 0.6B 模型則實現了效能與效率的均衡,在非同步推理模式下,128 並發的模型能夠達到 2000 倍的吞吐,處理 5 小時的音訊僅需要 10 秒。 Qwen3-ASR-1.7B 與 Qwen3-ASR-0.6B 皆支援串流 / 非串流一體化推理,最長一次處理 20 分鐘的音訊。

獨創且強大的強制對齊模型:我們推出 Qwen3-ForcedAligner-0.6B,一個支援 11 個語種在 5 分鐘內語音的任意單元的時間戳預測,經評測其時間戳精度超越了一眾基於傳統端到端方案的強制對齊模型,其非自戳回歸的推理邏輯保證了推理的高效性。

全面且易用的推理與微調工具:除了 Qwen3-ASR 系列模型的結構與權重開源,我們一次性推出強大且全面的推理框架,支援基於 vLLM 的 batch 推理、非同步服務、流式推理、時間戳預測功能等。我們對 Qwen3-ASR 系列模型在中文 / 英文、多語種、中文方言、歌聲識別,以及複雜聲學與複雜語言場景下進行了系統評估。結果顯示,Qwen3-ASR-1.7B 在多個維度的公開與內部基準上取得開源 SOTA;同時比較多家商業公司最新的 ASR API,在若干基准上也取得最佳成績。具體來說:

英文:不僅在常見公開基準上達到最優,我們還在內部構建的覆蓋 16 個國家口音的英文測試集上進行評測,整體表現全面優於 GPT-4o Transcribe、Gemini 系列、Doubao ASR 系列,以及綜合能力最強的開源模型 Whisper-large-v3。

多語言:最高支援 30 種語言;在 20 個主流語種上,Qwen3-ASR-1.7B 全面超過現有開源模型,取得最佳平均 WER。

中文與方言:在國語、粵語及 22 種地區方言上,Qwen3-ASR-1.7B 整體領先商業 API 與開源模式;尤其在方言上,相較於 Doubao-ASR 平均錯誤率再降 20%(15.94 vs 19.85)。

複雜聲學 / 語言場景:面對老人 / 兒童語音、極低信噪比、鬼畜重複等挑戰場景,仍能穩定輸出,保持極低的字 / 字錯誤率。

歌唱識別:支持帶 BGM 的整首歌中 / 英文轉寫;中文 / 英文分別達到 13.91% / 14.60% 平均 WER。

Qwen3-ASR-0.6B 在性能與效率之間實現了良好平衡:不僅在多項中英文測試基準上表現穩健,而且無論離線還是在線推理,在高並發場景下都能保持極低 RTF 與極高吞吐。例如:單並發下 100 倍加速比;非同步服務 128 並發下 2000 倍加速比,10 秒鐘處理五個小時音訊。

強制對齊模型 Qwen3-ForcedAligner-0.6B 支援 11 種語言的高精度強制對齊,可在音訊中任意位置進行靈活、精確的時間戳標註。與常用主流對齊工具相比,我們在可支援語種覆蓋與時間戳預測精度上均取得更優表現,整體超過 WhisperX、NeMo-ForcedAligner(NFA)等方案。

微軟更新Windows 11開發版與測試版 帶來進階相機設定和Emoji 16.0表情符號

微軟更新 Windows 11 開發版和測試版帶來高級相機設定和 Emoji 16.0 表情符號,說起來 16.0 之前添加過但因為有問題就給撤回,現在重新帶來 Emoji 16.0。還有一個功能是高級

微軟更新Windows 11開發版與測試版 帶來進階相機設定和Emoji 16.0表情符號

YouTube Music將歌詞功能設定為付費訂閱權益 不開會員只能看五次歌詞

YouTube Music 嘗試將歌詞功能設定為付費訂閱權限,未開通 YouTube Premium 訂閱會員最多只能查看五次歌詞。從去年開始谷歌就在測試這個付費牆,現在似乎在擴大範圍,因為更多

YouTube Music將歌詞功能設定為付費訂閱權益 不開會員只能看五次歌詞

Discord自3月起預設將所有使用者設定為青少年模式 驗證後才能存取成人內容

社群通訊應用程式 Discord 從 3 月開始將預設為所有用戶開啟青少年模式,只有提交臉部影片或證件驗證後才能解除青少年模式。不解除的話用戶將無法存取成人內容 / NSFW 內容

Discord自3月起預設將所有使用者設定為青少年模式 驗證後才能存取成人內容

微軟推送Win11新測試版:新增表情與相機雲台控制

微軟於2月9日透過官方部落格宣布,向Beta和Dev頻道的Windows Insider專案成員推送了最新預覽版更新。此次更新後,Beta頻道系統版本號將升至Build 26220.7755,Dev頻道則升至Buil

微軟推送Win11新測試版:新增表情與相機雲台控制

OpenAI在美測試廣告功能,免費及低價用戶將看到廣告

當地時間週一,OpenAI正式宣布開始在美國為免費用戶及新推出的低價Go訂閱用戶測試廣告功能。 Go套餐定價為每月8美元,已於今年1月在全球上線。本公司強調,所有付費訂閱用戶,包括P

OpenAI在美測試廣告功能,免費及低價用戶將看到廣告

馬斯克預言:三年內太空將成為AI算力成本最低之地

根據彭博社報道,Google母公司Alphabet計劃透過發行美元債券籌集高達200億美元資金,這一規模超出了先前市場預期的150億美元。此次發債中,期限最長的債券將於2066年到期,其定價

馬斯克預言:三年內太空將成為AI算力成本最低之地

谷歌母公司擬發債融資200億美元,加碼AI基礎設施

根據彭博社報道,Google母公司Alphabet計劃透過發行美元債券籌集高達200億美元資金,這一規模超出了先前市場預期的150億美元。此次發債中,期限最長的債券將於2066年到期,其定價

谷歌母公司擬發債融資200億美元,加碼AI基礎設施

OpenAI否認在超級碗洩露硬體產品視頻

隨著美國「超級盃」賽事結束,科技圈卻因一則關於OpenAI的傳言而泛起漣漪。近日,一位自稱OpenAI員工的網友在Reddit平台發文稱,公司原計劃在賽事期間投放廣告卻未能播出,並隨之

OpenAI否認在超級碗洩露硬體產品視頻

網路檔案館與WP合作解決404問題 將自動儲存文章並在不可用時跳到快照

互聯網檔案館與 WordPress 合作解決 404 問題,將自動保存 WordPress 網站上的文章到互聯網檔案館,檢測到文章被刪除時自動重定向到互聯網檔案館的快照頁面。這個外掛程式基

網路檔案館與WP合作解決404問題 將自動儲存文章並在不可用時跳到快照

X/Twitter推出按量付費API 一般用戶也可以透過API快速抓取/發佈內容

社群網站 X/Twitter 推出按量付費 API,一般用戶可以使用 API 快速抓取或發佈內容,沒有固定月費使用成本更低。按量付費 API 主打的就是按實際使用次數收費,例如讀取 1 條推文

X/Twitter推出按量付費API 一般用戶也可以透過API快速抓取/發佈內容

推進實名制打擊濫用:Google宣布Google Voice號碼需要完成身份驗證才能使用

推進實名制打擊濫用行為:Google宣布 Google Voice 號碼需要完成身份驗證後才能使用,此政策僅限於新申請號碼的用戶。申請後用戶必須提交身份證件進行驗證,未通過驗證前不能收

推進實名制打擊濫用:Google宣布Google Voice號碼需要完成身份驗證才能使用

Linux Kernel 6.19正式版發布 涉及底層安全架構/網路協定/檔案系統等多面向改進

Linux Kernel 6.19 正式版發布,涉及底層安全架構、網路協定、檔案系統、圖形管線、新硬體支援等多方面的改進。另外 6.19 也是 Linux Kernel 6.x 的最終版,Linus Torvalds

Linux Kernel 6.19正式版發布 涉及底層安全架構/網路協定/檔案系統等多面向改進

蘋果即將推出iPhone 17e 晶片換成A19 基頻晶片採用C1X並支援磁吸式充電等

蘋果即將推出 iPhone 17e 機型,屬於 iPhone 16e 平平無奇的升級版,外觀基本上沒有變化,主要升級內部晶片組。 iPhone 17e 系列將採用 A19 晶片、基頻晶片使用 C1X、網路晶片

蘋果即將推出iPhone 17e 晶片換成A19 基頻晶片採用C1X並支援磁吸式充電等

英特爾終止軟體定義矽片付費解鎖計畫 相關儲存庫已被歸檔停止維護

英特爾終結軟體定義矽片付費解鎖計劃,相關儲存庫已經歸檔並停止維護。該項目原本是要求客戶購買 CPU 後再根據需求額外付費解鎖功能的,主要面向的是至強伺服器處理器,但推出後

英特爾終止軟體定義矽片付費解鎖計畫 相關儲存庫已被歸檔停止維護

Bithumb更新誤發60萬枚比特幣後續:已自購被用戶出售的1,788枚比特幣補充餘額

韓國交易所 Bithumb 就誤發 2,000 比特幣事件發布後續:已經自購 1,788 枚比特幣補充庫存,這些就是被收到空投的用戶賣掉的比特幣。另外 Bithumb 承擔所有損失,包括閃崩期間被

Bithumb更新誤發60萬枚比特幣後續:已自購被用戶出售的1,788枚比特幣補充餘額