
NVIDIA 發布了 PersonaPlex,這是一款開源 AI 語音模型,顛覆了與虛擬助理溝通的傳統模式。該系統摒棄了「識別→文本→合成」的流程,而是同時進行聆聽和朗讀,消除了不自然的停頓和延遲。此外,該模型還允許使用者自訂角色和個性。
PersonaPlex 的核心功能在於其混合提示系統。使用者輸入一段簡短的語音片段,定義說話者的音色和語調,並配以角色描述,角色範圍從銀行櫃員到虛構人物不等。在對話過程中,模型會考慮對方的行為,進行停頓、打斷、反應,並即時更新回應。測試表明,說話者切換的延遲僅為 0.07 秒,而 Google Gemini Live 的延遲為 1.3 秒。
PersonaPlex 基於 Moshi文字轉語音模型,擁有 70 億個參數,支援 24 kHz 音訊取樣率。訓練過程使用了 1217 小時的真實對話和超過 14 萬個合成對話。借助八塊 A100 GPU,整個過程僅耗時六小時。合成資料有助於提升指令執行能力,而真實錄音則有助於優化自然語音模式。最終,該模型獲得了 3.90 的平均對話自然度得分,優於 Gemini Live、Qwen 2.5 Omni 和 Moshi。
NVIDIA 強調了該計畫的開放性。 PersonaPlex 的程式碼和權重資料已在Hugging Face和GitHub上發布,並採用 MIT 和 NVIDIA 開放模型許可證,允許商業用途。然而,該模型目前僅支援英語。