NVIDIA 的新型 PersonaPlex AI 模型可以同時進行聆聽和說話

NVIDIA 的新型 PersonaPlex AI 模型可以同時進行聆聽和說話

NVIDIA 發布了 PersonaPlex,這是一款開源 AI 語音模型,顛覆了與虛擬助理溝通的傳統模式。該系統摒棄了「識別→文本→合成」的流程,而是同時進行聆聽和朗讀,消除了不自然的停頓和延遲。此外,該模型還允許使用者自訂角色和個性。

PersonaPlex 的核心功能在於其混合提示系統。使用者輸入一段簡短的語音片段,定義說話者的音色和語調,並配以角色描述,角色範圍從銀行櫃員到虛構人物不等。在對話過程中,模型會考慮對方的行為,進行停頓、打斷、反應,並即時更新回應。測試表明,說話者切換的延遲僅為 0.07 秒,而 Google Gemini Live 的延遲為 1.3 秒。

PersonaPlex 基於 Moshi文字轉語音模型,擁有 70 億個參數,支援 24 kHz 音訊取樣率。訓練過程使用了 1217 小時的真實對話和超過 14 萬個合成對話。借助八塊 A100 GPU,整個過程僅耗時六小時。合成資料有助於提升指令執行能力,而真實錄音則有助於優化自然語音模式。最終,該模型獲得了 3.90 的平均對話自然度得分,優於 Gemini Live、Qwen 2.5 Omni 和 Moshi。

NVIDIA 強調了該計畫的開放性。 PersonaPlex 的程式碼和權重資料已在Hugging Face和GitHub上發布,並採用 MIT 和 NVIDIA 開放模型許可證,允許商業用途。然而,該模型目前僅支援英語。

微軟更新Windows 11開發版與測試版 帶來進階相機設定和Emoji 16.0表情符號

微軟更新 Windows 11 開發版和測試版帶來高級相機設定和 Emoji 16.0 表情符號,說起來 16.0 之前添加過但因為有問題就給撤回,現在重新帶來 Emoji 16.0。還有一個功能是高級

微軟更新Windows 11開發版與測試版 帶來進階相機設定和Emoji 16.0表情符號

YouTube Music將歌詞功能設定為付費訂閱權益 不開會員只能看五次歌詞

YouTube Music 嘗試將歌詞功能設定為付費訂閱權限,未開通 YouTube Premium 訂閱會員最多只能查看五次歌詞。從去年開始谷歌就在測試這個付費牆,現在似乎在擴大範圍,因為更多

YouTube Music將歌詞功能設定為付費訂閱權益 不開會員只能看五次歌詞

Discord自3月起預設將所有使用者設定為青少年模式 驗證後才能存取成人內容

社群通訊應用程式 Discord 從 3 月開始將預設為所有用戶開啟青少年模式,只有提交臉部影片或證件驗證後才能解除青少年模式。不解除的話用戶將無法存取成人內容 / NSFW 內容

Discord自3月起預設將所有使用者設定為青少年模式 驗證後才能存取成人內容

微軟推送Win11新測試版:新增表情與相機雲台控制

微軟於2月9日透過官方部落格宣布,向Beta和Dev頻道的Windows Insider專案成員推送了最新預覽版更新。此次更新後,Beta頻道系統版本號將升至Build 26220.7755,Dev頻道則升至Buil

微軟推送Win11新測試版:新增表情與相機雲台控制

OpenAI在美測試廣告功能,免費及低價用戶將看到廣告

當地時間週一,OpenAI正式宣布開始在美國為免費用戶及新推出的低價Go訂閱用戶測試廣告功能。 Go套餐定價為每月8美元,已於今年1月在全球上線。本公司強調,所有付費訂閱用戶,包括P

OpenAI在美測試廣告功能,免費及低價用戶將看到廣告

馬斯克預言:三年內太空將成為AI算力成本最低之地

根據彭博社報道,Google母公司Alphabet計劃透過發行美元債券籌集高達200億美元資金,這一規模超出了先前市場預期的150億美元。此次發債中,期限最長的債券將於2066年到期,其定價

馬斯克預言:三年內太空將成為AI算力成本最低之地

谷歌母公司擬發債融資200億美元,加碼AI基礎設施

根據彭博社報道,Google母公司Alphabet計劃透過發行美元債券籌集高達200億美元資金,這一規模超出了先前市場預期的150億美元。此次發債中,期限最長的債券將於2066年到期,其定價

谷歌母公司擬發債融資200億美元,加碼AI基礎設施

OpenAI否認在超級碗洩露硬體產品視頻

隨著美國「超級盃」賽事結束,科技圈卻因一則關於OpenAI的傳言而泛起漣漪。近日,一位自稱OpenAI員工的網友在Reddit平台發文稱,公司原計劃在賽事期間投放廣告卻未能播出,並隨之

OpenAI否認在超級碗洩露硬體產品視頻

網路檔案館與WP合作解決404問題 將自動儲存文章並在不可用時跳到快照

互聯網檔案館與 WordPress 合作解決 404 問題,將自動保存 WordPress 網站上的文章到互聯網檔案館,檢測到文章被刪除時自動重定向到互聯網檔案館的快照頁面。這個外掛程式基

網路檔案館與WP合作解決404問題 將自動儲存文章並在不可用時跳到快照

X/Twitter推出按量付費API 一般用戶也可以透過API快速抓取/發佈內容

社群網站 X/Twitter 推出按量付費 API,一般用戶可以使用 API 快速抓取或發佈內容,沒有固定月費使用成本更低。按量付費 API 主打的就是按實際使用次數收費,例如讀取 1 條推文

X/Twitter推出按量付費API 一般用戶也可以透過API快速抓取/發佈內容

推進實名制打擊濫用:Google宣布Google Voice號碼需要完成身份驗證才能使用

推進實名制打擊濫用行為:Google宣布 Google Voice 號碼需要完成身份驗證後才能使用,此政策僅限於新申請號碼的用戶。申請後用戶必須提交身份證件進行驗證,未通過驗證前不能收

推進實名制打擊濫用:Google宣布Google Voice號碼需要完成身份驗證才能使用

Linux Kernel 6.19正式版發布 涉及底層安全架構/網路協定/檔案系統等多面向改進

Linux Kernel 6.19 正式版發布,涉及底層安全架構、網路協定、檔案系統、圖形管線、新硬體支援等多方面的改進。另外 6.19 也是 Linux Kernel 6.x 的最終版,Linus Torvalds

Linux Kernel 6.19正式版發布 涉及底層安全架構/網路協定/檔案系統等多面向改進

蘋果即將推出iPhone 17e 晶片換成A19 基頻晶片採用C1X並支援磁吸式充電等

蘋果即將推出 iPhone 17e 機型,屬於 iPhone 16e 平平無奇的升級版,外觀基本上沒有變化,主要升級內部晶片組。 iPhone 17e 系列將採用 A19 晶片、基頻晶片使用 C1X、網路晶片

蘋果即將推出iPhone 17e 晶片換成A19 基頻晶片採用C1X並支援磁吸式充電等

英特爾終止軟體定義矽片付費解鎖計畫 相關儲存庫已被歸檔停止維護

英特爾終結軟體定義矽片付費解鎖計劃,相關儲存庫已經歸檔並停止維護。該項目原本是要求客戶購買 CPU 後再根據需求額外付費解鎖功能的,主要面向的是至強伺服器處理器,但推出後

英特爾終止軟體定義矽片付費解鎖計畫 相關儲存庫已被歸檔停止維護

Bithumb更新誤發60萬枚比特幣後續:已自購被用戶出售的1,788枚比特幣補充餘額

韓國交易所 Bithumb 就誤發 2,000 比特幣事件發布後續:已經自購 1,788 枚比特幣補充庫存,這些就是被收到空投的用戶賣掉的比特幣。另外 Bithumb 承擔所有損失,包括閃崩期間被

Bithumb更新誤發60萬枚比特幣後續:已自購被用戶出售的1,788枚比特幣補充餘額