即將離職的Meta首席AI科學家承認該公司在發布Llama 4時篡改測試結果以獲得最佳成績

即將離職的Meta首席AI科學家承認該公司在發布Llama 4時篡改測試結果以獲得最佳成績


即將離職的 Meta 首席 AI 科學家在接受英國金融時報採訪時承認該公司在發布 Llama 4 時篡改基準測試結果以獲得更好的成績,具體做法是針對不同的基準測試項目使用不同的微調模型。這種作弊行為也引起祖克柏的不滿,隨後整個 GenAI 團隊都被邊緣化,現在祖克柏似乎要轉向閉源商業模式。

社群媒體集團 Meta 旗下推出的開放人工智慧模式 Llama 知名度非常高,在人工智慧社群中 Llama 1~3 系列口碑和評價也都非常不錯,不過在 2025 年 4 月該公司推出 Llama 4 時卻遭遇滑鐵盧。

當時 Llama 4 的基準測試表現看起來也非常不錯,問題是該系列模型本身就是開放的因此在模型發布後立即就有大量開發者進行測試,測試結果是模型實際表現遠不如 Meta 宣傳的那麼出色。

彼時就有消息稱 Meta 可能為了提高模型基準測試評分而進行作弊,不過後來 Meta 也出面回應稱沒有這種事情,但後來 Llama 系列模型的發展似乎就陷入了停滯,早前也有消息稱 Meta 將重點轉向閉源商業模型。

現在即將離任的 Meta 首席人工智慧科學家、現代人工智慧奠基人之一的 Yann LeCun 承認,Meta 在 2025 年 4 月發布 Llama 4 模型前曾篡改過基準測試結果以獲得更好的分數。

這名人工智慧科學家在接受《金融時報》採訪時透露,基準測試結果確實被稍微修改過,團隊針對不同的基準測試計畫使用不同的模型以獲得更好的結果。

但這種作弊帶來的後果也是很可怕的:在模型發布後 Llama 4 被外界認為是個失敗的模型,Meta 也面臨被指控操縱基準測試結果,這導致 Meta 創始人馬克扎克伯格非常不滿並且對所有參與發布的人都失去了信心。

Yann LeCun 稱,最終扎克伯格直接將整個 GenAI 團隊邊緣化,目前很多人已經離開該團隊以及還有更多人即將離開,像是 Yann LeCun 這樣已經在 Meta 工作十年的老員工也同樣要離開了。

微軟更新Windows 11開發版與測試版 帶來進階相機設定和Emoji 16.0表情符號

微軟更新 Windows 11 開發版和測試版帶來高級相機設定和 Emoji 16.0 表情符號,說起來 16.0 之前添加過但因為有問題就給撤回,現在重新帶來 Emoji 16.0。還有一個功能是高級

微軟更新Windows 11開發版與測試版 帶來進階相機設定和Emoji 16.0表情符號

YouTube Music將歌詞功能設定為付費訂閱權益 不開會員只能看五次歌詞

YouTube Music 嘗試將歌詞功能設定為付費訂閱權限,未開通 YouTube Premium 訂閱會員最多只能查看五次歌詞。從去年開始谷歌就在測試這個付費牆,現在似乎在擴大範圍,因為更多

YouTube Music將歌詞功能設定為付費訂閱權益 不開會員只能看五次歌詞

Discord自3月起預設將所有使用者設定為青少年模式 驗證後才能存取成人內容

社群通訊應用程式 Discord 從 3 月開始將預設為所有用戶開啟青少年模式,只有提交臉部影片或證件驗證後才能解除青少年模式。不解除的話用戶將無法存取成人內容 / NSFW 內容

Discord自3月起預設將所有使用者設定為青少年模式 驗證後才能存取成人內容

微軟推送Win11新測試版:新增表情與相機雲台控制

微軟於2月9日透過官方部落格宣布,向Beta和Dev頻道的Windows Insider專案成員推送了最新預覽版更新。此次更新後,Beta頻道系統版本號將升至Build 26220.7755,Dev頻道則升至Buil

微軟推送Win11新測試版:新增表情與相機雲台控制

OpenAI在美測試廣告功能,免費及低價用戶將看到廣告

當地時間週一,OpenAI正式宣布開始在美國為免費用戶及新推出的低價Go訂閱用戶測試廣告功能。 Go套餐定價為每月8美元,已於今年1月在全球上線。本公司強調,所有付費訂閱用戶,包括P

OpenAI在美測試廣告功能,免費及低價用戶將看到廣告

馬斯克預言:三年內太空將成為AI算力成本最低之地

根據彭博社報道,Google母公司Alphabet計劃透過發行美元債券籌集高達200億美元資金,這一規模超出了先前市場預期的150億美元。此次發債中,期限最長的債券將於2066年到期,其定價

馬斯克預言:三年內太空將成為AI算力成本最低之地

谷歌母公司擬發債融資200億美元,加碼AI基礎設施

根據彭博社報道,Google母公司Alphabet計劃透過發行美元債券籌集高達200億美元資金,這一規模超出了先前市場預期的150億美元。此次發債中,期限最長的債券將於2066年到期,其定價

谷歌母公司擬發債融資200億美元,加碼AI基礎設施

OpenAI否認在超級碗洩露硬體產品視頻

隨著美國「超級盃」賽事結束,科技圈卻因一則關於OpenAI的傳言而泛起漣漪。近日,一位自稱OpenAI員工的網友在Reddit平台發文稱,公司原計劃在賽事期間投放廣告卻未能播出,並隨之

OpenAI否認在超級碗洩露硬體產品視頻

網路檔案館與WP合作解決404問題 將自動儲存文章並在不可用時跳到快照

互聯網檔案館與 WordPress 合作解決 404 問題,將自動保存 WordPress 網站上的文章到互聯網檔案館,檢測到文章被刪除時自動重定向到互聯網檔案館的快照頁面。這個外掛程式基

網路檔案館與WP合作解決404問題 將自動儲存文章並在不可用時跳到快照

X/Twitter推出按量付費API 一般用戶也可以透過API快速抓取/發佈內容

社群網站 X/Twitter 推出按量付費 API,一般用戶可以使用 API 快速抓取或發佈內容,沒有固定月費使用成本更低。按量付費 API 主打的就是按實際使用次數收費,例如讀取 1 條推文

X/Twitter推出按量付費API 一般用戶也可以透過API快速抓取/發佈內容

推進實名制打擊濫用:Google宣布Google Voice號碼需要完成身份驗證才能使用

推進實名制打擊濫用行為:Google宣布 Google Voice 號碼需要完成身份驗證後才能使用,此政策僅限於新申請號碼的用戶。申請後用戶必須提交身份證件進行驗證,未通過驗證前不能收

推進實名制打擊濫用:Google宣布Google Voice號碼需要完成身份驗證才能使用

Linux Kernel 6.19正式版發布 涉及底層安全架構/網路協定/檔案系統等多面向改進

Linux Kernel 6.19 正式版發布,涉及底層安全架構、網路協定、檔案系統、圖形管線、新硬體支援等多方面的改進。另外 6.19 也是 Linux Kernel 6.x 的最終版,Linus Torvalds

Linux Kernel 6.19正式版發布 涉及底層安全架構/網路協定/檔案系統等多面向改進

蘋果即將推出iPhone 17e 晶片換成A19 基頻晶片採用C1X並支援磁吸式充電等

蘋果即將推出 iPhone 17e 機型,屬於 iPhone 16e 平平無奇的升級版,外觀基本上沒有變化,主要升級內部晶片組。 iPhone 17e 系列將採用 A19 晶片、基頻晶片使用 C1X、網路晶片

蘋果即將推出iPhone 17e 晶片換成A19 基頻晶片採用C1X並支援磁吸式充電等

英特爾終止軟體定義矽片付費解鎖計畫 相關儲存庫已被歸檔停止維護

英特爾終結軟體定義矽片付費解鎖計劃,相關儲存庫已經歸檔並停止維護。該項目原本是要求客戶購買 CPU 後再根據需求額外付費解鎖功能的,主要面向的是至強伺服器處理器,但推出後

英特爾終止軟體定義矽片付費解鎖計畫 相關儲存庫已被歸檔停止維護

Bithumb更新誤發60萬枚比特幣後續:已自購被用戶出售的1,788枚比特幣補充餘額

韓國交易所 Bithumb 就誤發 2,000 比特幣事件發布後續:已經自購 1,788 枚比特幣補充庫存,這些就是被收到空投的用戶賣掉的比特幣。另外 Bithumb 承擔所有損失,包括閃崩期間被

Bithumb更新誤發60萬枚比特幣後續:已自購被用戶出售的1,788枚比特幣補充餘額