
根據外媒報道,蘋果公司發布了一篇重要研究論文,詳細介紹了其全新的多模態AI模型「Manzano」。該模型的最大亮點在於,能近乎無損地同時實現精準的“視覺理解”與高質量的“文本生成圖像”,有望解決行業內長期存在的任務衝突難題。
傳統多模態模型同時處理影像理解與影像生成時,往往因視覺資料處理方式的內在矛盾而被迫做出表現妥協。 Manzano透過創新的三段式架構攻克了這個挑戰:首先,其「混合視覺分詞器」能同步產生連續與離散的視覺表示;接著,大語言模型負責預測影像語意;最後,「擴散解碼器」進行精細的像素級渲染。
這種設計使得Manzano不僅能準確理解圖像內容,還能根據複雜的文字指令產生高品質圖片。在測試中,面對「一隻鳥在大像下方飛翔」等反直覺指令,其邏輯準確性與GPT-4o等頂尖模型表現相當。此外,它還能處理深度估計、風格遷移等進階任務。
研究團隊驗證了從3億到300億參數的不同版本,證實架構具備良好的擴展性。儘管Manzano目前仍處於研究階段,尚未整合至具體產品中,但業界普遍認為,這項技術未來很可能被應用於「圖樂園」等功能,為使用者帶來更智慧的影像編輯與生成體驗,從而增強蘋果在端側AI領域的綜合競爭力。