
Manzano – 蘋果推出的圖像理解和生成模型
聲明:該文章來(lái)自(AI工具集)版權(quán)由原作者所有,K2OS渲染引擎提供網(wǎng)頁(yè)加速服務(wù)。
Manzano是什么
Manzano是蘋果公司推出的新型多模態(tài)大語(yǔ)言模型(LLM),能同時(shí)實(shí)現(xiàn)圖像理解和圖像生成的統(tǒng)一。模型通過(guò)混合視覺(jué)分詞器(hybrid vision tokenizer)將圖像轉(zhuǎn)化為連續(xù)的嵌入向量用于理解任務(wù),及離散的圖像標(biāo)記用在生成任務(wù)。Manzano的核心是自回歸的LLM解碼器,能預(yù)測(cè)文本和圖像標(biāo)記。Manzano配備一個(gè)擴(kuò)散解碼器(diffusion decoder),用在將生成的圖像標(biāo)記轉(zhuǎn)化為像素級(jí)別的圖像。使Manzano在理解任務(wù)和生成任務(wù)上都表現(xiàn)出色,同時(shí)在模型規(guī)模擴(kuò)大時(shí),性能會(huì)相應(yīng)提升。
Manzano的主要功能
- 圖像理解:模型能理解圖像內(nèi)容,回答與圖像相關(guān)的問(wèn)題。
- 圖像生成:根據(jù)文本提示生成高質(zhì)量的圖像。模型支持復(fù)雜的文本指令,能生成具有創(chuàng)意和細(xì)節(jié)的圖像。
- 圖像編輯:支持基于文本指令的圖像編輯,包括風(fēng)格轉(zhuǎn)換、局部修改、內(nèi)容擴(kuò)展等。
- 多模態(tài)交互:結(jié)合文本和圖像信息,支持復(fù)雜的多模態(tài)任務(wù),如圖文混合的問(wèn)答和創(chuàng)作。
Manzano的技術(shù)原理
混合視覺(jué)分詞器(Hybrid Vision Tokenizer):
連續(xù)嵌入:用在圖像理解任務(wù),將圖像編碼為連續(xù)的嵌入向量,保留豐富的語(yǔ)義信息。
離散標(biāo)記:用在圖像生成任務(wù),將圖像編碼為離散的標(biāo)記,便于自回歸生成。
自回歸LLM解碼器(Autoregressive LLM Decoder):統(tǒng)一處理文本和圖像標(biāo)記,預(yù)測(cè)下一個(gè)標(biāo)記(無(wú)論是文本還是圖像)。模型支持多模態(tài)任務(wù)的聯(lián)合學(xué)習(xí),能同時(shí)處理理解任務(wù)和生成任務(wù)。
擴(kuò)散解碼器(Diffusion Decoder):將生成的離散圖像標(biāo)記轉(zhuǎn)化為像素級(jí)別的圖像。用擴(kuò)散模型的強(qiáng)大生成能力,確保生成圖像的高質(zhì)量和細(xì)節(jié)。
統(tǒng)一訓(xùn)練框架(Unified Training Framework):在大規(guī)模文本和圖像數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)通用的語(yǔ)言和視覺(jué)表示。模型在高質(zhì)量的數(shù)據(jù)子集上進(jìn)一步訓(xùn)練,提升模型性能。在特定任務(wù)的數(shù)據(jù)上進(jìn)行微調(diào),增強(qiáng)模型在具體任務(wù)上的表現(xiàn)。
Manzano的項(xiàng)目地址
arXiv技術(shù)論文:https://arxiv.org/pdf/2509.16197
Manzano的應(yīng)用場(chǎng)景
圖像理解:用在視覺(jué)問(wèn)答(VQA)任務(wù),幫助醫(yī)生快速準(zhǔn)確地理解圖像內(nèi)容、回答相關(guān)問(wèn)題,輔助診斷。
圖像生成:在創(chuàng)意設(shè)計(jì)領(lǐng)域,根據(jù)設(shè)計(jì)師提供的文本描述生成高質(zhì)量的圖像,為廣告設(shè)計(jì)、游戲美術(shù)等提供靈感和素材。
圖像編輯:對(duì)于內(nèi)容創(chuàng)作者,模型基于文本指令對(duì)圖像進(jìn)行編輯,如風(fēng)格轉(zhuǎn)換、局部修改等,快速實(shí)現(xiàn)創(chuàng)意效果。
文檔理解:在文檔處理場(chǎng)景中,模型能理解文檔中的圖像內(nèi)容,輔助進(jìn)行文檔內(nèi)容的提取、分析和問(wèn)答,提高辦公
多模態(tài)交互:在智能教育場(chǎng)景中,結(jié)合文本和圖像信息,為學(xué)生提供更直觀、生動(dòng)的學(xué)習(xí)體驗(yàn),例如通過(guò)圖像解釋復(fù)雜的科學(xué)概念。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級(jí)服務(wù)市場(chǎng):https://www.ijiandao.com/
- 1 跟著總書記一起厚植文化底蘊(yùn) 7904555
- 2 全世界都知道中國(guó)人放假了 7807920
- 3 央視秋晚7大神級(jí)現(xiàn)場(chǎng) 7714118
- 4 60秒延時(shí)攝影賞中秋月 7618629
- 5 游客投喂胡蘿卜 羊駝:真吃不動(dòng)了 7522287
- 6 謝娜首次主持央視秋晚 7425137
- 7 閆妮央視秋晚沒(méi)有微醺 7334059
- 8 交警大隊(duì)中隊(duì)長(zhǎng)執(zhí)法現(xiàn)場(chǎng)被撞犧牲 7237597
- 9 千萬(wàn)網(wǎng)友催更 杭州公安霸總短劇火了 7141106
- 10 2025年諾貝爾生理學(xué)或醫(yī)學(xué)獎(jiǎng)揭曉 7045174