
Lego-Edit – 小米開(kāi)源的圖像編輯框架
Lego-Edit是什么
Lego-Edit 是小米開(kāi)源的基于指令的圖像編輯框架,通過(guò)多模態(tài)大語(yǔ)言模型(MLLM)的泛化能力,實(shí)現(xiàn)對(duì)圖像的靈活編輯。采用模型級(jí)工具包,包含多種高效訓(xùn)練的模型,可執(zhí)行多種圖像操作。Lego-Edit 通過(guò)三階段漸進(jìn)式強(qiáng)化學(xué)習(xí)訓(xùn)練策略,先進(jìn)行監(jiān)督微調(diào)(SFT),再在特定任務(wù)上強(qiáng)化學(xué)習(xí)(RL),最后利用大量未標(biāo)注指令進(jìn)行額外 RL 訓(xùn)練,增強(qiáng)對(duì)靈活指令的處理能力。優(yōu)勢(shì)在于強(qiáng)大的泛化能力,能在多個(gè)基準(zhǔn)測(cè)試中達(dá)到 SOTA 性能,支持局部、全局及多步驟編輯,接受掩碼輸入以精確控制編輯區(qū)域。Lego-Edit 無(wú)需重新訓(xùn)練即可整合新工具,方便擴(kuò)展功能。
Lego-Edit的主要功能
- 強(qiáng)大的圖像編輯能力:Lego-Edit 能根據(jù)用戶(hù)指令完成多種復(fù)雜的圖像編輯任務(wù),包括但不限于局部編輯、全局編輯和多步驟編輯,滿(mǎn)足不同場(chǎng)景下的圖像處理需求。
- 靈活的指令理解與執(zhí)行:借助多模態(tài)大語(yǔ)言模型(MLLM)的泛化能力,Lego-Edit 可以理解并執(zhí)行開(kāi)放域的指令,即使面對(duì)未見(jiàn)過(guò)的指令,能通過(guò)其強(qiáng)大的推理能力進(jìn)行處理。
- 模型級(jí)工具包的高效利用:框架包含多種在有限數(shù)據(jù)上高效訓(xùn)練的模型級(jí)工具,這些工具具備多種圖像操作功能,MLLM 可以通過(guò)調(diào)用這些工具來(lái)完成細(xì)粒度的編輯操作,實(shí)現(xiàn)高效且精準(zhǔn)的圖像修改。
- 無(wú)需重新訓(xùn)練即可整合新工具:Lego-Edit 支持在無(wú)需額外微調(diào)的情況下,整合新引入的編輯工具,使得其功能可以輕松擴(kuò)展,適應(yīng)不斷變化的圖像編輯需求。
- 掩碼輸入支持精確編輯:接受掩碼輸入是 Lego-Edit 的一大亮點(diǎn),用戶(hù)可以通過(guò)掩碼精確指定需要編輯的圖像區(qū)域,實(shí)現(xiàn)更加精準(zhǔn)的局部編輯效果。
- 開(kāi)源與易用性:Lego-Edit 的代碼在 Apache 2.0 許可下開(kāi)源,模型在 CC BY-NC 4.0 許可下開(kāi)源,用戶(hù)可以方便地獲取和使用。通過(guò)簡(jiǎn)單的環(huán)境搭建和預(yù)訓(xùn)練模型下載,可使用 Gradio WebUI 開(kāi)始圖像編輯,降低了使用門(mén)檻。
Lego-Edit的技術(shù)原理
- 模型級(jí)工具包:Lego-Edit 集成多種高效訓(xùn)練的模型,每個(gè)模型負(fù)責(zé)特定的圖像操作功能,如顏色調(diào)整、對(duì)象替換等,形成一個(gè)功能豐富的工具包,為復(fù)雜的圖像編輯任務(wù)提供基礎(chǔ)支持。
- 多模態(tài)大語(yǔ)言模型(MLLM)驅(qū)動(dòng):利用 MLLM 的強(qiáng)大泛化能力和推理能力,理解用戶(hù)指令并協(xié)調(diào)模型級(jí)工具包中的不同模型,完成從指令解析到具體操作的轉(zhuǎn)換,實(shí)現(xiàn)靈活的圖像編輯。
- 三階段漸進(jìn)式強(qiáng)化學(xué)習(xí)訓(xùn)練策略:首先進(jìn)行監(jiān)督微調(diào)(SFT),讓模型學(xué)習(xí)基本的圖像編輯知識(shí);接著通過(guò)強(qiáng)化學(xué)習(xí)(RL)在特定編輯任務(wù)上訓(xùn)練,建立推理能力和工具使用知識(shí);最后利用大量未標(biāo)注指令進(jìn)行額外的 RL 訓(xùn)練,由大規(guī)模批評(píng)模型提供反饋,進(jìn)一步增強(qiáng)對(duì)靈活指令的處理能力。
- 掩碼輸入機(jī)制:支持用戶(hù)通過(guò)掩碼指定需要編輯的圖像區(qū)域,使編輯操作更加精確,能針對(duì)圖像的特定部分進(jìn)行修改,不影響其他區(qū)域,提高編輯的靈活性和準(zhǔn)確性。
- 無(wú)需重新訓(xùn)練的工具整合:Lego-Edit 能在不進(jìn)行額外微調(diào)的情況下,直接整合新引入的編輯工具,快速適應(yīng)新的編輯需求,擴(kuò)展功能范圍,保持系統(tǒng)的高效性和可擴(kuò)展性。
Lego-Edit的項(xiàng)目地址
項(xiàng)目官網(wǎng):https://xiaomi-research.github.io/lego-edit/
- Github倉(cāng)庫(kù):https://github.com/xiaomi-research/lego-edit
- arXiv技術(shù)論文:https://arxiv.org/pdf/2509.12883
Lego-Edit的應(yīng)用場(chǎng)景
- 創(chuàng)意設(shè)計(jì)領(lǐng)域:設(shè)計(jì)師可以用 Lego-Edit 快速實(shí)現(xiàn)創(chuàng)意構(gòu)思,通過(guò)簡(jiǎn)單指令完成復(fù)雜的圖像合成、風(fēng)格轉(zhuǎn)換等操作,提高設(shè)計(jì)效率,激發(fā)更多創(chuàng)意靈感。
- 內(nèi)容創(chuàng)作與編輯:在視頻制作、廣告設(shè)計(jì)、社交媒體內(nèi)容創(chuàng)作等場(chǎng)景中,Lego-Edit 能幫助創(chuàng)作者快速修改圖像素材,如調(diào)整顏色、替換背景、添加特效等,滿(mǎn)足多樣化的內(nèi)容創(chuàng)作需求。
- 電商與產(chǎn)品展示:電商商家可以使用 Lego-Edit 對(duì)產(chǎn)品圖片進(jìn)行優(yōu)化,如去除瑕疵、調(diào)整光線(xiàn)、添加虛擬場(chǎng)景等,提升產(chǎn)品展示效果,增強(qiáng)用戶(hù)購(gòu)買(mǎi)意愿。
- 教育與培訓(xùn):在教育領(lǐng)域,Lego-Edit 可以作為教學(xué)工具,幫助學(xué)生學(xué)習(xí)圖像編輯技巧,培養(yǎng)創(chuàng)造力和審美能力。同時(shí),教師也可以利用它快速制作教學(xué)課件中的圖像素材。
- 個(gè)人照片美化:普通用戶(hù)可以使用 Lego-Edit 對(duì)個(gè)人照片進(jìn)行美化,如去除背景、調(diào)整膚色、添加裝飾元素等,輕松制作出滿(mǎn)意的照片,用于社交媒體分享或個(gè)人收藏。
- 虛擬現(xiàn)實(shí)與游戲開(kāi)發(fā):在虛擬現(xiàn)實(shí)和游戲開(kāi)發(fā)中,Lego-Edit 可用于快速生成和修改游戲中的圖像資源,如角色外觀、場(chǎng)景元素等,提高開(kāi)發(fā)效率,豐富游戲視覺(jué)效果。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級(jí)服務(wù)市場(chǎng):https://www.ijiandao.com/

隨時(shí)掌握互聯(lián)網(wǎng)精彩
- 1 中美完全可以相互成就、共同繁榮 7904875
- 2 蔡國(guó)強(qiáng)始祖鳥(niǎo)發(fā)布致歉信 7808062
- 3 墜落廣東的火流星被挖出 重423公斤 7711810
- 4 近距離感受“大國(guó)重器” 7618080
- 5 菲將舉行大規(guī)模游行 中使館發(fā)提醒 7520149
- 6 女生留學(xué)9天遭電詐后墜亡 細(xì)節(jié)曝光 7423565
- 7 始祖鳥(niǎo)煙花秀引爭(zhēng)議 日喀則通報(bào) 7331449
- 8 特朗普:我們?cè)跒蹩颂m戰(zhàn)爭(zhēng)中賺錢(qián)了 7231531
- 9 中小學(xué)春秋假還沒(méi)推廣 難在哪 7139418
- 10 60后大一新生稱(chēng)可請(qǐng)妻子開(kāi)家長(zhǎng)會(huì) 7044334