
Lego-Edit – 小米開源的圖像編輯框架
智能
2025-09-21 02:54
聲明:該文章來自(AI工具集)版權(quán)由原作者所有,K2OS渲染引擎提供網(wǎng)頁加速服務(wù)。
Lego-Edit是什么
Lego-Edit 是小米開源的基于指令的圖像編輯框架,通過多模態(tài)大語言模型(MLLM)的泛化能力,實現(xiàn)對圖像的靈活編輯。采用模型級工具包,包含多種高效訓(xùn)練的模型,可執(zhí)行多種圖像操作。Lego-Edit 通過三階段漸進(jìn)式強化學(xué)習(xí)訓(xùn)練策略,先進(jìn)行監(jiān)督微調(diào)(SFT),再在特定任務(wù)上強化學(xué)習(xí)(RL),最后利用大量未標(biāo)注指令進(jìn)行額外 RL 訓(xùn)練,增強對靈活指令的處理能力。優(yōu)勢在于強大的泛化能力,能在多個基準(zhǔn)測試中達(dá)到 SOTA 性能,支持局部、全局及多步驟編輯,接受掩碼輸入以精確控制編輯區(qū)域。Lego-Edit 無需重新訓(xùn)練即可整合新工具,方便擴(kuò)展功能。
Lego-Edit的主要功能
- 強大的圖像編輯能力:Lego-Edit 能根據(jù)用戶指令完成多種復(fù)雜的圖像編輯任務(wù),包括但不限于局部編輯、全局編輯和多步驟編輯,滿足不同場景下的圖像處理需求。
- 靈活的指令理解與執(zhí)行:借助多模態(tài)大語言模型(MLLM)的泛化能力,Lego-Edit 可以理解并執(zhí)行開放域的指令,即使面對未見過的指令,能通過其強大的推理能力進(jìn)行處理。
- 模型級工具包的高效利用:框架包含多種在有限數(shù)據(jù)上高效訓(xùn)練的模型級工具,這些工具具備多種圖像操作功能,MLLM 可以通過調(diào)用這些工具來完成細(xì)粒度的編輯操作,實現(xiàn)高效且精準(zhǔn)的圖像修改。
- 無需重新訓(xùn)練即可整合新工具:Lego-Edit 支持在無需額外微調(diào)的情況下,整合新引入的編輯工具,使得其功能可以輕松擴(kuò)展,適應(yīng)不斷變化的圖像編輯需求。
- 掩碼輸入支持精確編輯:接受掩碼輸入是 Lego-Edit 的一大亮點,用戶可以通過掩碼精確指定需要編輯的圖像區(qū)域,實現(xiàn)更加精準(zhǔn)的局部編輯效果。
- 開源與易用性:Lego-Edit 的代碼在 Apache 2.0 許可下開源,模型在 CC BY-NC 4.0 許可下開源,用戶可以方便地獲取和使用。通過簡單的環(huán)境搭建和預(yù)訓(xùn)練模型下載,可使用 Gradio WebUI 開始圖像編輯,降低了使用門檻。
Lego-Edit的技術(shù)原理
- 模型級工具包:Lego-Edit 集成多種高效訓(xùn)練的模型,每個模型負(fù)責(zé)特定的圖像操作功能,如顏色調(diào)整、對象替換等,形成一個功能豐富的工具包,為復(fù)雜的圖像編輯任務(wù)提供基礎(chǔ)支持。
- 多模態(tài)大語言模型(MLLM)驅(qū)動:利用 MLLM 的強大泛化能力和推理能力,理解用戶指令并協(xié)調(diào)模型級工具包中的不同模型,完成從指令解析到具體操作的轉(zhuǎn)換,實現(xiàn)靈活的圖像編輯。
- 三階段漸進(jìn)式強化學(xué)習(xí)訓(xùn)練策略:首先進(jìn)行監(jiān)督微調(diào)(SFT),讓模型學(xué)習(xí)基本的圖像編輯知識;接著通過強化學(xué)習(xí)(RL)在特定編輯任務(wù)上訓(xùn)練,建立推理能力和工具使用知識;最后利用大量未標(biāo)注指令進(jìn)行額外的 RL 訓(xùn)練,由大規(guī)模批評模型提供反饋,進(jìn)一步增強對靈活指令的處理能力。
- 掩碼輸入機制:支持用戶通過掩碼指定需要編輯的圖像區(qū)域,使編輯操作更加精確,能針對圖像的特定部分進(jìn)行修改,不影響其他區(qū)域,提高編輯的靈活性和準(zhǔn)確性。
- 無需重新訓(xùn)練的工具整合:Lego-Edit 能在不進(jìn)行額外微調(diào)的情況下,直接整合新引入的編輯工具,快速適應(yīng)新的編輯需求,擴(kuò)展功能范圍,保持系統(tǒng)的高效性和可擴(kuò)展性。
Lego-Edit的項目地址
項目官網(wǎng):https://xiaomi-research.github.io/lego-edit/
- Github倉庫:https://github.com/xiaomi-research/lego-edit
- arXiv技術(shù)論文:https://arxiv.org/pdf/2509.12883
Lego-Edit的應(yīng)用場景
- 創(chuàng)意設(shè)計領(lǐng)域:設(shè)計師可以用 Lego-Edit 快速實現(xiàn)創(chuàng)意構(gòu)思,通過簡單指令完成復(fù)雜的圖像合成、風(fēng)格轉(zhuǎn)換等操作,提高設(shè)計效率,激發(fā)更多創(chuàng)意靈感。
- 內(nèi)容創(chuàng)作與編輯:在視頻制作、廣告設(shè)計、社交媒體內(nèi)容創(chuàng)作等場景中,Lego-Edit 能幫助創(chuàng)作者快速修改圖像素材,如調(diào)整顏色、替換背景、添加特效等,滿足多樣化的內(nèi)容創(chuàng)作需求。
- 電商與產(chǎn)品展示:電商商家可以使用 Lego-Edit 對產(chǎn)品圖片進(jìn)行優(yōu)化,如去除瑕疵、調(diào)整光線、添加虛擬場景等,提升產(chǎn)品展示效果,增強用戶購買意愿。
- 教育與培訓(xùn):在教育領(lǐng)域,Lego-Edit 可以作為教學(xué)工具,幫助學(xué)生學(xué)習(xí)圖像編輯技巧,培養(yǎng)創(chuàng)造力和審美能力。同時,教師也可以利用它快速制作教學(xué)課件中的圖像素材。
- 個人照片美化:普通用戶可以使用 Lego-Edit 對個人照片進(jìn)行美化,如去除背景、調(diào)整膚色、添加裝飾元素等,輕松制作出滿意的照片,用于社交媒體分享或個人收藏。
- 虛擬現(xiàn)實與游戲開發(fā):在虛擬現(xiàn)實和游戲開發(fā)中,Lego-Edit 可用于快速生成和修改游戲中的圖像資源,如角色外觀、場景元素等,提高開發(fā)效率,豐富游戲視覺效果。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/
排名
熱點
搜索指數(shù)
- 1 情暖天山氣象新 7904847
- 2 殲-35完成在福建艦上彈射起飛 7809373
- 3 中國航母又一突破 7712565
- 4 國慶中秋臨近 文旅部發(fā)出游提示 7616756
- 5 廣東或大范圍停工 7519735
- 6 多角度看殲-35彈射起飛 7423598
- 7 中方回應(yīng)“金正恩稱絕不放棄核武” 7331563
- 8 背簍老人等公交被拒載 司機被開除 7234176
- 9 福建艦電磁彈射宣傳片震撼發(fā)布 7139840
- 10 3×8還是8×3?80后90后家長吵翻了 7044703