比PS更懂你的AI圖片編輯工具——MagicQuill(魔法羽毛)來了! 1分鐘出圖:不用打字、簡單勾畫幾筆就能編輯圖片。 還支持直接在iPad上在線編輯! 研究團隊來自香港科技大學、螞蟻集團、浙江大學和香港大學等機構。 我們先一起看個例子感受一下—— 有了MagicQuill,現(xiàn)在當你想要給人物更換衣服時,就可以直接畫出領子,它會自動幫你補全。 加條項鏈、去除路人,幾秒鐘就搞定: 你還可以更換發(fā)色、讓人物戴上花環(huán),甚至更改花朵的顏色: 只需要1分鐘多的時間,就可以實現(xiàn)上面這么多編輯效果,尤其是對于想要快速修改照片的用戶來說,簡直太方便了! 還有更多有趣的例子,機器人、汽車、蛋糕等,都可以快速修改! 有多位網(wǎng)友評論說,AI圖像編輯真的進步飛快,“能讀懂用戶心思”是非常具有未來感的用戶體驗。 甚至還有網(wǎng)友說,顫抖吧,PS! MagicQuill目標是理解精細修改意圖 雖然目前AI圖像編輯工具是百花齊放,但想要實現(xiàn)精細編輯,很多工具的效果還是比較令人捉急。 MagicQuill團隊的目標是實現(xiàn)一個高效且精確的圖像編輯系統(tǒng),能夠在用戶進行細微修改時提供更好的使用體驗。 這不僅包括實現(xiàn)細粒度的圖像編輯控制、還要提供直觀的用戶界面、并實時預測用戶意圖。 最終團隊選擇基于擴散模型、文本和掩碼的圖像編輯方法、以及多模態(tài)大型語言模型(MLLMs) 進行實現(xiàn),并設計了簡約實用的用戶界面。 MagicQuill的具體構成 一起來看看MagicQuill系統(tǒng)的具體構成是什么樣的。主要分為3個部分: 1.編輯處理器 編輯處理器采用雙分支架構,包括內(nèi)容感知修復分支和結構引導分支。 內(nèi)容感知修復分支利用UNet架構,結合掩碼圖像特征和預訓練的擴散網(wǎng)絡進行像素級修復。 結構引導分支則通過ControINet插入條件控制,確保編輯操作的精確性。 2.繪畫助手 繪畫助手通過多模態(tài)大型語言模型(MLLM)實時預測用戶意圖。 具體的任務稱為“Draw&Guess”,也就是通過圖像上下文解釋用戶筆畫并自動生成相關提示。 團隊采用的數(shù)據(jù)集通過生成邊緣圖和模擬用戶筆畫進行構建,并使用LLaMA模型進行微調(diào)。 3.創(chuàng)意收集器 創(chuàng)意收集器為用戶提供了一個簡約直觀的界面,它兼容多個平臺,團隊也提供了在線demo,你可以在電腦或iPad上直接使用! 界面主要包括提示區(qū)、工具欄、圖層管理、主畫布、生成圖像預覽區(qū)、執(zhí)行按鈕和參數(shù)調(diào)整區(qū)。 按鈕設計非常簡潔,有上傳圖片、“增加”畫筆、“減少”畫筆、改顏色畫筆、橡皮等等。 下方的參數(shù)調(diào)整區(qū)域更適合有豐富的生圖經(jīng)驗的專業(yè)人士: 比如在Base Model Name里,你可以選擇不同的基礎模型,有適合生成真實風格的SD1.5/realisticVisionV60B1_v51VAE.safetensors、適合生成幻想風格的SD1.5/DreamShaper.safetensors等。 你還可以調(diào)整Negative Prompt避免生成部分內(nèi)容、還有Fine Edge精細邊緣調(diào)整、Grow Size調(diào)整筆觸大小等等。完整工作流程如下圖所示。 實際效果怎樣呢? 為了更準確地測試MagicQuill的具體效果,團隊還設計了3個驗證實驗: 1.可控生成評估 將MagicQuill與四個基線方法(SmartEdit、SketchEdit、BrushNet及其組合)進行比較,評估編輯處理器的可控生成能力,尤其關注邊緣對齊和顏色保真度。 結果顯示,MagicQuill的編輯處理器在所有指標上均優(yōu)于基線方法,具有更高的邊緣對齊度和顏色保真度。 2.預測準確性評估 為了評估MagicQuill在模擬手繪輸入下的語義預測準確性,團隊將它的繪畫助手與三種最先進的MLLMs (LLaVA-1.5、LLaVA-Next、GPT-4o)進行了比較。 結果顯示,繪畫助手在所有測試的MLLMS中表現(xiàn)最佳,可以更準確地捕捉和預測用戶繪圖的語義含義。 3.創(chuàng)意收集器有效性評估 團隊還通過用戶研究評估了創(chuàng)意收集器的效率和可用性,并比較了它與基線系統(tǒng)的差異。 用戶研究結果顯示,MagicQuill在所有評估維度上都顯著優(yōu)于基線系統(tǒng),包括復雜性和效率、一致性和集成、易用性以及總體滿意度4個方面。 看來體驗過的用戶反饋都不錯呢! 未來工作 團隊還表示,這將是一個長期的工作,未來他們的目標是擴展系統(tǒng)功能,納入更多的編輯類型,如基于參考的編輯,這將允許用戶使用外部圖像指導修改。 他們還計劃實現(xiàn)分層圖像生成,可以讓編輯更加靈活、支持更多復雜合成。 系統(tǒng)也會支持排版,能夠處理更多圖像中的文本元素。 目前MagicQuill的代碼、論文和Demo都已上線,感興趣的小伙伴可以馬上試用起來了!鏈接就在下方。 參考鏈接:https://magicquill.art/demo/ 本文來源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選