11 月 11 日,位元組跳動豆包大模型團隊推出了最新影像編輯模型 SeedEdit,主打一句話輕鬆 P 圖。它是國內首個產品化的通用影像編輯模型,無需描邊塗抹,僅使用簡單的自然語言,就能換背景、轉風格,或者在指定區域進行元素的增刪和替換。比如,輸入 Prompt「把老婆餅換成驢打滾」,SeedEdit 立馬鎖定修改目標,完成美食替換: (Prompt:把老婆餅換成驢打滾)
要知道,「老婆餅」、「驢打滾」等中國美食曾「騙」倒一眾大模型,但 SeedEdit 能精準理解複雜指令,不僅看得懂中英文提示詞,還對成語和專有名詞「門兒清」。再比如,在不「誤傷」原圖細節的情況下,把草莓換成檸檬: (Prompt:把草莓換成檸檬)
在處理玻璃裂紋、髮絲等精細塗抹區域時,SeedEdit 同樣能夠保持原圖的完整性:此外,作為一款通用影像編輯模型,它不僅具備單次編輯的能力,還支援多輪操作,能夠讓使用者對同一影像進行連續的創意編輯。比如,讓一個二次元女孩換上騎士裝、戴上牛仔帽、改變動作、增加背景,最後「Pia」一下變身酷颯火槍手:本次 SeedEdit 推出,位元組也釋出了技術報告。AIGC 影像的精準編輯一直是個老大難問題,業界此前方案要麼在編輯上做不到「指哪打哪」,要麼編輯生成的質量低或導致原圖主體變化較大。報告顯示,SeedEdit 依然採用了 Diffusion 架構,但在不引入新引數的情況下將影像生成模型轉換成了影像編輯模型。其秘訣是在保持原始影像和生成新內容之間尋找平衡,最終得以在影像編輯的通用性、可控性和高質量上實現新的突破。目前,SeedEdit 已上線豆包 PC 端和位元組 AIGC 平臺即夢網頁端開始測試。- 豆包 Web:https://www.doubao.com/chat/create-image
- 即夢 Web:https://jimeng.jianying.com/ai-tool/image/generate
SeedEdit 的圖片編輯效果可謂炸裂,讓人不禁要問:生成式 AI 的修圖技術是否真的已經能做到「毫無 PS 痕跡」了?我們索性搞個實測,看看位元組這款 AI 神器實力到底如何。今年以來,Dall・E 3、Midjourney 等 AI 繪圖平臺響應群眾呼聲,陸續上線了生圖編輯功能。不得不說,相較業界之前方案,編輯生圖的質量和美感的確大大改善,但體驗上仍有提升空間,一是指定區域編輯需要手動塗抹,二是對編輯指令的響應經常不夠精準。而這次位元組卯足勁推出的 SeedEdit,首先在通用性上做到了極致,不用塗抹編輯區域,只需給出一句簡潔的 prompt,就能實現任意指令的編輯,適用各類編輯任務,支援使用者腦洞大開的奇思妙想。其產品側玩法也很簡單。在即夢「圖片生成」中,上傳參考圖,選擇「智慧參考」,然後根據需要輸入 Prompt 即可。接下來就是實測最關鍵的編輯精準度。 (Prompt:蒙娜麗莎張開嘴大笑,手裡抱著一隻貓。)原作中蒙娜麗莎的微笑神秘、含蓄又難以捉摸,但 SeedEdit 一頓爆改,瞬間讓畫面有了一種詼諧感。蒙娜麗莎咧嘴大笑,懷裡的貓高冷地眺望遠方,畫風自然、線條流暢。SeedEdit 嚴格遵循了指令,除了表情和動作發生變化外,其他細節均能保持不變。蒙娜麗莎的髮絲、頭紗和衣褶清晰可見,手部沒有變形扭曲,貓咪的鬍鬚、毛髮根根分明,就連背景也完美復刻。我們讓它把《倒牛奶的女僕》中的背景換成了麥當勞後廚。 (Prompt:背景換成麥當勞後廚,女僕正端著牛奶瓶)為了準確體現 Prompt,SeedEdit 編輯後的畫面中,牆上掛著麥當勞的大 Logo,原本簡陋的房間也放置了現代化的不鏽鋼櫥櫃,毫無「貼圖感」。由於原畫歷經幾個世紀之久,難免會出現細微裂痕和顆粒感,SeedEdit 巧妙去掉其中的斑駁,畫質一整個拉昇。再看這幅《戴珍珠耳環的少女》。僅需下個動作指令,SeedEdit 就開始發揮想象力。 (Prompt:戴珍珠耳環的少女手裡拿著一杯奶茶)即使是真人影像,SeedEdit 也完全能 hold 住。 (Prompt:帽子顏色換成紅色)
(Prompt:給畫面上色,時尚,舒服)
移除畫中無關元素,若是用傳統 PS 方法,需要一點點描邊框、選塗抹區域,一旦手不穩,就得重新返工。而 SeedEdit 只需一句「去掉右邊老虎」的指令,就能精準定位並刪除,這相比於手動編輯,大大節省了時間。 (Prompt: 去掉右邊老虎)
當然,SeedEdit 也可以進行元素替換。比如把下圖中右邊的金毛換成泰迪,影像其餘部分畫面結構、畫素質量,均不受影響。 (Prompt:把右側的小狗換成棕色的泰迪)
值得一提的是,SeedEdit 還能隨意切換各種風格,比如塗鴉、樂高、3D、皮克斯、迪士尼…… (Prompt:把畫面風格換成用線條和形狀勾勒的塗鴉風;Prompt:把畫面風格換成皮克斯風格;Prompt:把畫面風格換成日本動漫風)經過多次嘗試,我們也總結出一套超實用的 Prompt 指南。- 每次編輯儘量使用單指令,為防止它「丟三落四」, 多指令最好少於 3 種變化。
- 雖然 SeedEdit 具備一定的推理能力,有時指令模糊它也能猜個大概,但為了效果更佳,在區域性編輯時,下指令要精準,尤其是畫面具有多個實體時,需描述清楚對誰做什麼。
- 參考圖儘可能清晰、解析度高,要想保留參考圖中的物件,則可以多加一些物件描述。比如從簡單的 change to afro hairstyle 變成 change this young Chinese man hairstyle to afro style.
- 如果感覺編輯效果不明顯,可以調整編輯強度,比如從 0.5 調整到 1.0;若發現編輯變化太多, 同樣也可以減少編輯強度,比如降到 0.1。
我們就讓位元組 SeedEdit 和 AI 生圖界的「扛把子」Dall・E3、Midjourney 來次真刀真槍的比拼。首先,我們給這三個模型輸入同樣的 Prompt:a female model in blue Nike tracksuit, Fujifilm, urban street photography。讓它們各自生成一張圖片,再在此基礎上進行區域性調整。SeedEdit 生成的圖片既時尚又充滿運動氣息。模特身著印有醒目耐克 Logo 的運動背心,搭配同色系棉質夾克,褲子的光澤與夾克相得益彰,整體效果相當協調。隨後,我們輸入文字指令「Change the blue Nike tracksuit to black Nike tracksuit」,SeedEdit 迅速響應,給模特換成了一身黑色,夾克和褲子的光澤感同樣得到完美呈現。(Input Prompt:a female model in blue Nike tracksuit, Fujifilm, urban street photography;Edit Prompt:Change the blue Nike tracksuit to black Nike tracksuit.)與 SeedEdit 一句話 P 圖不同,Midjourney 和 Dall・E3 的區域性編輯功能稍顯複雜,需要先使用畫筆工具塗抹要修改的區域,然後輸入 Prompt,以實現對影像的元素修改。Midjourney 雖然也遵從了指令,但改變了模特動作和衣服款式。(Input Prompt:a female model in blue Nike tracksuit, Fujifilm, urban street photography;Edit Prompt:Change the blue Nike tracksuit to black Nike tracksuit.)Dall・E3 的表現最拉胯,生成的影像美感不足,還一股 AI 味,塗抹修改也沒有完全遵循 Prompt。(Input Prompt:a female model in blue Nike tracksuit, Fujifilm, urban street photography;Edit Prompt:Change the blue Nike tracksuit to black Nike tracksuit.)
再來試一下刪除效果。Prompt:Remove the guy on the right.Midjourney:Midjourney 確實抹去了畫面右側的男生,但身後的建築也跟著不翼而飛;而 SeedEdit 在遵循文字指令的同時,還透過自身的推理能力將畫面缺失部分補齊,不過,女生的眼神和衣服等細節也稍有瑕疵。總之,SeedEdit 作為通用的影像編輯模型,無需再訓練微調即可快捷應用,極大地簡化了影像編輯的流程。無論是簡單的影像修正還是複雜的風格轉換,它都能迅速適應並提供高質量的編輯結果。這一突破性的技術進步,不僅降低了影像編輯的門檻,也讓創意工作者能夠更加專注於藝術創作本身,而不必耗費大量時間在技術細節上。在產品釋出的同時,位元組同時也釋出了 SeedEdit 的技術報告。仔細閱讀一下可以發現,它在技術原理上確實有自己的獨到之處。- 論文:《SeedEdit: Align Image Re-Generation to Image Editing》
- 論文及技術能力展示:https://team.doubao.com/seededit
據技術報告介紹,SeedEdit 基於影像生成常用的擴散模型,但又能夠根據任何文字提示修訂給定的影像。該工作發現,AI 生成式影像編輯的關鍵,在於在保持原始影像(影像重建)和生成新影像(影像生成)之間的平衡。這就意味著若想讓影像生成的 AI 模型擁有修圖能力,就需要在大量相應的成對資料上訓練這個模型。因此,SeedEdit 採取的方式是從一個弱生成器(文字到影像生成模型)開始,再在上述兩個方向之間建立多樣化的影像對,以此來逐步訓練模型,最終獲得我們所需要的平衡。下圖是 SeedEdit 的框架:首先將文字到影像模型(T2I)視為弱編輯模型,再改造它生成的帶有提示的新影像來實現「編輯」。隨後,把這個弱編輯模型反覆進行蒸餾和對齊,以最大程度繼承再生成能力,同時提高生成後影像的一致性。最近一段時間,擴散模型生成的影像雖然效果越來越好,但其內容通常是不可控的。透過 SeedEdit,位元組的研究人員嘗試在不引入新引數的情況下,將影像生成的擴散模型轉化成了影像編輯模型。與此前一些 AI 影像編輯的方法相比,SeedEdit 能夠實現更豐富的效果和編輯能力,也可以實現圖片的連續編輯 —— 它讓擴散模型不再是完全隨機進行生成,而是可以像常規的工具一樣一步步來,做出你想要的效果。把 SeedEdit 方法與幾種業內先進的影像編輯方法進行比較,總體而言,新的方法在兩個基準上都顯示出了明顯更高的分數。同時也可以觀察到 HQ-Edit 資料集中 CLIP 影像有更高的相似性,這意味著原始影像的內容得到了更好的保留。 基準測試成績。
與一些開源方法比較,SeedEdit 的優勢在於能夠理解人們提出的相對模糊的指令,並輸出較為細緻準確的結果。 不同方法的輸出結果。
即使是和 DALL-E3、Midjourney 這樣已經商用的先進影像生成器(帶編輯功能)相比,SeedEdit 也可以相對更緊密地跟隨人們給出的指令。 DALL-E3、Midjourney、SeedEdit 之間,不同影像生成工具的效果對比。
不得不說,位元組提出的方法別具特色,相比業內現有技術又向前跨出了一步。看到這裡,你可能突然意識到,AI 領域的風向正在發生轉變。一直以來,很多關注 AI 繪畫的人總是在期盼著 DALL-E、Midjourney 等海外 AI 創業公司的技術更新。而隨著國內的技術不斷迭代,我們已經見證了一系列先進的生成式 AI 應用在外網刷屏。或許到了新技術落地的節點,我們目光更應該向近處看。其實仔細想來,作為全球短影片領域的佼佼者,位元組跳動在生成式 AI,特別是影像生成領域上的優勢可謂得天獨厚。早在豆包大模型誕生前,位元組就一直在關注 AI 影像生成相關技術,並持續增加研發投入。豆包大模型儘管入場時間不是最早,但憑藉優秀的效果和獨特的社交體驗迅速成為了國內最熱門的大模型之一。到今年 9 月,豆包大模型日均生成圖片 5000 萬張。能夠迅速做出生成式 AI 應用爆款的位元組,其所做的努力並不只是在應用層面上創新。位元組大模型團隊最近的前沿研究,已經在不斷挑戰 AI 領域的技術難題。在工程層面上,僅從今年下半年起,我們在社交網路上就不時可以刷到位元組的新成果,比如可以生成長篇漫畫、有劇情影片的 StoryDiffusion:影片生成模型 PixelDance 和 Seaweed:到上星期釋出的,音訊加人臉影片生成技術 Loopy:再就是今天 SeedEdit 所展示的,方便好用的圖片編輯能力。在 AI 基礎研究層面,位元組大模型團隊的工作也在不斷獲得認可。其提出的單目深度估計模型 Depth Anything V2 入選了蘋果的 CoreML 模型庫。該模型可應用在自動駕駛、3D 建模、擴增實境、安全監控以及空間計算等領域。上週,位元組豆包大模型團隊公佈的一項系統性研究,首次在業界透過大規模實驗深入探索了影片生成模型能否真正理解物理規律,得到了謝賽寧、Gary Marcus,以及圖靈獎得主 Yann LeCun 等 AI 學者的轉發和點贊。一篇篇論文、一個個專案的積累,不僅撐起了如今豆包大模型的熱度,也在悄然推動著學界的前沿探索。SeedEdit 團隊表示,其實現階段模型在複雜內容和精細控制層面上還有改進空間。下一步要提升的還有真實圖片風格保持、ID 一致性、編輯準確性、長時序內容(如漫畫生成)等等方面。除此以外,SeedEdit 還將會開放多輪複雜編輯的功能。