最近,靠著出其不意的擴圖效果,“AI擴圖”功能憑藉搞笑的補全結果頻頻出圈,火爆全網。網友們踴躍嘗試,180度的大反轉也讓網友們直呼離譜,話題熱度高居不下。
在帶來歡笑和熱度的背後,也代表人們在時刻關注著AI究竟能不能真正幫助他們解決實際問題,最佳化使用體驗。但可以預見的是,隨著AIGC技術的快速發展,正在加速推動AI應用場景落地,我們也將迎來一場全新的生產力變革。
近日,美圖公司旗下WHEE等產品上線AI擴圖及AI改圖功能,只需簡單的提示性輸入,使用者就可以任意修改影像、移除畫面元素、擴充畫面,憑藉便捷的操作與驚豔的效果,大大降低工具使用門檻,為使用者帶來高效、優質的影像創作體驗。
由美圖視覺大模型MiracleVision提供支援的AI改圖效果
本次全新上線的AI擴圖和AI改圖功能基於美圖自研的AI區域性重繪技術,由美圖影像研究院(MT Lab)依託美圖視覺大模型MiracleVision傾力打造。現在,就一起來揭曉這項黑科技背後的奧秘吧!
美圖AI區域性重繪技術:MiracleVision(奇想智慧)加持
眾所周知,影像區域性重繪是影像編輯細分功能中使用頻率最高的功能之一,根據需要重繪的位置(即mask區域)不同可以進一步細分為內部區域重繪(inpaint)和外部區域重繪(outpaint)。
傳統的影像區域性重繪方法往往要求使用者使用專業影像編輯工具手動重繪目標區域,或者根據使用者劃定的目標區域,使用基於GAN(生成對抗網路)的方法進行自動化的畫素內容填充。前者需要使用者具備一定的美術功底和對專業工具的熟練使用,門檻較高,對普通使用者來說難度大;而後者填充出來的區域通常缺乏真實性,在紋理細節等方面表現欠佳,當使用者劃定的mask區域越大,填充出來的效果也會越來約失真。
除此之外,基於GAN的方法只能根據周圍的畫素資訊進行填充,並不能夠根據文字引導憑空生成出新的內容,這極大地限制了它的使用場景。
基於GAN方法的重繪結果
而當前大熱的擴散模型(Diffusion Model)雖然將影像生成效果推向了一個新高度,但在影像重繪領域中仍在存在一些問題,比如常見的Stable Diffusion 1.5、Stable Diffusion 2.0、SDXL等擴散模型由於輸入影像解析度的限制,在生成紋理上有時無法與原圖完全貼合,存在邊界感;以及在執行目標消除任務時,容易不受prompt(提示詞)的限制,憑空生成一些其它的前景目標,無法輸出純背景畫素。
Stable Diffusion 1.5的區域性前景消除結果
為了實現自然過渡的畫面融合,達到“以假亂真”的目標,美圖影像研究院(MT Lab)基於自研AI視覺大模型——MiracleVision(奇想智慧)強大的影像生成能力以及多模態理解能力,實現了簡單、高效且逼真的AI區域性重繪效果。
使用者只需要手動塗抹或透過智慧分割演算法,選擇想要編輯的區域,再輸入具體修改目標,就能夠在保持影像主體特徵的前提下,進行任意編輯。支援包括畫面元素消除、修改、移動、替換及畫面擴充等重繪操作,結合高精度紋理生成技術,生成部分與原圖高度融合,真正做到畫面“不失真”,不僅極大提升使用者的影像編輯效率,還能讓廢片“變廢為寶”。
MiracleVision(奇想智慧)消除結果
MiracleVision(奇想智慧)替換效果前
MiracleVision(奇想智慧)替換效果後
MiracleVision(奇想智慧)AI改圖效果
強大模型能力,讓影像編輯隨心所欲
美圖AI區域性重繪模型基於擴散模型(Diffision Model)技術構建了完整的inpaint & outpaint模型框架,將內部區域重繪、前景目標消除以及外部區域擴充套件等任務統一到同一個方案中進行解決,並針對一些特定的效果問題做了專門的最佳化設計。
MiracleVision(奇想智慧)模型屬於文生圖模型,雖然可以透過改造第一卷積層,並將unet整體微調的方式,使其適應inpaint任務,但這樣需要修改unet原有的權重,在訓練資料量不足時可能會導致模型效能的下降。
因此,為了充分利用MiracleVision(奇想智慧)已有的生成能力,團隊在區域性重繪模型中不對MiracleVision(奇想智慧)的unet模型進行直接微調,而是使用controlnet的方式增加一個mask的輸入分支進行控制。
同時,為了節約訓練成本,加快推理速度,使用壓縮後的controlnet模組進行訓練,儘可能地減少計算量。在訓練的過程中,unet模型的引數會被固定,只有controlnet模組會進行更新,最終使整個模型獲得inpaint的能力。
美圖AI區域性重繪模型架構圖
outpaint任務則是crop任務的反向操作。crop任務是沿著影像邊界對原影像進行剪裁,只保留需要的部分,是一種影像內容的減法操作;而outpiant任務則是沿著影像邊界向外進行擴充套件,藉助模型的生成能力來憑空創造出原本不存在的內容,是一種影像內容的加法操作。
本質上,outpaint任務也可以看作是一種特殊的inpaint任務,只不過mask區域位於影像的外圍。
MiracleVision(奇想智慧)AI擴圖效果
由於outpaint任務中的mask區域只能從影像內部獲取引導資訊,其他的方向上都是影像邊界,因此生成的內容更加具有隨機性,會更加的發散。為了填補影像外圍的空白區域,同時保證畫面擴充的準確性,團隊依託場景識別演算法對影像風格及內容進行推斷,並充分利用影像內容的相關性,透過在擴充套件邊緣處映象複製原圖中的畫素併疊加隨機噪聲,為模型提供適合的初始先驗,從而保證生成內容的合理性,並使得邊界過渡更加平滑。
透過多種訓練策略,自由控制物體生成與消除
一般的擴散模型在執行inpaint任務時更擅長替換而不是消除,當需要消除某一目標時,模型很容易在mask區域中繪製出一些原本不存在的新前景目標,特別是當mask區域的面積比較大的時候這一現象尤為明顯,即使這些目標並沒有出現在prompt中。究其原因,主要是以下3個方面:
1.訓練集的prompt中,一般只描述了影像中有什麼,而不會描述影像中沒有什麼,因此讓訓練後的模型根據提示生成某一目標很容易,但是不讓它生成目標卻很難。即便有Classifier-Free Guidance策略,可以透過把不想要的物體新增到負詞中的方式來抑制該目標的生成,但始終無法將所有可能的目標全部寫到負詞中,因此模型還是會傾向於生成一些意想不到的目標;
2.從訓練資料的分佈來看,由於大規模影像訓練集中的絕大部分影像都是由前景和背景組合而成的,純背景的影像佔比較小,這意味著擴散模型在訓練時就已經學習到了一種潛在的規律,即一幅影像中大機率存在著某一個目標前景(即使prompt中並沒有提到它),這也導致模型在執行inpaint任務時更傾向於在mask區域中生成些什麼,從而使輸出影像更接近於訓練時的分佈;
3.待填充的mask區域的形狀有時也會包含一定的語義資訊,比如在沒有其他引導的情況下,模型會更傾向於在一個形狀為貓的mask區域內填充一隻新的貓,從而導致消除任務失敗。
為了使MiracleVision(奇想智慧)同時具備目標生成以及目標消除的能力,團隊採用了多工的訓練策略:
1.在訓練階段,當mask區域落在紋理較少的純背景區域上時,增加一個特定的prompt關鍵詞作為觸發引導詞,並在模型推理階段,將這個關鍵詞作為正向引導詞加入到prompt embedding 中,促使模型更多地生成背景區域。
2.由於純背景影像在整個訓練集中佔比較小,為了提高其對於訓練的貢獻程度,在每個訓練batch中,手動取樣一定比例的背景影像加入到訓練,使背景影像在訓練樣本中的佔比總體保持穩定。
3.為了降低模型對於mask形狀的語義依賴,在訓練階段還會隨機生成各種不同形態mask,增加mask形狀的多樣性。
高精度紋理生成,融合更自然
由於訓練集中高畫質的紋理資料只佔全部訓練資料的一小部分,因此在執行inpaint任務時,通常不會生成紋理非常豐富的結果,導致在原圖紋理比較豐富的場景中,容易出現融合不自然、存在邊界感的情況。
為了解決這個問題,團隊基於自研紋理細節模型作為引導模型,以此來輔助MiracleVision(奇想智慧)提高生成質量,抑制過擬合,使得生成區域和原圖的其他區域之間能夠更好地貼合在一起。
原圖v.s未增加紋理細節v.sMiracleVision擴圖效果
速度更快、效果更優、互動更高效!
擴散模型類方案在推理時通常需要進行多步逆擴散過程,導致單張圖片的處理耗時過長。為了在保持生成質量的同時最佳化使用者體驗,美圖影像研究院(MT Lab)團隊為AI區域性重繪技術打造了專項調優方案,最終達到效能與效果的最佳平衡。
首先,將MiracleVision(奇想智慧)前後處理與推理過程中大量的矩陣計算,儘可能地移植到GPU上平行計算,從而有效地加快了計算速度,並減少CPU端的負載。同時,在組圖的過程中,儘可能的對layer進行fuse,使用FlashAttention來降低視訊記憶體佔用,提升推理效能,並對Kernel實現進行Tuning,針對NVIDIA不同的顯示卡最大化GPU算力使用。
除此之外,依託自研的模型引數量化方法,將MiracleVision量化至8bit而不明顯損失精度。由於不同的GPU顯示卡對8bit量化的支援存在差異性,因此創新性採用混合精度策略,在不同的伺服器資源環境下自適應地選取最優運算元,從而實現總體加速的最優解。
而對於解析度較高的使用者輸入影像,由於受限於伺服器資源與時間成本,很難在原始解析度情況下直接進行推理。對此,團隊透過先壓縮影像解析度至合適的大小,再基於MiracleVision(奇想智慧)進行推理,其後使用超分演算法復原影像至初始解析度下,再與原圖進行影像融合,從而既保持生成影像的清晰效果,又節約推理過程中的視訊記憶體佔用和執行時間。
美圖與三星深度合作,以AI打造手機影像編輯新體驗
1月25日,三星電子舉辦Galaxy S24系列中國新品釋出會。美圖公司深化與三星合作,為三星新品Galaxy S24系列手機相簿打造全新的AI影像編輯體驗,美圖影像研究院(MT Lab)自主研發的生成式編輯——AI擴圖與AI改圖功能也已正式上線,助力手機影像編輯創作開啟新空間。
透過AI改圖功能,使用者只需長按要編輯的影像,即可輕鬆移動、消除或調整影像大小。此外,在畫面水平線不垂直時,AI擴圖功能可以在使用者調整角度後,智慧填充照片的缺失區域,修正畫面構圖。
基於MiracleVision(奇想智慧)帶來的AI功能,美圖不僅助力使用者在手機端輕鬆實現專業級的編輯效果,創造出更具個性的照片作品,也將持續推動和提升整個手機行業的AI影像處理能力。
依託美圖影像研究院(MT Lab)強大的技術能力,MiracleVision(奇想智慧)在不到半年時間已經迭代至4.0版本。未來,美圖將持續致力於提升在電商、廣告、遊戲等行業的使用者體驗,助力不同場景的從業者工作流提效。