中山大學聯合位元組智創數字人團隊提出MMTryon虛擬試穿框架,效果優於現有SOTA

新闻助手發表於2024-07-08

中山大學聯合位元組智創數字人團隊提出MMTryon虛擬試穿框架,效果優於現有SOTA

中山大學聯合位元組智創數字人團隊提出MMTryon虛擬試穿框架,效果優於現有SOTA

虛擬換裝技術在特效以及電商的場景下有著廣泛的應用,具有較高的商業潛質與價值。近期,中山大學聯合位元組跳動智慧創作數字人團隊提出了一種多模態多參考虛擬試穿 (VITON) 框架 MMTryon,可以透過輸入多個服裝影像及指定穿法的文字指令來生成高質量的組合試穿結果。對於單圖換裝,MMTryon有效的利用了大量的資料設計了一個表徵能力強大的服裝編碼器, 使得該方案能處理複雜的換裝場景及任意服裝款式;對於組合換裝,MMTryon消除了傳統虛擬換裝演算法中對服裝精細分割的依賴,可依靠一條文字指令從多張服裝參考影像中選擇需要試穿的服裝及對應的穿法,生成真實自然的組合換裝效果。

中山大學聯合位元組智創數字人團隊提出MMTryon虛擬試穿框架,效果優於現有SOTA

中山大學聯合位元組智創數字人團隊提出MMTryon虛擬試穿框架,效果優於現有SOTA

Pretrain 服裝編碼器結合多模態和多參考注意機制,效果更精確靈活

中山大學聯合位元組智創數字人團隊提出MMTryon虛擬試穿框架,效果優於現有SOTA

虛擬換裝技術旨在將模特所穿服飾或者衣服的平鋪圖穿到目標人物身上,達到換裝的效果,但是之前虛擬試穿的方案存在一些技術難點沒有解決,首先,現有的方法通常是為單件試穿任務(例如上衣/下衣、連衣裙)而設計的,並且無法自定義著裝風格(例如,外套拉上/拉開拉鍊、上衣塞入/塞出等。另外,之前的方案嚴重依賴特定於類別的分割模型來識別試穿區域,如下圖所示如果分割錯誤則將直接導致試穿結果中出現明顯的試穿錯誤或者偽影等情況。

中山大學聯合位元組智創數字人團隊提出MMTryon虛擬試穿框架,效果優於現有SOTA

為了解決這些問題,我們提出了MMTryon,將參考影像中的服裝資訊與文字指令中的著裝風格資訊透過一種新穎的多模態和多參考注意機制來進行表示,這使得我們的方案支援組合式換裝以及多樣的試穿風格。此外,為了消除對分割依賴性,MMTryon 使用了表徵能力豐富的服裝編碼器,並利用新穎的可擴充套件的資料生成流程增強現有的資料集,這樣在推理階段,MMtryon無需任何分割,僅僅透過文字以及多個試穿物件即可實現高質量虛擬換裝。

在開源的資料集以及複雜場景下進行的大量實驗在定性和定量上證明了 MMTryon 優於現有 SOTA 方法。

詳細技術方案見:https://arxiv.org/abs/2405.00448

首先研究團隊預訓練了一個服裝編碼器,在這一stage中MMTryon利用文字作為query,將得到的特徵與grouding dino + SAM所得到的mask計算一個query損失,目標是經過text query 後僅啟用文字對應區域的特徵,這樣可以擺脫對於服裝分割的依賴,同時利用大量的pair對更好的編碼服裝特徵,之後,為了更穩定的訓練組合換裝,需要多件服裝組合式換裝的pair圖,但是這樣的pair圖採整合本很高。為此,研究團隊提出了一個基於大模型的資料擴增模式,利用視覺語言模型以及grouding dino + SAM去得到了不同區域的mask,來保護對應的上衣或者下衣區域,利用stable diffusion XL 去重繪保護區域外剩下的內容,構建了100w的增強資料集,訓練中將我們的增強資料集與90w原始資料一起加入訓練。基於增強的資料集以及服裝編碼器, MMTryon設計了多參考影像注意力模組和多模態圖文注意力模組,其中多參考圖影像注意力模組用於將多件衣服的特徵注入到目標影像來控制多件衣服的試穿,多模態圖文注意力模組利用詳細的文字與影像的clip編碼來控制多樣的試穿風格。

可以看到,MMtryon 由於服飾編碼器豐富的表徵能力,對於各種型別的換裝都可以有真實的虛擬試穿效果,

中山大學聯合位元組智創數字人團隊提出MMTryon虛擬試穿框架,效果優於現有SOTA

無論是真人影像還是掛臺服飾,只需要多張服裝參考影像及文字,就可以組合式換裝並控制換裝風格。

中山大學聯合位元組智創數字人團隊提出MMTryon虛擬試穿框架,效果優於現有SOTA

甚至還能作為一個fashion 換裝輔助設計來幫你買衣服

中山大學聯合位元組智創數字人團隊提出MMTryon虛擬試穿框架,效果優於現有SOTA

在量化指標上,MMTryon優於其他baseline的的效果,在開源資料集測試集合的Human evaluation中,MMTryon也超過其他學術界的baseline模型

中山大學聯合位元組智創數字人團隊提出MMTryon虛擬試穿框架,效果優於現有SOTA

在複雜場景的Human evaluation中,MMTryon也超越了目前的社群模型outfit anyone,我們收集了複雜場景女裝圖片142張,男裝圖片57張,非服裝圖片87張,共邀請15位參與者參與評測,選擇更喜歡的方案結果。從圖表中可以看出,我們的效果更受測試者的喜歡。

中山大學聯合位元組智創數字人團隊提出MMTryon虛擬試穿框架,效果優於現有SOTA

應用落地和展望

MMTryon是一個新穎而強大的虛擬試穿框架,能夠根據文字和多件服裝參考圖自由生成具有逼真試穿效果的高保真虛擬換裝結果。 為了解決組合換裝資料獲取成本高的問題,研究團隊設計了預訓練的服裝編碼器以及增強的資料構建鏈路,為了消除對高精度分割網路的依賴,MMTryon 設計了text query loss 使得推理無需依賴服裝分割模型,可以利用文字鎖定使用者指定的服裝區域。 為了支援組合式換裝以及多樣的試穿風格,MMTryon 引入了多模態指令注意力和多參考注意力模組,在開源的vton測試集和in the wild複雜場景測試集下進行的實驗證明了 MMTryon 與現有方法相比具有更加優越的合成效果。

團隊介紹

智慧創作團隊是位元組跳動AI&多媒體技術團隊,透過建設領先的計算機視覺、音影片編輯、特效處理等技術,支援抖音、剪映、頭條等公司內眾多產品線;同時為外部ToB合作伙伴提供業界前沿的智慧創作能力與行業解決方案。其中,智慧生成方向專注於建設行業領先的智慧生成技術,豐富智慧創作內容生態。

相關文章