一鍵換裝,讓奧特曼、黃仁勳穿上機器之心的文化衫

机器之心發表於2024-04-28

趕緊來試試吧。

AI 幫你來試衣,想穿什麼款式一鍵搞定。

精準捕捉服裝細節,衣服紋理、圖案、縫線等屬性高度還原:

一鍵換裝,讓奧特曼、黃仁勳穿上機器之心的文化衫

即使是在戶外,AI 試衣也能準確展示試穿效果,保持較高質量的輸出:

圖片

人物坐立姿勢對衣物有遮擋,AI 也會毫無破綻的實現一鍵換衣,高度保持服裝細節的一致性:

圖片

既然 demo 演示這麼厲害,那試試讓黃仁勳、奧特曼、黴黴等名人穿上機器之心的文化衫,出來的效果會怎麼樣呢?

換裝 1:

圖片

圖片

圖片

換裝 2:

圖片

圖片

圖片

換裝 3:

圖片

圖片

圖片

試用地址:https://huggingface.co/spaces/yisol/IDM-VTON

試用了幾輪下來,換裝效果的確不錯,但也有一些瑕疵,比如換裝後有時會出現大花臂、衣服上的字型沒有很好地還原、手部變形。

上面展示的虛擬試衣技術由韓國科學技術院 (KAIST) 、 OMNIOUS.AI 共同打造,他們提出了一種名為𝐈𝐃𝐌-𝐕𝐓𝐎𝐍的新型擴散模型,該技術在提高服裝保真度的同時,還能生成真實的視覺效果。

圖片

  • 論文地址:https://arxiv.org/pdf/2403.05139.pdf

  • 論文主頁:https://idm-vton.github.io/

  • 論文標題:Improving Diffusion Models for Authentic Virtual Try-on in the Wild

IDM-VTON 整體 pipelne 如下圖左所示:IDM-VTON 包括(1)TryonNet 用於處理人物影像;(2)影像提示介面卡(IP-Adapter)用於編碼服裝影像的高階語義;(3)GarmentNet 用於編碼低階特徵。

在 UNet 輸入中,本文將人物影像潛在的噪聲潛在與分割掩碼、掩碼影像和 DensePose 進行了拼接。本文還提供了服裝的詳細說明(例如,[V]:短袖圓領 t 恤),然後這些說明作為 GarmentNet 和 TryonNet 的輸入提示。

注意力模組細節如下圖右所示:TryonNet 和 GarmentNet 的中間特徵被連線起來並傳遞到自注意力層,並使用輸出的前半部分(即來自 TryonNet 的部分)。然後透過交叉注意力層將輸出與來自文字編碼器和 IP-Adapter 的特徵融合。此外,本文還對 TryonNet 和 IP-Adapter 模組進行微調,同時凍結其他元件。

圖片

最後,我們再展示一下 IDM-VTON 的其他效果。

多人試穿同一件衣服:結果顯示 IDM-VTON 可以生成高保真影像,識別服裝細節。

圖片

IDM-VTON 和其他方法的比較結果可以看出,IDM-VTON 能夠生成真實的影像並能夠保留服裝的細粒度細節。

圖片

瞭解更多內容,請參考原論文。

相關文章