去年 5 月,動動滑鼠就能讓圖片變「活」得研究 DragGAN 吸引了 AI 圈的關注。透過拖拽,我們可以改變併合成自己想要的影像,比如下圖中讓一頭獅子轉頭並張嘴。
實現這一效果的研究出自華人一作領銜的「Drag Your GAN」論文,於上個月放出並已被 SIGGRAPH 2023 會議接收。相關的專案在 GitHub 上已經積累了 34.5k 的 Star 量。
專案地址:https://github.com/XingangPan/DragGAN
之後,新加坡國立大學和位元組跳動推出了類似的研究 ——DragDiffusion。他們利用大規模預訓練擴散模型,極大提升了基於點的互動式編輯在現實世界場景中的適用性。效果如下動圖所示:
儘管取得了很大的成功,但類似的拖拽方案存在兩個主要缺陷,即點跟蹤不準確和動作監督不完整,從而可能導致無法達到滿意的拖拽效果。
為了克服這些缺陷,南京大學、騰訊的幾位研究者提出了一種判別式點跟蹤方法並針對動作監督採用了基於置信的潛在增強策略,構建了一個更加穩定和精確的拖拽編輯框架 ——StableDrag。
其中判別式點跟蹤方法能夠精確地定位更新的操縱點,提高長程操縱穩定性;基於置信的潛在增強策略能夠在所有操縱步驟中,保證最佳化的潛在變數儘可能地高質量。
論文標題:StableDrag: Stable Dragging for Point-based Image Editing
論文地址:https://arxiv.org/pdf/2403.04437.pdf
專案地址:https://stabledrag.github.io/
得益於這些獨特的設計,研究者例項化了兩種型別的影像編輯模型:StableDrag-GAN 和 StableDrag-Diff。這兩個模型在 DragBench 上進行了廣泛的定性和定量評估,結果都顯示出更加穩定的拖拽效果。
從下面影片中,我們可以看到 StableDrag-GAN 的拖拽全過程。
如下為 StableDrag-GAN 的更多拖拽示例。
方法介紹
如圖 1 所示,由於不精確的點跟蹤和不完整的動作監督,DragGAN 和 DragDiffusion 對影像的編輯質量不高。因此,在這項工作中,本文將注意力集中在當前的拖拽技術上,以實現更穩定和更精確的影像操作。
拖拽 pipeline 如圖 2 所示,包括判別點跟蹤模組( Discriminative PT )和置信動作監督模組( Confident MS )。
判別點跟蹤
本文提出了一種更具辨別力但簡單的點跟蹤演算法。在本文的設計中,點跟蹤模型構成卷積層的權重,並提供點分類得分作為輸出。具體來說,本文建議學習一個函式,其中 g 為卷積函式,為當前操縱點( handle point ) p_i 周圍的區域性 patch,z_i 為學習到的跟蹤模型。詳細流程如上圖 2 所示。
在此過程中,跟蹤點 p_i 的更新方式為:
跟蹤模型 z_i 是一個大小為 1 × C × 1 × 1 的卷積濾波器,其學習過程概述如圖 3 所示。本文使用 f_i 初始化 z_i 並在以下損失的監督下更新權重:
置信動作監督
本文提出了一種基於置信度的潛在增強策略,如圖 2 所示。首先,本文引入跟蹤得分最大值即 s_i,來表示當前的監督置信度,以及置信度分數在 step-1 產生增強策略的閾值。通常,當模型足夠自信地識別當前狀態時,本文會採用論文中等式(1)的原始動作監督。如果當前的置信度得分低於預定義的閾值,則採用初始模板進行監督。具體強化監督定義為:
實驗結果
研究者基於 PyTorch 實現了 StableDrag-GAN 和 StableDrag-Diff,實驗中使用了一塊英偉達 V100 GPU。
下圖 5 展示了 DragGAN 與 StableDrag-GAN、DragDiffusion 與 StableDrag-Diff、以及 FreeDrag-Diff 與 StableDrag-Diff 三組模型之間的定性比較。
可以看到,本文的 StableDrag 方法可以更精準地將操縱點移動到目標點,例如山峰、獅子下巴、小鹿額頭和燈泡。同時,StableDrag 可以生成更高質量和更高保真度的編輯結果,比如保持手提包、眼鏡、馬和兵馬俑的外觀。
研究者在 DragBench 基準上對 StableDrag 方法進行了定量評估,該基準包含 205 個具有預定義拖拽點和掩碼(mask)的樣本。
如下表 1 所示,在 3 種不同的最佳化步驟設定下,StableDrag-Diff 始終能夠最佳化 DragDiffusion。
這進一步表明:透過置信動作監督和判別式點跟蹤,StableDrag 可以在編輯準確性和內容一致性方面實現有潛力的結果。
除了定性和定量評估之外,為了驗證本文方法的有效性並展開深入分析,研究者透過「基於 GAN 和擴散模型的定性視覺化」以及「基於擴散模型的 DragBench 定量評估」,進行了詳細的消融實驗。
首先是置信動作監督。研究者首先進行了基於 StableDrag-GAN 的馬編輯實驗,如下圖 6 所示,隨著置信度得分逐漸降低,沒有置信度動作監督模組的 StableDrag 編輯的影像質量較低。
其次是判別點跟蹤。圖 7 和表 2 評估了 StableDrag 和沒有判別跟蹤模型的 StableDrag。我們可以看到,沒有判別跟蹤模型的 StableDrag 可能會受到背景干擾點的誤導,導致結果不準確。
最後是跟蹤模組的實用性。該研究提出的點跟蹤器在公式和實現上都很簡潔。如表 3 所示訓練跟蹤器(大約僅 1 秒)花費的時間遠少於拖拽過程。
更多技術細節和實驗結果請參閱原論文。