拖拽P圖技術又升級了：StableDrag更穩、更準，南大、騰訊聯合打造

机器之心發表於2024-03-18

原文網址 : https://www.jiqizhixin.com/articles/2024-03-18-9

去年 5 月，動動滑鼠就能讓圖片變「活」得研究 DragGAN 吸引了 AI 圈的關注。透過拖拽，我們可以改變併合成自己想要的影像，比如下圖中讓一頭獅子轉頭並張嘴。

實現這一效果的研究出自華人一作領銜的「Drag Your GAN」論文，於上個月放出並已被 SIGGRAPH 2023 會議接收。相關的專案在 GitHub 上已經積累了 34.5k 的 Star 量。

專案地址：https://github.com/XingangPan/DragGAN

之後，新加坡國立大學和位元組跳動推出了類似的研究 ——DragDiffusion。他們利用大規模預訓練擴散模型，極大提升了基於點的互動式編輯在現實世界場景中的適用性。效果如下動圖所示：

儘管取得了很大的成功，但類似的拖拽方案存在兩個主要缺陷，即點跟蹤不準確和動作監督不完整，從而可能導致無法達到滿意的拖拽效果。

為了克服這些缺陷，南京大學、騰訊的幾位研究者提出了一種判別式點跟蹤方法並針對動作監督採用了基於置信的潛在增強策略，構建了一個更加穩定和精確的拖拽編輯框架 ——StableDrag。

其中判別式點跟蹤方法能夠精確地定位更新的操縱點，提高長程操縱穩定性；基於置信的潛在增強策略能夠在所有操縱步驟中，保證最佳化的潛在變數儘可能地高質量。

論文標題：StableDrag: Stable Dragging for Point-based Image Editing
論文地址：https://arxiv.org/pdf/2403.04437.pdf
專案地址：https://stabledrag.github.io/

得益於這些獨特的設計，研究者例項化了兩種型別的影像編輯模型：StableDrag-GAN 和 StableDrag-Diff。這兩個模型在 DragBench 上進行了廣泛的定性和定量評估，結果都顯示出更加穩定的拖拽效果。

從下面影片中，我們可以看到 StableDrag-GAN 的拖拽全過程。拖拽P圖技術又升級了：StableDrag更穩、更準，南大、騰訊聯合打造

如下為 StableDrag-GAN 的更多拖拽示例。

StableDrag-Diff 的拖拽示例如下所示。

方法介紹

如圖 1 所示，由於不精確的點跟蹤和不完整的動作監督，DragGAN 和 DragDiffusion 對影像的編輯質量不高。因此，在這項工作中，本文將注意力集中在當前的拖拽技術上，以實現更穩定和更精確的影像操作。

拖拽 pipeline 如圖 2 所示，包括判別點跟蹤模組（ Discriminative PT ）和置信動作監督模組（ Confident MS ）。

判別點跟蹤

本文提出了一種更具辨別力但簡單的點跟蹤演算法。在本文的設計中，點跟蹤模型構成卷積層的權重，並提供點分類得分作為輸出。具體來說，本文建議學習一個函式，其中 g 為卷積函式，為當前操縱點（ handle point ） p_i 周圍的區域性 patch，z_i 為學習到的跟蹤模型。詳細流程如上圖 2 所示。

在此過程中，跟蹤點 p_i 的更新方式為：

跟蹤模型 z_i 是一個大小為 1 × C × 1 × 1 的卷積濾波器，其學習過程概述如圖 3 所示。本文使用 f_i 初始化 z_i 並在以下損失的監督下更新權重:

置信動作監督

本文提出了一種基於置信度的潛在增強策略，如圖 2 所示。首先，本文引入跟蹤得分最大值即 s_i，來表示當前的監督置信度，以及置信度分數在 step-1 產生增強策略的閾值。通常，當模型足夠自信地識別當前狀態時，本文會採用論文中等式（1）的原始動作監督。如果當前的置信度得分低於預定義的閾值，則採用初始模板進行監督。具體強化監督定義為：

實驗結果

研究者基於 PyTorch 實現了 StableDrag-GAN 和 StableDrag-Diff，實驗中使用了一塊英偉達 V100 GPU。

下圖 5 展示了 DragGAN 與 StableDrag-GAN、DragDiffusion 與 StableDrag-Diff、以及 FreeDrag-Diff 與 StableDrag-Diff 三組模型之間的定性比較。

可以看到，本文的 StableDrag 方法可以更精準地將操縱點移動到目標點，例如山峰、獅子下巴、小鹿額頭和燈泡。同時，StableDrag 可以生成更高質量和更高保真度的編輯結果，比如保持手提包、眼鏡、馬和兵馬俑的外觀。

研究者在 DragBench 基準上對 StableDrag 方法進行了定量評估，該基準包含 205 個具有預定義拖拽點和掩碼（mask）的樣本。

如下表 1 所示，在 3 種不同的最佳化步驟設定下，StableDrag-Diff 始終能夠最佳化 DragDiffusion。

這進一步表明：透過置信動作監督和判別式點跟蹤，StableDrag 可以在編輯準確性和內容一致性方面實現有潛力的結果。

除了定性和定量評估之外，為了驗證本文方法的有效性並展開深入分析，研究者透過「基於 GAN 和擴散模型的定性視覺化」以及「基於擴散模型的 DragBench 定量評估」，進行了詳細的消融實驗。

首先是置信動作監督。研究者首先進行了基於 StableDrag-GAN 的馬編輯實驗，如下圖 6 所示，隨著置信度得分逐漸降低，沒有置信度動作監督模組的 StableDrag 編輯的影像質量較低。

其次是判別點跟蹤。圖 7 和表 2 評估了 StableDrag 和沒有判別跟蹤模型的 StableDrag。我們可以看到，沒有判別跟蹤模型的 StableDrag 可能會受到背景干擾點的誤導，導致結果不準確。

最後是跟蹤模組的實用性。該研究提出的點跟蹤器在公式和實現上都很簡潔。如表 3 所示訓練跟蹤器（大約僅 1 秒）花費的時間遠少於拖拽過程。

更多技術細節和實驗結果請參閱原論文。

更強、更穩、更高效：解讀 etcd 技術升級的三駕馬車
2019-12-05
分階段釋出，讓版本升級更平穩
2020-08-26
打造屬於機器人的觸覺感官，騰訊Robotics X實驗室做到了更快、更輕、更準
2022-12-01
機器人
騰訊升級租房補貼：北上廣深每月4000。大廠福利又捲起來了？
2021-10-18
OpenAI 聯合創始人回來了，還是總裁，將更專注重大技術挑戰
2024-11-13
OpenAI
Trickbot惡意軟體又又又升級了！
2021-02-03
騰訊萬億級 Elasticsearch 技術解密
2019-12-25
Elasticsearch解密
ClassIn：如何打造更穩定的Zabbix監控系統
2023-01-10
三更技術社群
2019-05-11
海量資料分析更快、更穩、更準。GaussDB(for MySQL) HTAP只讀分析特性詳解
2022-03-23
MySql
更真實色彩表現明基DCI-P3廣色域色準投影技術解讀
2019-01-14
快訊：IEEE802.3bt標準獲批 POE技術再升級!
2018-11-19
技術升級 & 行業升級，TiDB + 易車打造超級汽車狂歡節
2021-11-18
行業TiDB
IT行業更看重學歷還是更看重技術？
2021-09-08
行業
樂橙進行全面品牌升級，打造更懂使用者的智慧家居
2022-06-14
AI出圖更快、更美、更懂你心意，高美感文生圖模型修煉了哪些技術秘籍？
2024-08-12
AI模型
更貼近量身！Android 9 Pie追加了AI技術、量身打造功能
2018-12-12
AndroidAI
騰訊通停更後最佳升級方案：輕鬆應對2027信創國產化全面替代
2024-11-13
5G、物聯網等新技術加持，打造智慧物業管理“升級版”
2022-02-23
沒了超點，愛優騰日子更煎熬？
2021-10-19
WHALE來了，南大周志華團隊做出更強泛化的世界模型
2024-11-13
世界模型
麥粉社群首頁升級！更豐富的內容，更友好的體驗
2024-04-12
智慧農業物聯網技術助力打造高標準農田
2024-02-29
騰訊郭智：從技術角度打造3A級高品質《使命召喚手遊》
2019-05-15
亞洲誠信聯合又拍雲升級雲端SSL證書服務
2019-01-05
這樣用技術，程式猿更幸福
2020-06-19
深圳農商行升級核心系統打造分散式技術平臺
2021-01-21
分散式
廠商終於“懂”玩家了？騰訊SLG新遊玩法升級探索SLG競技2.0
2021-08-25
又升級了！EF Core 7.0 預覽版 4
2022-05-27
語音通知簡訊，讓訊息更及時、準確
2023-03-02
Android P 加密程式變更
2019-02-27
Android加密
S10火熱開賽，騰訊體育全面升級打造頂級電競盛宴
2020-09-27
書單來了！大廠的技術牛人在讀什麼：騰訊篇
2020-10-24
“雙十二”低碳家電更受青睞！看數字技術助力家電企業綠色升級
2021-12-10
打造又快又準的廣告分析系統
2020-04-04
自媒體選圖文還是視訊？哪個更適合新人？
2022-05-05
讓遊戲研發、發行、運營更簡單！騰訊遊戲雲全生命週期解決方案升級
2024-09-06
遊戲
人類對技術的依賴，是否會讓機器比人類更聰明？——資訊圖
2019-08-06

拖拽P圖技術又升級了：StableDrag更穩、更準，南大、騰訊聯合打造

相關文章