AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
人物互動影像生成指生成滿足文字描述需求,內容為人與物體互動的影像,並要求影像儘可能真實且符合語義。近年來,文字生成影像模型在生成真實影像方面取得出了顯著的進展,但這些模型在生成以人物互動為主體內容的高保真影像生成方面仍然面臨挑戰。其困難主要源於兩個方面:一是人體姿勢的複雜性和多樣性給合理的人物生成帶來挑戰;二是互動邊界區域(互動語義豐富區域)不可靠的生成可能導致人物互動語義表達的不足。
針對上述問題,來自北京大學的研究團隊提出了一種姿勢和互動感知的人物互動影像生成框架(SA-HOI), 利用人體姿勢的生成質量和互動邊界區域資訊作為去噪過程的指導,生成了更合理,更真實的人物互動影像。為了全面測評生成影像的質量,他們還提出了一個全面的人物互動影像生成基準。
論文連結:https://proceedings.mlr.press/v235/xu24e.html
專案主頁:https://sites.google.com/view/sa-hoi/
原始碼連結:https://github.com/XZPKU/SA-HOI
實驗室主頁:http://www.wict.pku.edu.cn/mipl
SA-HOI 是一種語義感知的人物互動影像生成方法,從人體姿態和互動語義兩方面提升人物互動影像生成的整體質量並減少存在的生成問題。透過結合影像反演的方法,生成了迭代式反演和影像修正流程,可以使生成影像逐步自我修正,提升質量。
研究團隊在論文中還提出了第一個涵蓋人 - 物體、人 - 動物和人 - 人互動的人物互動影像生成基準,併為人物互動影像生成設計了針對性的評估指標。大量實驗表明,該方法在針對人物互動影像生成的評估指標和常規影像生成的評估指標下均優於現有的基於擴散的影像生成方法。
方法介紹
圖 1:語義感知的人物互動影像生成方法框架圖
論文中提出的方法如圖 1 所示,主要由兩個設計組成:姿態和互動指導(Pose and Interaction Guidance, PIG)和迭代反演和修正流程(Iterative Inversion and Refinement Pipeline, IIR)。
在 PIG 中,對於給定的人物互動文字描述和噪聲,首先使用穩定擴散模型(Stable Diffusion [2])生成作為初始影像,並使用姿態檢測器 [3] 獲取人類體關節位置 和相應的置信分數 , 構建姿態掩碼 高亮低質量姿態區域。
對於互動指導,利用分割模型定位互動邊界區域,得到關鍵點和相應的置信分數, 並在互動掩碼中高亮互動區域,以增強互動邊界的語義表達。對於每個去噪步驟, 和 作為約束來對這些高亮的區域進行修正,從而減少這些區域中存在的生成問題。此外, IIR 結合影像反演模型 N,從需要進一步修正的影像中提取噪聲 n 和文字描述的嵌入 t,然後使用 PIG 對該影像進行下一次修正,利用質量評估器 Q 對修正後的影像質量進行評估,以 < 反饋、評估、修正 > 的操作來逐步提高影像質量。
姿態和互動指導
圖 2:姿勢和互動指導取樣虛擬碼
姿勢和互動引導取樣的虛擬碼如圖 2 所示,在每個去噪步驟中,我們首先按照穩定擴散模型(Stable Diffusion)中的設計獲取預測的噪聲 ϵt 和中間重構 。然後我們在 上應用高斯模糊 G 來獲得退化的潛在特徵 和 ,隨後將對應潛在特徵中的資訊引入去噪過程中。
和 被用於生成 和,並在 和 中突出低姿勢質量區域,指導模型減少這些區域的畸變生成。為了指導模型改進低質量區域,將透過如下公式來高亮低姿勢得分割槽域:
其中 ,x、y 是影像的逐畫素座標,H,W 是影像大小,σ 是高斯分佈的方差。 表示以第 i 個關節為中心的注意力,透過結合所有關節的注意力,我們可以形成最終的注意力圖,並使用閾值將 轉換為一個掩碼 。
其中 ϕt 是在時間步 t 生成掩碼的閾值。類似地,對於互動指導,論文作者利用分割模型得到物體的外輪廓點 O 以及人體關節點 C,計算人與物體之間的距離矩陣 D,從中取樣得到互動邊界的關鍵點 ,利用和姿勢指導相同的方法生成互動注意力 與掩碼 ,並應用於計算最終的預測噪聲。
迭代式反演和影像修正流程
為了實時獲取生成影像的質量評估,論文作者引入質量評估器 Q,用於作為迭代式 < 評估 + 修正 > 操作的指導。對於第 k 輪的影像 ,採用評估器 Q 獲取其質量分數 ,然後基於 生成。為了在最佳化後保留 的主要內容,需要相應的噪聲作為去噪的初始值。
然而,這樣的噪聲不是現成可得的,為此引入影像反演方法來獲取其噪聲潛在特徵 和文字嵌入,作為 PIG 的輸入,生成最佳化後的結果。
透過比較前後迭代輪次中的質量分數,可以判斷是否要繼續進行最佳化:當和 之間沒有顯著差異,即低於閾值 θ,可以認為該流程可能已經對影像做出了充足的修正,因此結束最佳化並輸出質量分數最高的影像。
人物互動影像生成基準
圖 3:人物互動影像生成基準(資料集 + 測評指標)
考慮到沒有針對人物互動影像生成任務設計的現有模型和基準,論文作者收集並整合了一個人物互動影像生成基準,包括一個含有 150 個人物互動類別的真實人物互動影像資料集,以及若干為人物互動影像生成定製的測評指標。
該資料集從開源人物互動檢測資料集 HICO-DET [5] 中篩選得到 150 個人物互動類別,涵蓋了人 - 物體、人 - 動物和人 - 人三種不同互動場景。共計收集了 5k 人物互動真實影像作為該論文的參考資料集,用於評估生成人物互動影像的質量。
為了更好地評估生成的人物互動影像質量,論文作者為人物互動生成量身定製了幾個測評標準,從可靠性 (Authenticity)、可行性 (Plausibility) 和保真度 (Fidelity) 的角度全面評估生成影像。可靠性上,論文作者引入姿勢分佈距離和人 - 物體距離分佈,評估生成結果和真實影像是否接近:生成結果在分佈意義上越接近真實影像,就說明質量越好。可行性上,採用計算姿勢置信度分數來衡量生成人體關節的可信度和合理性。保真度上,採用人物互動檢測任務,以及圖文檢索任務評估生成影像與輸入文字之間的語義一致性。
實驗結果
與現有方法的對比實驗結果如表 1 和表 2 所示,分別對比了人物互動影像生成指標和常規影像生成指標上的效能。
表 1:與現有方法在人物互動影像生成指標的對比實驗結果
表 2:與現有方法在常規影像生成指標的對比實驗結果
實驗結果表明,該論文中的方法在人體生成質量,互動語義表達,人物互動距離,人體姿態分佈,整體影像質量等多個維度的測評上都優於現有模型。
此外,論文作者還進行了主觀評測,邀請眾多使用者從人體質量,物體外觀,互動語義和整體質量等多個角度進行評分,實驗結果證明 SA-HOI 的方法在各個角度都更符合人類審美。
表 3:與現有方法的主觀評測結果
定性實驗上,下圖展示了不同方法對同一個人物互動類別描述生成結果的對比。在上方的組圖中,採用了新方法的模型準確表達了 “親吻” 的語義,並且生成的人體姿勢也更合理。在下方的組圖中,論文中的方法也成功緩解了其他方法中存在的人體扭曲和畸變,並且透過在手與手提箱互動的區域生成手提箱的拉桿來增強 “拿手提箱” 這個互動的語義表達,從而得到在人體姿態和互動語義兩方面都優於其他方法的結果。
圖 4:人物互動影像生成結果視覺化
更多研究細節,可參考原論文。
參考文獻:
[1] Rombach, R., Blattmann, A., Lorenz, D., Esser, P., and Ommer, B. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF
Conference on Computer Vision and Pattern Recognition (CVPR), pp. 10684–10695, June 2022
[2] HuggingFace, 2022. URL https://huggingface.co/CompVis/stable-diffusion-v1-4.
[3] Chen, K., Wang, J., Pang, J., Cao, Y., Xiong, Y., Li, X., Sun, S., Feng, W., Liu, Z., Xu, J., Zhang, Z., Cheng, D., Zhu, C., Cheng, T., Zhao, Q., Li, B., Lu, X., Zhu, R., Wu, Y., Dai, J., Wang, J., Shi, J., Ouyang, W., Loy, C. C., and Lin, D. MMDetection: Open mmlab detection toolbox and benchmark. arXiv preprint arXiv:1906.07155, 2019.
[4] Ron Mokady, Amir Hertz, Kfir Aberman, Yael Pritch, and Daniel Cohen-Or. Null-
text inversion for editing real images using guided diffusion models. arXiv preprint
arXiv:2211.09794, 2022.
[5] Yu-Wei Chao, Zhan Wang, Yugeng He, Jiaxuan Wang, and Jia Deng. HICO: A benchmark for recognizing human-object interactions in images. In Proceedings of the IEEE International Conference on Computer Vision, 2015.