DAAM:首次利用視覺語言學解釋大型擴散模型

Zilliz發表於2023-02-14

出品人:Towhee 技術團隊 張晨、顧夢佳

大規模擴散神經網路代表了文字到影像生成的一個重要里程碑,但它們仍然缺乏可解釋性分析。DAAM 對最近開源的模型 Stable Diffusion 進行了文字-影像歸因分析。為了生成畫素級屬性圖,DAAM 在去噪子網路中放大和聚合交叉注意力字畫素分數。透過歸因分析,DAAM 主要研究瞭如何將語法關係轉化為視覺互動,並關注了擴散模型中的視覺語言現象。透過定量語義分割任務和定性廣義歸因研究,證明了歸因方法 DAAM 的正確性。DAAM 是第一個從視覺語言學的角度解釋大型擴散模型,這使得未來的研究成為可能。

The original synthesized image and three DAAM maps for “monkey,” “hat,” and “walking,” from the prompt, “monkey with hat walking.”

DAAM 在 Stable Diffusion 去噪逆擴散過程中選擇了稍微靠後的步驟,進行可解釋性研究。常規的歸因分析透過梯度進行計算,但在擴散模型中無法進行梯度計算,因此 DAAM 選用詞彙和特徵圖的得分的方式進行分析。透過評估句法關係如何轉化為視覺互動,DAAM 發現某些注意力頭不恰當地包含了他們的從屬。因為,DAAM 得到了特徵糾纏的假設,表明同位詞是混亂的,而形容詞的範圍太廣了。

相關資料:
程式碼地址:https://github.com/castorini/...
論文連結:What the DAAM: Interpreting Stable Diffusion Using Cross Attention
更多資料:https://blog.csdn.net/qq_4245...

相關文章