Deep Cross-Modal Audio-Visual Generation論文核心部分個人理解

宋霖軒發表於2019-02-12

這篇論文剛看的時候由於基礎薄弱,看的有點費勁,這裡做一個總結;

這篇文章主要研究的是跨模態之間的互相生產,初看的時候。。。覺得十分扯淡,內心吐槽這種方法也可以。。。

這篇文章講述的跨模態生成主要是在Audio和Visual之間,也就是影象和音訊之間的轉換,主要的研究載體就是改良過的GAN網路,也稱CMAV模型;

一、模型的主要介紹:

Deep Cross-Modal Audio-Visual Generation論文核心部分個人理解
該模型主要分為兩個網路,一個為Image-to-Sound網路,一個為Sound-to-Image網路; 我們逐個進行分析;

1.Image-to-Sound網路(也稱I2S):

Deep Cross-Modal Audio-Visual Generation論文核心部分個人理解
網路的大致流程就是:

先將演奏的圖片進行卷積,生成一個64尺寸的向量,然後和噪音z相連線;

之後使用反摺積,生成一張我們想要的LMS聲譜圖。

最後,將該LMS影象進行卷積,和先前的壓縮影象編碼拼接為一個向量,最後輸出;

這個網路是兩個網路中結構最簡單的,只需要注意圖片和聲音型別對應即可;

2.Sound-to-Image網路(也成S2I):

Deep Cross-Modal Audio-Visual Generation論文核心部分個人理解
其先對LMS聲譜影象進行卷積,然後進行噪音拼接,反摺積生成演奏圖片;

之後對生成的圖片再次卷積,然後和LMS的卷積向量進行合併,之後輸出;

二、損失函式: 對於該GAN網路來說,我們的判別器目標函式為:

Deep Cross-Modal Audio-Visual Generation論文核心部分個人理解
其中Sr為真實的影象和對應影象的演奏聲音的分數,Sw為錯誤的對應影象和對應影象聲音的分數,Sf為生成器生成的影象和對應影象聲音的分數;

可以看出,對於判別器的來說,基於GAN網路,我們的目標是讓判別器判別出生成網路生成的圖片為錯誤的圖片,因此,我們期望Sr=1,Sw=0,Sf=0,從而使得這個目標函式最大化;

而對於生成網路,其目標函式如下:

Deep Cross-Modal Audio-Visual Generation論文核心部分個人理解
其目的是Sf=1,對應到判別網路,也就是使得判別網路的對該生成圖片的判別為真;

以上就是論文的核心部分,實驗結果也不再贅述,論文裡有很多; 其實這個網路的結構融合了CGAN的結構,也就是通過向生成器G和判別器D內加入Y,從而使得無監督學習變為有監督學習,後續還會對這些進行更加深入的理解;

相關文章