這篇論文剛看的時候由於基礎薄弱,看的有點費勁,這裡做一個總結;
這篇文章主要研究的是跨模態之間的互相生產,初看的時候。。。覺得十分扯淡,內心吐槽這種方法也可以。。。
這篇文章講述的跨模態生成主要是在Audio和Visual之間,也就是影像和音訊之間的轉換,主要的研究載體就是改良過的GAN網路,也稱CMAV模型;
一、模型的主要介紹:
該模型主要分為兩個網路,一個為Image-to-Sound網路,一個為Sound-to-Image網路; 我們逐個進行分析;1.Image-to-Sound網路(也稱I2S):
網路的大致流程就是:先將演奏的圖片進行卷積,生成一個64尺寸的向量,然後和噪音z相連線;
之後使用反摺積,生成一張我們想要的LMS聲譜圖。
最後,將該LMS影像進行卷積,和先前的壓縮影像編碼拼接為一個向量,最後輸出;
這個網路是兩個網路中結構最簡單的,只需要注意圖片和聲音型別對應即可;
2.Sound-to-Image網路(也成S2I):
其先對LMS聲譜影像進行卷積,然後進行噪音拼接,反摺積生成演奏圖片;之後對生成的圖片再次卷積,然後和LMS的卷積向量進行合併,之後輸出;
二、損失函式: 對於該GAN網路來說,我們的判別器目標函式為:
其中Sr為真實的影像和對應影像的演奏聲音的分數,Sw為錯誤的對應影像和對應影像聲音的分數,Sf為生成器生成的影像和對應影像聲音的分數;可以看出,對於判別器的來說,基於GAN網路,我們的目標是讓判別器判別出生成網路生成的圖片為錯誤的圖片,因此,我們期望Sr=1,Sw=0,Sf=0,從而使得這個目標函式最大化;
而對於生成網路,其目標函式如下:
其目的是Sf=1,對應到判別網路,也就是使得判別網路的對該生成圖片的判別為真;以上就是論文的核心部分,實驗結果也不再贅述,論文裡有很多; 其實這個網路的結構融合了CGAN的結構,也就是通過向生成器G和判別器D內加入Y,從而使得無監督學習變為有監督學習,後續還會對這些進行更加深入的理解;