這篇論文剛看的時候由於基礎薄弱,看的有點費勁,這裡做一個總結;
這篇文章主要研究的是跨模態之間的互相生產,初看的時候。。。覺得十分扯淡,內心吐槽這種方法也可以。。。
這篇文章講述的跨模態生成主要是在Audio和Visual之間,也就是影象和音訊之間的轉換,主要的研究載體就是改良過的GAN網路,也稱CMAV模型;
一、模型的主要介紹:

1.Image-to-Sound網路(也稱I2S):

先將演奏的圖片進行卷積,生成一個64尺寸的向量,然後和噪音z相連線;
之後使用反摺積,生成一張我們想要的LMS聲譜圖。
最後,將該LMS影象進行卷積,和先前的壓縮影象編碼拼接為一個向量,最後輸出;
這個網路是兩個網路中結構最簡單的,只需要注意圖片和聲音型別對應即可;
2.Sound-to-Image網路(也成S2I):

之後對生成的圖片再次卷積,然後和LMS的卷積向量進行合併,之後輸出;
二、損失函式: 對於該GAN網路來說,我們的判別器目標函式為:

可以看出,對於判別器的來說,基於GAN網路,我們的目標是讓判別器判別出生成網路生成的圖片為錯誤的圖片,因此,我們期望Sr=1,Sw=0,Sf=0,從而使得這個目標函式最大化;
而對於生成網路,其目標函式如下:

以上就是論文的核心部分,實驗結果也不再贅述,論文裡有很多; 其實這個網路的結構融合了CGAN的結構,也就是通過向生成器G和判別器D內加入Y,從而使得無監督學習變為有監督學習,後續還會對這些進行更加深入的理解;