IJCAI 2019 | 整合多類資訊,阿里文娛提出多檢視多標記演算法SIMM

AIBigbull2050發表於2019-08-23

IJCAI 2019 將於 8 月 10 日至 16 日在中國澳門隆重召開,本屆大會共收到 4752 篇有效提交論文,收錄 850 篇,接收率為 17.9%。據機器之心瞭解,阿里文娛摩酷實驗室共有 5 篇論文被接收。

本文對其中一篇論文《Multi-View Multi-Label Learning with View-Specific Information Extraction》進行解讀。該論文由東南大學、阿里巴巴集團優酷人工智慧平臺合作完成,旨在利用檢視私有資訊對示例的標記進行預測。

IJCAI 2019 | 整合多類資訊,阿里文娛提出多檢視多標記演算法SIMM


連結:http://palm.seu.edu.cn/zhangml/files/IJCAI'19.pdf

一、研究動機

在真實世界中,存在許多物件兼具多樣性的描述與豐富的語義資訊。例如,對圖 1(a) 的風景圖片,可以通過 HSV 色彩直方圖、全域性特徵 Gist、尺度不變特徵 SIFT 等方式進行表徵,同時可以被打上 {雪景,亭子,湖} 等標記。又例如,對圖 1(b) 中的劇集《長安十二時辰》進行標註時,通常可以通過多種資訊源進行表徵,如標題、音訊、封面圖、視訊幀等,同時該視訊可以被打上 {長安,易烊千璽,雷佳音,古裝劇} 等標記。


IJCAI 2019 | 整合多類資訊,阿里文娛提出多檢視多標記演算法SIMM

在此場景下,若使用傳統的多標記學習演算法,在特徵空間需對多樣的表徵資訊進行合併。方式一是將多個特徵向量進行對應位相加,然而各特徵向量的維度可能不完全相同,無法直接操作;方式二是將不同種表徵資訊進行拼接,但是這樣會導致特徵維度過高,當樣本數量不足時,容易帶來過擬合的問題,影響最終的訓練效果。因此,在此場景下進行學習的關鍵,是如何對種類多樣的資訊(多樣表徵資訊與多個標註資訊)進行有效整合,多檢視多標記學習(Multi-view multi-label learning)是一種常用的解決此類問題的框架。

現有方法均試圖挖掘所有檢視間的共享資訊,然而當他們試圖挖掘所有檢視的共享資訊來消除噪聲和冗餘時,通常的做法是將各個檢視不同維度的特徵向量對映到一個共享子空間,但是各檢視特徵向量的對映矩陣是互不相同的,也就是說各檢視的對映過程是完全獨立的,在此情況下,檢視之間缺少交流,很難保證挖掘到的是真正的共享資訊。同時,現有方法在進行多標記預測時,各個檢視的私有貢獻被直接忽略。

舉例來講,一張畫著粉色玫瑰的圖片被打上了 { 粉色,花 } 的標記,同時它通過 HSV 和 Gist 兩種方式進行表徵,我們可以很容易發現標記與表徵之間的關聯,即 { 粉色 } 是通過 HSV 描述所得到的標 記,{ 花 } 是通過 Gist 描述得到的,然而現有的方法通常是希望挖掘 HSV 和 Gist 所描述的公共資訊,而忽略了不同表徵對標記的私有貢獻。顯然,在這一例子中,保留檢視的私有資訊要比挖掘其公共資訊更加符合直觀。

基於以上兩點考慮,本文作者提出基於檢視私有資訊挖掘的多檢視多標記演算法 SIMM(view-Specific Information extraction for Multi-view Multi-label learning),同時進行共享子空間挖掘與檢視私有資訊提取。

二、方法

作者認為,檢視提供的資訊分為兩個方面:共享和私有。SIMM 演算法分為兩個步驟:共享子空間挖掘 (Shared Subspace Exploitation) 與檢視私有資訊提取 (View-Specific Information Extraction)。SIMM 演算法通過神經網路框架來實現兩個關鍵步驟,整體損失函式:

IJCAI 2019 | 整合多類資訊,阿里文娛提出多檢視多標記演算法SIMM

其中,L_ml 為多標記損失,控制最終模型的標記輸出。在該論文中,使用「一階」策略進行計算:

IJCAI 2019 | 整合多類資訊,阿里文娛提出多檢視多標記演算法SIMM

2.1 共享子空間挖掘

受文獻 [1] 啟發,SIMM 通過最小化一個對抗損失 L_adv 來混淆檢視到共享子空間的對映過程,希望迷惑判別器 D,使其無法判斷輸入的共享子空間表徵來自於哪一個檢視。

令 c^v 表示第 v 個檢視特徵 x^v 的共享子空間表徵向量,由共享子空間提取層 H 提取得到。文中引入檢視標記向量 z_i,僅 z^v_i 為 1,表示 c^v_i 來自於第 v 個檢視。令 hat(z) 為判別器預測的檢視標記向量,對抗損失 L_adv 表示為:


IJCAI 2019 | 整合多類資訊,阿里文娛提出多檢視多標記演算法SIMM

F 需選擇一個單調遞減函式,通過這種設定,作者希望迷糊判別器,無法判斷輸入的共享子空間表達來自於哪一個檢視,當判別器無法分辨時,可以認為輸入的特徵向量不含判別性的私有資訊,表明 c^v 中僅包含共享資訊。

然而,僅利用 L_adv 可能會帶來一些問題:單純的噪聲不含任何資訊,但也極有可能迷惑判別器,但噪聲不能表示包含共享資訊的表徵向量。因此,作者額外增加了共享子空間多標記損失 L_sml 保證 c^v 具有語義:

IJCAI 2019 | 整合多類資訊,阿里文娛提出多檢視多標記演算法SIMM

在 SIMM 演算法中,共享子空間的挖掘不再只是各個檢視獨立進行,H 和 D 在訓練中可以接觸到來自所有檢視的特徵向量,增加了檢視間的互動過程,共享子空間挖掘的整體損失表示為:

IJCAI 2019 | 整合多類資訊,阿里文娛提出多檢視多標記演算法SIMM

2.2 檢視私有特徵提取

直觀上,什麼是檢視私有資訊,似乎無法被直接明確的定義,本文作者選擇的方式是,將公共資訊從原始資訊中剝離,並認為保留下來的部分為檢視私有資訊。這一想法在文中通過約束正交損失實現,s^v 表示由私有資訊提取層 E^v 提取得到的 l 維特徵向量,c 表示包含所有檢視公共資訊的 l 維特徵向量,由 c^v 相加得到。私有資訊提取損失 L_specific 約束 s^v 和 c 間的正交性:

IJCAI 2019 | 整合多類資訊,阿里文娛提出多檢視多標記演算法SIMM

L_specific 希望從原始特徵 x^v 中提取出的 s^v 和 c 相差越大越好。

2.3 模型整體框架

IJCAI 2019 | 整合多類資訊,阿里文娛提出多檢視多標記演算法SIMM

圖 2

模型整體框架圖如圖 2 所示,在訓練階段,同時優化各模組引數,測試階段,給定未見示例 x^*,模型預測輸出結果由下式得到:


IJCAI 2019 | 整合多類資訊,阿里文娛提出多檢視多標記演算法SIMM

三、實驗

在實驗部分,論文中 共選取了 8 個多檢視多標記資料集,包括 6 個基準資料集和 Youku 視訊標註資料集:

IJCAI 2019 | 整合多類資訊,阿里文娛提出多檢視多標記演算法SIMM

6 個對比演算法包括:2 個與 SIMM 相關的基準演算法、2 種不同輸入的多標記演算法 ML-kNN 和 2 個多檢視多標記演算法 F2L21F、LSAMML。實驗指標選擇 6 種被廣泛使用的多標記評價指標 Hamming Loss、Average Precision、One Error、Coverage、Micro-F1,對 Average Precision 和 Micro-F1 來說,結果越大越好,對其他 4 個指標來說,結果越小越好,在每個資料集上,均採用十折交叉驗證計算各指標均值與標準差。結果如下:

IJCAI 2019 | 整合多類資訊,阿里文娛提出多檢視多標記演算法SIMM

加粗部分為 SIMM 演算法在該指標下優於對比演算法的情況,SIMM 演算法在 87.5% 的情況下排名第一,在 10.4% 的情況下排名第二。

同時,在文中為分析 L_shared 和 L_specific 的作用,作者保留論文結構,將平衡引數 alpha 和 beta 置為 0。圖 3 中結果顯示,在 Pascal 和 Youku15w 資料集下,無損失約束時,效能要劣於 SIMM 演算法,說明 SIMM 在一定程度上幫助分離各檢視的共享和私有資訊。

IJCAI 2019 | 整合多類資訊,阿里文娛提出多檢視多標記演算法SIMM

圖 3

四、總結

該論文提出了一種多檢視多標記學習演算法 SIMM,首先 SIMM 同時優化一個混淆的對抗損失與多標記損失來提取檢視間的共享資訊,其次加入正交約束,利用檢視私有的判別資訊,最終通過共享和私有資訊的協同作用,進行語義學習。在 8 個資料集、6 個對比演算法、6 種評價指標上的對比實驗,可以觀察到 SIMM 演算法較自身基準模型、傳統多標記演算法、多檢視多標記演算法均有明顯提升。

相關文獻:

[1] Liu, Pengfei, Qiu, Xipeng, and Huang, Xuanjing. Adversarial Multi-task Learning for Text Classification[C]. In: Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouver, Canada, 2017. 1–10.

[2] Min-Ling Zhang and Zhi-Hua Zhou. ML-kNN: A lazy learning approach to multi-label learning. Pattern recognition, 40(7):2038–2048, 2007.

[3] Min-Ling Zhang and Zhi-Hua Zhou. A review on multi-label learning algorithms. IEEE transactions on knowledge and data engineering, 26(8):1819–1837, 2014.

[4] Xiaofeng Zhu, Xuelong Li, and Shichao Zhang. Block-row sparse multiview multilabel learning for image classification. IEEE transactions on cybernetics, 46(2):450–461, 2016.

[5] Changqing Zhang, Ziwei Yu, Qinghua Hu, Pengfei Zhu, Xinwang Liu, and Xiaobo Wang. Latent semantic aware multi-view multi-label classification. In Proceedings of the 32nd AAAI Conference on Artificial Intelligence, New Orleans, LA,4414–4421, 2018.

https://www.toutiao.com/i6723100971238425101/

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2654715/,如需轉載,請註明出處,否則將追究法律責任。

相關文章