這裡給大家帶來一篇武大劉威威老師、南理工沈肖波老師和 UTS Ivor W. Tsang 老師合作的 2020 年多標籤最新的 Survey,我也有幸參與其中,負責了一部分工作。
論文連結:
https://arxiv.org/abs/2011.11197
上半年在知乎上看到有朋友諮詢多標籤學習是否有新的 Survey,我搜尋了一下,發現現有的多標籤 Survey 基本在 2014 年之前,主要有以下幾篇:
1. Tsoumakas 的《Multi-label classification: An overview》(2007)
2. 周志華老師的《A review on multi-label learning algorithms》(2013)
3. 一篇比較小眾的,Gibaja 《Multi‐label learning: a review of the state of the art and ongoing research》2014
時過境遷,從 2012 年起,AI 領域已經發生了翻天覆地的變化,Deep Learning 已經佔據絕對的主導地位,我們面對的問題越來越複雜,CV 和 NLP 朝著各自的方向前行。模型越來越強,我們面對的任務的也越來越複雜,其中,我們越來越多地需要考慮高度結構化的輸出空間。多標籤學習,作為一個傳統的機器學習任務,近年來也擁抱變化,有了新的研究趨勢。因此,我們整理了近年多標籤學習在各大會議的工作,希望能夠為研究者們提供更具前瞻性的思考。
關於單標籤學習和多標籤學習的區別,這裡簡單給個例子:傳統的圖片單標籤分類考慮識別一張圖片裡的一個物體,例如 ImageNet、CIFAR10 等都是如此,但其實圖片裡往往不會只有一個物體,大家隨手往自己的桌面拍一張照片,就會有多個物體,比如手機、電腦、筆、書籍等等。在這樣的情況下,單標籤學習的方法並不適用,因為輸出的標籤可能是結構化的、具有相關性的(比如鍵盤和滑鼠經常同時出現),所以我們需要探索更強的多標籤學習演算法來提升學習效能。
本文的主要內容有六大部分:
- Extreme Multi-Label Classification
- Multi-Label with Limited Supervision
- Deep Multi-Label Classification
- Online Multi-Label Classification
- Statistical Multi-Label Learning
- New Applications
接下去我們對這些部分進行簡單的介紹,更多細節大家也可以進一步閱讀 Survey 原文。另外,由於現在的論文迭代很快,我們無法完全 Cover 到每篇工作。我們的主旨是儘量保證收集的工作來自近年已發表和錄用的、高質量的期刊或會議,保證對當前工作的整體趨勢進行把握。如果讀者有任何想法和意見的話,也歡迎私信進行交流。
1. Extreme Multi-Label Learning (XML)
在文字分類,推薦系統,Wikipedia,Amazon 關鍵詞匹配 [1] 等等應用中,我們通常需要從非常巨大的標籤空間中召回標籤。比如,很多人會 po 自己的自拍到 FB、Ins 上,我們可能希望由此訓練一個分類器,自動識別誰出現在了某張圖片中。
對 XML 來說,首要的問題就是標籤空間、特徵空間都可能非常巨大,例如 Manik Varma 大佬的主頁中給出的一些資料集 [2],標籤空間的維度甚至遠高於特徵維度。其次,由於如此巨大的標籤空間,可能存在較多的 Missing Label(下文會進一步闡述)。最後,標籤存在長尾分佈 [3],絕大部分標籤僅僅有少量樣本關聯。
現有的 XML 方法大致可以分為三類,分別為:Embedding Methods、Tree-Based Methods、One-vs-All Methods。近年來,也有很多文獻使用了深度學習技術解決 XML 問題,不過我們將會在 Section 4 再進行闡述。XML 的研究熱潮大概從 2014 年開始,Varma 大佬搭建了 XML 的 Repository 後,已經有越來越多的研究者開始關注,多年來 XML 相關的文章理論和實驗結果並重,值得更多的關注。
2. Multi-Label with Limited Supervision
相比於傳統學習問題,對多標籤資料的標註十分困難,更大的標籤空間帶來的是更高的標註成本。隨著我們面對的問題越來越複雜,樣本維度、資料量、標籤維度都會影響標註的成本。因此,近年多標籤的另一個趨勢是開始關注如何在有限的監督下構建更好的學習模型。本文將這些相關的領域主要分為三類:
MLC with Missing Labels(MLML):多標籤問題中,標籤很可能是缺失的。例如,對 XML 問題來說,標註者根本不可能遍歷所有的標籤,因此標註者通常只會給出一個子集,而不是給出所有的監督資訊。文獻中解決該問題的技術主要有基於圖的方法、基於標籤空間(或 Latent 標籤空間)Low-Rank 的方法、基於機率圖模型的方法。
Semi-Supervised MLC:MLML 考慮的是標籤維度的難度,但是我們知道從深度學習需要更多的資料,在樣本量上,多標籤學習有著和傳統 AI 相同的困難。半監督 MLC 的研究開展較早,主要技術和 MLML 也相對接近,在這一節,我們首先簡要回顧了近年半監督 MLC 的一些最新工作。
但是,近年來,半監督 MLC 開始有了新的挑戰,不少文章開始結合半監督 MLC 和 MLML 問題。畢竟對於多標籤資料量來說,即使標註少量的 Full Supervised 資料,也是不可接受的。因此,許多文章開始研究一類弱監督多標籤問題 [4](Weakly-Supervised MLC,狹義),也就是資料集中可能混雜 Full labeled/missing labels/unlabeled data。我們也在文中重點介紹了現有的一些 WS-MLC 的工作。
Partial Multi-Label Learning (PML):PML 是近年來多標籤最新的方向,它考慮的是一類 “難以標註的問題”。比如,在我們標註下方的圖片(Zhang et. al. 2020[5])的時候,諸如 Tree、Lavender 這些標籤相對是比較簡單的。但是有些標籤到底有沒有,是比較難以確定的,對於某些標註者,可能出現:“這張圖片看起來是在法國拍的,好像也可能是義大利?”。這種情況稱之為 Ambiguous。究其原因,一是有些物體確實難以辨識,第二可能是標註者不夠專業(這種多標籤的情況,標註者不太熟悉一些事物也很正常)。
但是,很多情況下,標註者是大概能夠猜到正確標籤的範圍,比如這張風景圖所在國家,很可能就是 France 或者 Italy 中的一個。我們在不確定的情況下,可以選擇不標註、或者隨機標註。但是不標註意味著我們丟失了所有資訊,隨機標註意味著可能帶來噪聲,對學習的影響更大。所以 PML 選擇的是讓標註者提供所有可能的標籤,當然加了一個較強的假設:所有的標籤都應該被包含在候選標籤集中。
在 Survey 中,我們將現有的 PML 方法劃分為 Two-Stage Disambiguation 和 End-to-End 方法(我們 IJCAI 2019 的論文 DRAMA[6] 中,就使用了前者)。關於 PML 的更多探討,我在之前的知乎回答裡面也已經敘述過,大家也可以在我們的 Survey 中瞭解更多。
Other Settings:前文說過,多標籤學習的標籤空間紛繁複雜,因此很多研究者提出了各種各樣不同的學習問題,我們也簡單摘要了一些較為前沿的方向:
- MLC with Noisy Labels (Noisy-MLC).
- MLC with Unseen Labels. (Streaming Labels/Zero-Shot/Few-Shot Labels)
- Multi-Label Active Learning (MLAL).
- MLC with Multiple Instances (MIML).
3. Deep Learning for MLC
相信這一部分是大家比較關心的內容,隨著深度學習在越來越多的任務上展現了自己的統治力,多標籤學習當然也不能放過這塊香餑餑。不過,總體來說,多標籤深度學習的模型還沒有十分統一的框架,當前對 Deep MLC 的探索主要分為以下一些類別:
Deep Embedding Methods:早期的 Embedding 方法通常使用線性投影,將 PCA、Compressed Sensing 等方法引入多標籤學習問題。一個很自然的問題是,線性投影真的能夠很好地挖掘標籤之間的相關關係嗎?同時,在 SLEEC[3]的工作中也發現某些資料集並不符合 Low-Rank 假設。因此,在 2017 年的工作 C2AE [7] 中,Yeh 等將 Auto-Encoder 引入了多標籤學習中。由於其簡單易懂的架構,很快有許多工作 Follow 了該方法,如 DBPC [8] 等。
Deep Learning for Challenging MLC:深度神經網路強大的擬合能力使我們能夠有效地處理更多更困難的工作。因此我們發現近年的趨勢是在 CV、NLP 和 ML 幾大 Community,基本都會有不同的關注點,引入 DNN 解決 MLC 的問題,並根據各自的問題發展出自己的一條線。
1. XML 的應用:對這個方面的關注主要來自與資料探勘和 NLP 領域,其中比較值得一提的是 Attention(如 AttentionXML[9])機制、Transformer-Based Models(如 X-Transformer[10])成為了最前沿的工作。
2. 弱監督 MLC 的應用:這一部分和我們弱監督學習的部分相對交叉,特別的,CVPR 2019 的工作 [11] 探索了多種策略,在 Missing Labels 下訓練卷積神經網路。
3. DL for MLC with unseen labels:這一領域的發展令人興奮,今年 ICML 的工作 DSLL[12]探索了流標籤學習,也有許多工作 [13] 將 Zero-Shot Learning 的架構引入 MLC。
Advanced Deep Learning for MLC:有幾個方向的工作同樣值得一提。首先是 CNN-RNN[14]架構的工作,近年有一個趨勢是探索 Orderfree 的解碼器 [15]。除此之外,爆火的圖神經網路 GNN 同樣被引入 MLC,ML-GCN[16] 也是備受關注。特別的,SSGRL[17]是我比較喜歡的一篇工作,結合了 Attention 機制和 GNN,motivation 比較強,效果也很不錯。
總結一下,現在的 Deep MLC 呈現不同領域關注點和解決的問題不同的趨勢:
- 從架構上看,基於 Embedding、CNN-RNN、CNN-GNN 的三種架構受到較多的關注。
- 從任務上,在 XML、弱監督、零樣本的問題上,DNN 大展拳腳。
- 從技術上,Attention、Transformer、GNN 在 MLC 上的應用可能會越來越多。
4. Online Multi-Label Learning
面對當前這麼複雜而眾多的學習問題,傳統的全資料學習的方式已經很難滿足我們現實應用的需求了。因此,我們認為 Online Multi-Label Learning 可能是一個十分重要,也更艱鉅的問題。當前 Off-line 的 MLC 模型一般假設所有資料都能夠提前獲得,然而在很多應用中,或者對大規模的資料,很難直接進行全量資料的使用。一個樸素的想法自然是使用 Online 模型,也就是訓練資料序列地到達,並且僅出現一次。
然而,面對這樣的資料,如何有效地挖掘多標籤相關性呢?本篇 Survey 介紹了一些已有的線上多標籤學習的方法,如 OUC[18]、CS-DPP[19]等。在弱監督學習的部分,我們也回顧了近年一些線上弱監督多標籤的文章[20](線上弱監督學習一直是一個很困難的問題)。Online MLC 的工作不多,但是已經受到了越來越多的關注,想要設計高效的學習演算法並不簡單,希望未來能夠有更多研究者對這個問題進行探索。
5. Statistical Multi-Label Learning
近年,儘管深度學習更強勢,但傳統的機器學習理論也在穩步發展,然而,多標籤學習的許多統計性質並沒有得到很好的理解。近年 NIPS、ICML 的許多文章都有探索多標籤的相關性質。一些值得一提的工作例如,缺失標籤下的低秩分類器的泛化誤差分析 [21]、多標籤代理損失的相合性質[22]、稀疏多標籤學習的 Oracle 性質[23] 等等。相信在未來,會有更多工作探索多標籤學習的理論性質。
6. New Applications
講了這麼多方法論,但追溯其本源,這麼多紛繁複雜的問題依然是由任務驅動的,正是有許許多多現實世界的應用,要求我們設計不同的模型來解決尺度更大、監督更弱、效果更強、速度更快、理論性質更強的 MLC 模型。因此,在文章的最後一部分,我們介紹了近年多標籤領域一些最新的應用,如 Video Annotation、Green Computing and 5G Applications、User Profiling 等。在 CV 方向,一個趨勢是大家開始探索多標籤領域在影片中的應用 [24]。在 DM 領域,使用者畫像受到更多關注,在我們今年的工作 CMLP[25] 中(下圖),就探索了對刷單使用者進行多種刷單行為的分析。不過,在 NLP 領域,似乎大家還是主要以文字分類為主,XML-Repo[2]中的應用還有較多探索的空間,所以我們沒有花額外的筆墨。
總結
寫這篇文章的過程中,我跟著幾位老師閱讀了很多文章,各個領域和方向的工作都整理了不少,儘管無法 cover 到所有工作,但是我們儘可能地把握了一些較為重要的探索的方向,也在文中較為謹慎地給出了一些我們的思考和建議,希望能夠給想要了解多標籤學習領域的研究者一點引領和思考。
參考
- Chang W C, Yu H F, Zhong K, et al. Taming Pretrained Transformers for Extreme Multi-label Text Classification[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 3163-3171.
- http://manikvarma.org/downloads/XC/XMLRepository.html
- Bhatia K, Jain H, Kar P, et al. Sparse local embeddings for extreme multi-label classification[C]//Advances in neural information processing systems. 2015: 730-738.
- Chu H M, Yeh C K, Frank Wang Y C. Deep generative models for weakly-supervised multi-label classification[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 400-415.
- Zhang M L, Fang J P. Partial multi-label learning via credible label elicitation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020.
- Wang H, Liu W, Zhao Y, et al. Discriminative and Correlative Partial Multi-Label Learning[C]//IJCAI. 2019: 3691-3697.
- C. Yeh, W. Wu, W. Ko, and Y. F. Wang, “Learning deep latent space for multi-label classification,” in AAAI, 2017, pp. 2838–2844.
- X. Shen, W. Liu, Y. Luo, Y. Ong, and I. W. Tsang, “Deep discrete prototype multilabel learning,” in IJCAI, 2018, pp. 2675–2681.
- You R, Zhang Z, Wang Z, et al. Attentionxml: Label tree-based attention-aware deep model for high-performance extreme multi-label text classification[C]//Advances in Neural Information Processing Systems. 2019: 5820-5830.
- Chang W C, Yu H F, Zhong K, et al. Taming Pretrained Transformers for Extreme Multi-label Text Classification[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 3163-3171.
- Durand T, Mehrasa N, Mori G. Learning a deep convnet for multi-label classification with partial labels[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 647-657.
- Z. Wang, L. Liu, and D. Tao, “Deep streaming label learning,” in ICML, 2020.
- C. Lee, W. Fang, C. Yeh, and Y. F. Wang, “Multi-label zero-shot learning with structured knowledge graphs,” in CVPR, 2018, pp. 1576–1585.
- Wang J, Yang Y, Mao J, et al. Cnn-rnn: A unified framework for multi-label image classification[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 2285-2294.
- Yazici V O, Gonzalez-Garcia A, Ramisa A, et al. Orderless Recurrent Models for Multi-label Classification[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 13440-13449.
- Chen Z M, Wei X S, Wang P, et al. Multi-label image recognition with graph convolutional networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 5177-5186.
- T. Chen, M. Xu, X. Hui, H. Wu, and L. Lin, “Learning semanticspecific graph representation for multi-label image recognition,” in ICCV, 2019, pp. 522–531.
- M. J. Er, R. Venkatesan, and N. Wang, “An online universal classifier for binary, multi-class and multi-label classification,” in IEEE International Conference on Systems, Man, and Cybernetics, 2016, pp. 3701–3706.
- H. Chu, K. Huang, and H. Lin, “Dynamic principal projection for cost-sensitive online multi-label classification,” Machine Learning, vol. 108, no. 8-9, pp. 1193–1230, 2019.
- S. Boulbazine, G. Cabanes, B. Matei, and Y. Bennani, “Online semi-supervised growing neural gas for multi-label data classification,” in IJCNN, 2018, pp. 1–8.
- H. Yu, P. Jain, P. Kar, and I. S. Dhillon, “Large-scale multilabel learning with missing labels,” in Proceedings of the 31th International Conference on Machine Learning, ICML 2014, Beijing, China, 21-26 June 2014, 2014, pp. 593–601.
- W. Gao and Z. Zhou, “On the consistency of multi-label learning,” Artificial Intelligence, vol. 199-200, pp. 22–44, 2013.
- W. Liu and X. Shen, “Sparse extreme multi-label learning with oracle property,” in ICML, 2019, pp. 4032–4041.
- X. Zhang, H. Shi, C. Li, and P. Li, “Multi-instance multi-label action recognition and localization based on spatio-temporal pretrimming for untrimmed videos,” in AAAI. AAAI Press, 2020, pp. 12 886–12 893.
- H. Wang, Z. Li, J. Huang, P. Hui, W. Liu, T. Hu, and G. Chen, “Collaboration based multi-label propagation for fraud detection,” in IJCAI, 2020.
Powered by Froala Editor
Powered by Froala Editor