但由於需要收集分析的資料量急劇增加,從大量資料中手動提取有用的知識變得非常困難和不可能,因此需要利用自然語言處理(NLP)和資料探勘(Data Mining)技術來幫助企業挖掘和發現有用的知識。
為了讓機器快速學習,對溝通資料(電話錄音、線上IM溝通記錄)進行標註是必不可少的一步。但是,資料標註需要昂貴的人工或各種成本,面對海量的非結構化資料,如何經濟又準確地進行標註是一個的棘手問題。
主動學習模型的分類
基於流的主動學習,它將未標記的資料一次性全部呈現給一個預測模型,該模型將預測結果(例項的機率值),根據某些評價指標(比如margin)計算評估例項的價值,隨後應用主動學習決定是否應該花費一些預算來收集此資料的類標籤,以進行後續的訓練; 基於池的主動學習,這個通常是離線、反覆的過程。這裡向主動學習系統提供了大量未標記的資料,在此過程的每個迭代週期,主動學習系統都會選擇一個或者多個未標記資料進行標記並用於隨後的模型訓練,直到預算用盡或者滿足某些停止條件為止。此時,如果預測效能足夠,就可以將模型合併到最終系統中,該最終系統為模型提供未標記的資料並進行預測。
一是僅基於獨立同分布(IID)資料的不確定性進行主動學習,其中選擇標準僅取決於針對每個資料自身資訊計算的不確定性值; 二是透過進一步考慮例項相關性來進行主動學習,基於資料相關性的不確定性度量標準,利用一些相似性度量來區分資料之間的差異。
不確定性認為最重要的未標記資料是最接近當前分類邊界的資料; 代表性認為可以表示一組新例項(例如一個聚類)的未標記資料更為重要; 不一致性認為在多個不同基準分類器中具有最大預測差異的未標記資料更為重要。
解決主動學習中類不平衡問題的方法
Zhu和Hovy [1] 等人嘗試在主動學習過程中加入幾種取樣技術,以控制少數類和多數類中被標記例項數量的平衡,他們提出了一個基於bootstrap的過取樣BootOS策略,該策略會基於該樣本的所有k個鄰居生成一個bootstrap樣本。在每次迭代中,選擇不確定性最大的資料進行標記並加入到已標記的資料集中。對應用該過取樣策略來產生更加平衡的資料集,該資料集用於模型的重新訓練。在每次迭代中選擇具有最高不確定性的資料進行標記的操作涉及對已標記的資料進行重取樣和使用重取樣的資料集訓練新的分類器,因此,此方法的可擴充套件性可能是大型資料集所關注的問題。
Ertekin [2] 等人提出VIRTUAL,一種過取樣和主動學習相結合的方法,它建立了一種對少數群體進行重取樣的自適應技術學習者選擇最有用的樣本進行過取樣,然後該演算法沿著的k個鄰居之一的方向構造一個偽樣本。該演算法是一個線上演算法,且它在構造偽樣本後無需在整個標記資料集上重新訓練就可以逐步構建分類器。 Bloodgood和Shanker [3] 等人利用了代價敏感學習的思想,用於在主動學習過程中處理失衡的資料分佈,他們提出一種引入類特定代價的方法,擴充套件了基於SVM的主動學習的優勢,然後利用經過適當調整的代價敏感的SVM,根據基於不確定性的“margin”標準選擇資料。 Tomanek和Hahn [4] 等人提出了兩種基於不一致顯著性度量的主動學習方法。 Hualong Yu [5] 等人提出了一種基於極限學習機的主動線上加權模型。
真實場景的主動學習策略 LabelXL
整個主動學習流程為一個閉環,在每一輪的迭代中,已標記的少量資料集用於訓練分類模型,然後模型評估每個例項的價值,並選出最有價值和資訊量的一些例項交給專家進行標註,然後將新標註的資料加入到已標記資料集中進行更新。然後主動學習重複上述過程,直至滿足預設條件為止。
[1] J. Zhu and E. H. Hovy. Active learning for word sense disambiguation with methods for addressing the class imbalance problem. in Proc. EMNLP-CoNLL, 2007, pp. 783–790.
[2] S. Ertekin, J. Huang, and C. L. Giles. Adaptive Resampling with Active Learning. 2009.
[3] M. Bloodgood and K. Vijay-Shanker. Taking into account the differences between actively and passively acquired data: The case of active learning with support vector machines for imbalanced datasets. in Proc. Hum. Lang. Technol., 2009, pp. 137–140.
[4] K. Tomanek and U. Hahn. Reducing class imbalance during active learning for named entity annotation. in Proc. 5th Int. Conf. Knowl. Capture, 2009, pp. 105–112.
[5] H. Yu, X. Yang, S. Zheng, and C. Sun. Active Learning From Imbalanced Data: A Solution of Online Weighted Extreme Learning Machine. IEEE Trans. Neural Netw., vol. 30, no. 4, pp. 1088-1103, Apr. 2019.