迴圈智慧的主動學習(Active Learning)技術探索與實踐:減少 80% 標註量

迴圈智慧發表於2020-06-10

迴圈智慧的主動學習(Active Learning)技術探索與實踐:減少 80% 標註量

很多企業透過建立自己的客戶聯絡中心,為客戶提供服務、解答疑惑、推介新產品。在企業與客戶的溝透過程中,產生了海量的非結構化錄音和文字資料。為了讓溝通更高效,服務質量更優,客戶滿意度更強,企業就需要從資料中洞察客戶的真實需求、管理和提升業務員的溝通能力。

但由於需要收集分析的資料量急劇增加,從大量資料中手動提取有用的知識變得非常困難和不可能,因此需要利用自然語言處理(NLP)和資料探勘(Data Mining)技術來幫助企業挖掘和發現有用的知識。

為了讓機器快速學習,對溝通資料(電話錄音、線上IM溝通記錄)進行標註是必不可少的一步。但是,資料標註需要昂貴的人工或各種成本,面對海量的非結構化資料,如何經濟又準確地進行標註是一個的棘手問題。

主動學習(Active Learning)被認為是一種非常有效的解決方案:透過使用少量已有標註資料,讓機器學習到的模型與標註專家進行高效的互動,選出最有價值和資訊量的樣本進行標註,能夠在達到預設標準的情況下,有效降低模型學習所需要的標註資料量。

主動學習模型的分類

目前各類研究積累了大量的主動學習模型,通常,我們有幾種不同的分類標準來劃分這些模型。
根據輸入資料的方式,主動學習可以分為:
  • 基於流的主動學習,它將未標記的資料一次性全部呈現給一個預測模型,該模型將預測結果(例項的機率值),根據某些評價指標(比如margin)計算評估例項的價值,隨後應用主動學習決定是否應該花費一些預算來收集此資料的類標籤,以進行後續的訓練;
  • 基於池的主動學習,這個通常是離線、反覆的過程。這裡向主動學習系統提供了大量未標記的資料,在此過程的每個迭代週期,主動學習系統都會選擇一個或者多個未標記資料進行標記並用於隨後的模型訓練,直到預算用盡或者滿足某些停止條件為止。此時,如果預測效能足夠,就可以將模型合併到最終系統中,該最終系統為模型提供未標記的資料並進行預測。
根據資料選擇的角度,又可以分為具有漸進關係的兩類:
  • 一是僅基於獨立同分布(IID)資料的不確定性進行主動學習,其中選擇標準僅取決於針對每個資料自身資訊計算的不確定性值;
  • 二是透過進一步考慮例項相關性來進行主動學習,基於資料相關性的不確定性度量標準,利用一些相似性度量來區分資料之間的差異。
這裡涉及幾種不同的有意義的度量來對未標記資料進行打分排名,包括不確定性、代表性、不一致性、方差和錯誤率等。每個重要性度量都有一個標準,用於評估哪些資料對於提高分類器效能最重要。例如:
  • 不確定性認為最重要的未標記資料是最接近當前分類邊界的資料;
  • 代表性認為可以表示一組新例項(例如一個聚類)的未標記資料更為重要;
  • 不一致性認為在多個不同基準分類器中具有最大預測差異的未標記資料更為重要。
另外,根據採用的分類器,主動學習模型也可以分為不同的類別。一些流行的分類器,包括樸素貝葉斯,k近鄰,決策樹,多層感知機邏輯迴歸支援向量機神經網路都有相應的研究。

解決主動學習中類不平衡問題的方法

主動學習無疑是有效的,但最近的一些研究表明主動學習在應用於存在類不平衡問題時往往會失敗:大類中的資料所佔比例較大,可能會導致模型的訓練和預測偏向一個類。之前的一些研究,試圖透過使用不同的技術來解決這一問題。
  • Zhu和Hovy [1] 等人嘗試在主動學習過程中加入幾種取樣技術,以控制少數類和多數類中被標記例項數量的平衡,他們提出了一個基於bootstrap的過取樣BootOS策略,該策略會基於該樣本的所有k個鄰居生成一個bootstrap樣本。在每次迭代中,選擇不確定性最大的資料進行標記並加入到已標記的資料集中。對應用該過取樣策略來產生更加平衡的資料集,該資料集用於模型的重新訓練。在每次迭代中選擇具有最高不確定性的資料進行標記的操作涉及對已標記的資料進行重取樣和使用重取樣的資料集訓練新的分類器,因此,此方法的可擴充套件性可能是大型資料集所關注的問題。

  • Ertekin [2] 等人提出VIRTUAL,一種過取樣和主動學習相結合的方法,它建立了一種對少數群體進行重取樣的自適應技術學習者選擇最有用的樣本進行過取樣,然後該演算法沿著的k個鄰居之一的方向構造一個偽樣本。該演算法是一個線上演算法,且它在構造偽樣本後無需在整個標記資料集上重新訓練就可以逐步構建分類器。
  • Bloodgood和Shanker [3] 等人利用了代價敏感學習的思想,用於在主動學習過程中處理失衡的資料分佈,他們提出一種引入類特定代價的方法,擴充套件了基於SVM的主動學習的優勢,然後利用經過適當調整的代價敏感的SVM,根據基於不確定性的“margin”標準選擇資料。
  • Tomanek和Hahn [4] 等人提出了兩種基於不一致顯著性度量的主動學習方法。
  • Hualong Yu [5] 等人提出了一種基於極限學習機的主動線上加權模型。
但這些演算法在很多實際場景中的效果並不盡如人意。首先,由於缺乏真實場景中的資料集,學術中的主動學習方法是針對模擬資料集,而且樣本通常是均勻資料集,同時對資料集中待標記的樣本進行了強假設;其次,很多主動學習方法忽略了透過主動學習選擇樣本的重要性,而且在初始訓練集的選擇上也存在欠缺;第三,真實場景中的資料集噪聲更多、也更不平衡,而資料的不平衡性會在很大程度上影響主動學習策略的抽樣效能,因此我們需要降低類不平衡性帶來的影響。

綜合以上分析,可以發現在真實場景中,類不平衡問題在很大程度上會限制主動學習策略在實際業務中的能力。

真實場景的主動學習策略 LabelXL

針對上述問題,迴圈智慧(Recurrent AI)設計並提出了一種,在真實場景的不平衡文字分類任務中,有效的主動學習策略 LabelXL——讓每次標註的價值最大化。
迴圈智慧的主動學習(Active Learning)技術探索與實踐:減少 80% 標註量
主動學習策略 LabelXL 的工作流程

整個主動學習流程為一個閉環,在每一輪的迭代中,已標記的少量資料集用於訓練分類模型,然後模型評估每個例項的價值,並選出最有價值和資訊量的一些例項交給專家進行標註,然後將新標註的資料加入到已標記資料集中進行更新。然後主動學習重複上述過程,直至滿足預設條件為止。

在實際訓練時,不同的樣本例項對於模型的學習貢獻度不同,如果能夠選出最有價值和資訊量的一部分資料進行標註,那麼就有可能僅使用少量的訓練資料而獲得同樣效能的分類模型。因此主動學習的主題,就是為當前模型,選擇資訊最豐富的未標記例項。主動學習的核心任務就是取樣策略的設計,即按照一定的度量準則來選擇未標記例項。顯然,對未標記例項價值的評估和合理的樣本選擇策略尤為重要。

考慮到實際業務場景下的真實資料十分複雜,捕捉和分析樣本的空間資訊比較困難,因此在選擇價值度量時,我們優先選擇了基於不確定性的度量指標margin,同時為了降低資料類不平衡性的影響,我們對少數類(正例)採用了過取樣策略來最佳化訓練。過取樣方法能夠從資料集發現我們更關注的樣本,從而為演算法提供足夠的資料以輸出更準確的結果。在類不平衡問題中,我們通常更關心的是少數類所蘊含和傳遞的資訊。因此對少數類進行過取樣,建立資料增強的方法來增加我們更關注類別的樣本數量,並進行模型訓練。

我們詳細對比了使用主動學習策略 LabelXL 與未使用時(隨機選取標註樣本)的演算法效能差異。兩個典型的例子,如下:

金融行業客戶的語義點“資金困難”,達到預設標準所需的標註量,降低了 80%。
迴圈智慧的主動學習(Active Learning)技術探索與實踐:減少 80% 標註量
教育行業客戶的語義點“六級”,達到預設標準所需的標註量,降低了 65%。
迴圈智慧的主動學習(Active Learning)技術探索與實踐:減少 80% 標註量
綜合來看,在實際業務場景下,應用主動學習策略 LabelXL 可以讓每次標註的價值最大化,從而大幅降低達到同樣的效果(F1值)所需的標註量。

同時,不同的語義點能降低的標註量比例會有區別。在我們的測試中,大部分語義點應用主動學習策略 LabelXL 可以降低 50% ~ 80% 的標註量。也就是說,生產一個語義點(畫像/標籤)的速度通常可以提升 2~3 倍。藉助 LabelXL 策略,迴圈智慧顯著提升了 NLP 技術的規模化落地能力。

參考資料:
  • [1] J. Zhu and E. H. Hovy. Active learning for word sense disambiguation with methods for addressing the class imbalance problem. in Proc. EMNLP-CoNLL, 2007, pp. 783–790.

  • [2] S. Ertekin, J. Huang, and C. L. Giles. Adaptive Resampling with Active Learning. 2009.

  • [3] M. Bloodgood and K. Vijay-Shanker. Taking into account the differences between actively and passively acquired data: The case of active learning with support vector machines for imbalanced datasets. in Proc. Hum. Lang. Technol., 2009, pp. 137–140.

  • [4] K. Tomanek and U. Hahn. Reducing class imbalance during active learning for named entity annotation. in Proc. 5th Int. Conf. Knowl. Capture, 2009, pp. 105–112.

  • [5] H. Yu, X. Yang, S. Zheng, and C. Sun. Active Learning From Imbalanced Data: A Solution of Online Weighted Extreme Learning Machine. IEEE Trans. Neural Netw., vol. 30, no. 4, pp. 1088-1103, Apr. 2019.

相關文章