自動探索特徵組合,第四正規化提出新方法AutoCross

机器之心發表於2019-06-12
特徵組合是提高模型效果的重要手段,但依靠專家手動探索和試錯成本過高且過於繁瑣。於是,第四正規化提出了一種新型特徵組合方法 AutoCross,該方法可在實際應用中自動實現表資料的特徵組合,提高機器學習演算法的預測能力,並提升效率和有效性。目前,該論文已被資料探勘領域頂會 KDD 2019 接收。

論文簡介

論文:AutoCross: Automatic Feature Crossing for Tabular Data in Real-World Applications

自動探索特徵組合,第四正規化提出新方法AutoCross

論文連結:https://arxiv.org/pdf/1904.12857.pdf

本文提出了一種在實際應用中自動實現表資料特徵組合的方法 AutoCross。該方法可以獲得特徵之間有用的相互作用,並提高機器學習演算法的預測能力。該方法利用集束搜尋策略(beam search strategy)構建有效的組合特徵,其中包含尚未被現有工作覆蓋的高階(兩個以上)特徵組合,彌補了此前工作的不足。

此外,該研究提出了連續小批次梯度下降和多粒度離散化,以進一步提高效率和有效性,同時確保簡單,無需機器學習專業知識或冗長的超引數調整。這些演算法旨在降低分散式計算中涉及的計算、傳輸和儲存成本。在基準資料集和真實業務資料集上的實驗結果表明,AutoCross 可以顯著提高線性模型和深度模型對錶資料的學習能力和效能,優於其他基於搜尋和深度學習的特徵生成方法,進一步證明了其有效性和效率。

背景介紹

近年來,機器學習雖然已在推薦系統、線上廣告、金融市場分析等諸多領域取得了很多成功,但在這些成功的應用中,人類專家參與了機器學習的所有階段,包括:定義問題、收集資料、特徵工程、調整模型超引數,模型評估等。

而這些任務的複雜性往往超出了非機器學習專家的能力範圍。機器學習技術使用門檻高、專家成本高昂等問題成為了制約 AI 普及的關鍵因素。因此,AutoML 的出現被視為提高機器學習易用性的一種最有效方法,透過技術手段減少對人類專家的依賴,讓更多的人應用 AI,獲得更大的社會和商業效益。

眾所周知,機器學習的效能很大程度上取決於特徵的質量。由於原始特徵很少產生令人滿意的結果,因此通常要對特徵進行組合,以更好地表示資料並提高學習效能。例如在新聞推薦中,若只有新聞型別、使用者 ID 兩類特徵,模型只能分別預測不同新聞型別或不同使用者 ID 對點選率的影響。透過加入新聞型別 x 使用者 ID 組合特徵,模型就可學習到一個使用者對不同新聞的偏好。再加入時間等特徵進行高階組合,模型就可對一個使用者在不同時間對不同新聞的偏好進行預測,提升模型的個性化預測能力。

特徵組合作為提高模型效果的重要手段,以往大多需要構建龐大的資料科學家團隊,依靠他們的經驗進行探索和試錯,但繁瑣、低效的過程令科學家十分痛苦,且並非所有企業都能承受高昂的成本。

第四正規化從很早便開始關注並深耕 AutoML 領域,從解決客戶業務核心增長的角度出發,構建了反欺詐、個性化推薦等業務場景下的 AutoML,並將其賦能給企業的普通開發人員,取得了接近甚至超過資料科學家的業務效果。其中,AutoCross 發揮了重要的作用。

痛點

特徵組合是對從資料中提取的海量原始特徵進行組合的過程,採用稀疏特徵叉乘得出組合特徵。線上性模型如 LR 只能刻畫特徵間的線性關係、表達能力受限,而非線性模型如 GBDT 不能應用於大規模離散特徵場景的情況下,特徵組合能夠增加資料的非線性,從而提高效能。

但列舉所有組合特性,理論上很難做到,因為可能的組合特徵數是指數級的,同時暴力新增特徵可能會導致學習效能下降,因為它們可能是無關的或冗餘的特徵,從而增加學習難度。

雖然深度神經網路可自動構建高階特徵 (generate high-order features),但面對大多數以表形式呈現的業務資料,最先進的基於深度學習的方法無法有效涵蓋所有高階組合特徵,且存在可解釋性差、計算成本高等弊端。該論文投稿時,最先進的深度學習方法是 xDeepFM [1]。這篇論文證明了 xDeepFM 可生成的特徵是 AutoCross 可生成特徵嵌入(embedding)的子集。

AutoCross 的優勢

  • 高效+高階:AutoCross 可高效構建高階組合特徵,進一步提高學習效能;

  • 易用:AutoCross 具有高度的簡單性和最小化的超引數。提出了連續的小批次梯度下降和多粒度離散化,提高了特徵組合的效率和有效性,同時避免了繁瑣的超引數設定;

  • 通用性:AutoCross 生成的特徵可用於傳統機器學習模型或深度模型;

  • 分散式計算:AutoCross 充分利用分佈計算能力,提高特徵組合的效率,並降低計算、傳輸和儲存成本;

  • 快速推斷:AutoCross 可以大幅提高線性模型的效果,並且保留其推斷速度快的優勢;

  • 可解釋性:AutoCross 採用顯式特徵組合的方法,相比於隱式特徵組合,具有高度的可解釋性。

實現過程

給定訓練資料 自動探索特徵組合,第四正規化提出新方法AutoCross,並將其劃分為訓練集 自動探索特徵組合,第四正規化提出新方法AutoCross 和驗證集 自動探索特徵組合,第四正規化提出新方法AutoCross。我們可以用一個特徵集合 S 來表示 自動探索特徵組合,第四正規化提出新方法AutoCross,並用學習演算法 L 訓練一個模型 自動探索特徵組合,第四正規化提出新方法AutoCross。之後,用驗證集和同一個特徵集合 S 計算一個需要被最大化的指標 自動探索特徵組合,第四正規化提出新方法AutoCross。特徵組合搜尋問題可以定義為搜尋一個最優子特徵集的問題:

自動探索特徵組合,第四正規化提出新方法AutoCross

其中 F 是 自動探索特徵組合,第四正規化提出新方法AutoCross 的原始特徵集合,自動探索特徵組合,第四正規化提出新方法AutoCross 包含 F 所有原始特徵以及基於 F 可生成的所有組合特徵。

但是,假設原始特徵數為 d,則上述問題中所有可能解的數量是 自動探索特徵組合,第四正規化提出新方法AutoCross,搜尋空間巨大。為了提高搜尋效率,AutoCross 將搜尋最優子特徵集的問題轉換為用貪婪策略逐步構建較優解的問題。首先,AutoCross 考慮一個樹結構的搜尋空間 自動探索特徵組合,第四正規化提出新方法AutoCross(圖 3),其中每一個節點表示一個子特徵集。之後,用集束搜尋策略在 自動探索特徵組合,第四正規化提出新方法AutoCross 上搜尋較優解。透過這種方法,AutoCross 只需要訪問 自動探索特徵組合,第四正規化提出新方法AutoCross 個候選解,極大地提高了搜尋效率。AutoCross 的整體演算法如演算法 1 所示。

自動探索特徵組合,第四正規化提出新方法AutoCross

自動探索特徵組合,第四正規化提出新方法AutoCross

演算法 1 中的一個關鍵步驟是評估候選特徵集。最直接的方法是用每個候選特徵集訓練模型並評估其效能,但是這種方法計算代價巨大,難以在搜尋過程中反覆執行。為了提高特徵集評估的效率,AutoCross 提出了逐域對數機率迴歸(field-wise logistic regression)和連續批訓練梯度下降(successive mini-batch gradient descent)方法。

為了提高特徵集評估效率,逐域對數機率迴歸作出兩種近似。首先,用特徵集在對數機率迴歸模型上的表現近似最終將使用這個特徵集的模型上的表現;其次,在考慮 自動探索特徵組合,第四正規化提出新方法AutoCross 中一個節點的子節點時,不改變該節點包含特徵對應的權重(weight),僅訓練子節點新增特徵的權重。

圖 4 說明了如何將逐域對數機率迴歸部署在引數伺服器架構上。逐域對數機率迴歸與引數伺服器的結合可以提高特徵集評估的儲存效率、傳輸效率和計算效率。在逐域對數機率迴歸訓練結束後,AutoCross 計算訓練得模型的指標,並以此方法來評估每一個候選特徵集。

自動探索特徵組合,第四正規化提出新方法AutoCross

AutoCross 採用連續批訓練梯度下降方法進一步提高特徵集評估的效率。該方法借鑑 successive halving 演算法 [2],認為每一個候選特徵集是 multi-arm bandit 問題中的一個 arm,對一個特徵集用一個資料塊進行權重更新相當於拉了一次對應的 arm,其回報為該次訓練後的驗證集 AUC。

具體演算法見演算法 2,演算法 2 中唯一的引數是資料塊的數量 N。N 可以根據資料的大小和計算環境自適應地確定。在使用連續批訓練梯度下降時,使用者不需要像使用傳統的 subsampling 方法一樣調整 mini-batch 的尺寸和取樣率。

自動探索特徵組合,第四正規化提出新方法AutoCross

為了支援數值特徵與離散特徵的組合,AutoCross 在預處理時將數值特徵離散化為離散特徵。AutoCross 提出了多粒度離散化(multi-granularity discretization)方法,使得使用者不需要反覆調整離散化的粒度。多粒度離散化思想簡單:將每一個數值特徵,根據不同粒度劃分為多個離散特徵。然後採用逐域對數機率迴歸挑選出最優的離散特徵。多個劃分粒度既可以由使用者指定,也可以由 AutoCross 根據資料大小和計算環境來自適應地選擇,從而降低了使用者的使用難度。

實驗結果

該論文在十個資料集(五個公開、五個實際業務)上進行了實驗。比較的方法包括:

  • AC+LR:AutoCross 的特徵加對數機率迴歸模型;

  • AC+W&D:AutoCross 的特徵作為 wide&deep 模型 wide 部分的特徵;

  • LR:基礎的對數機率迴歸模型;

  • CMI+LR:[3] 中方法生成的特徵加對數機率迴歸模型;

  • Deep:基礎的深度學習模型;

  • xDeepFM:[1] 提出的模型,是該論文投稿時最先進的基於深度學習的方法。

效果比較:如下表 3 所示,AC+LR 和 AC+W&D 在大部分資料集上的排名都在前兩位。這體現了 AutoCross 產生的特徵不僅可以增強 LR 模型,也可以用於提高深度學習模型的效能,並且 AC+LR 和 AC+W&D 的效果都優於 xDeepFM。如之前所說,xDeepFM 所生成的特徵不能完全包含 AutoCross 生成的特徵。這些結果體現出顯式生成高階組合特徵的效果優勢。

自動探索特徵組合,第四正規化提出新方法AutoCross

高階特徵的作用:見表 5 和圖 6。從中可以得出,高階組合特徵可以有效提高模型效能。

自動探索特徵組合,第四正規化提出新方法AutoCross

時間消耗:見表 6、圖 7(主要做展示用)。

自動探索特徵組合,第四正規化提出新方法AutoCross

自動探索特徵組合,第四正規化提出新方法AutoCross

推斷延遲:見表 7。從中可以得出:AC+LR 的推斷速度比 AC+W&D、Deep、xDeepFM 快幾個數量級。這說明 AutoCross 不僅可以提高模型表現,同時保證了很低的推斷延遲。

參考文獻

[1] J. Lian, X. Zhou, F. Zhang, Z. Chen, X. Xie, and G. Sun. 2018. xDeepFM: Com- bining Explicit and Implicit Feature Interactions for Recommender Systems. In International Conference on Knowledge Discovery & Data Mining.
[2] K. Jamieson and A. Talwalkar. 2016. Non-stochastic best arm identification and hyperparameter optimization. In Artificial Intelligence and Statistics. 240–248.
[3] O. Chapelle, E. Manavoglu, and R. Rosales. 2015. Simple and scalable response prediction for display advertising. ACM Transactions on Intelligent Systems and Technology (TIST) 5, 4 (2015), 61.

相關文章