在時間關係資料上AutoML:一個新的前沿

資料派THU發表於2019-11-27

現實世界中的機器學習系統需要資料科學家和領域專家來建立和維護,而這樣的人才卻總是供不應求。自動化機器學習(AutoML)由於在構建和維護機器學習工作流中的關鍵步驟中所展現出的廣泛適用性,使得該領域的研究前景一片光明。它減輕了人類專家的工作負擔,使他們能夠專注於複雜、非重複和具有創造性的學習問題。

AutoML的最新進展主要包括從時間關係資料庫中自動發現有意義的表間關係的複雜功能合成(例如,深度特徵綜合),使用模型自動調整進行概念漂移(例如,AutoGBT),以及深度學習模型的自動設計(例如,神經結構搜尋),如圖1所示。這些研究進展提高了資料科學家的生產力,從而顯著提高了AutoML系統的實用性,並使得非機器學習專家也能夠處理現實中不同領域的資料科學問題。

在時間關係資料上AutoML:一個新的前沿

圖1 AutoML進化史

在時間關聯式資料庫中使用AutoML

在諸如線上廣告,推薦系統,自動與客戶交流等機器學習應用中,資料集可以跨越多個具有時間戳的相關表來顯示事件的時間安排。而傳統方法則需要專家們透過繁瑣的試錯法手動組合表格來獲取有意義的特徵。用於處理時態關係資料的AutoML考慮了相關關鍵欄位的臨時連線,並透過自動發現重要的表間關係來自動進行特徵合成。

在沒有域資訊的情況下,實現基於時態關係資料的真實世界的AutoML案例包括自動生成有用的時態資訊和跨多個子表格有效合併特徵,且不會導致資料洩露。除了這些困難外,還需要自動選擇最佳的學習模型和受資源約束的引數集,以使解決方案足夠通用,並且符合時間和內容預算。

有趣的是,今年的KDD杯開展了以AutoML為主題的挑戰賽,邀請了全世界AI / ML領域的研究和從業人員為時態關係資料庫開發最新的AutoML。

我們的解決方法

我們的工作流程包括預處理,跨關係表的自動特徵合成,模型學習和預測這些步驟。預處理包括對於偏斜校正的特徵變換以及平方和三次特徵的增強。它還包括分類特徵的頻率編碼,而特徵是使用子表中聚合指標的時間聯接自動合成的。多數類的例項將進行下列取樣以保持1:3的比率。漸進式決策樹(GBDT)的Catboost實現可用於學習演算法,交叉驗證則可用於引數調整來決定最佳樹的數量。圖2概括地描述了我們的工作流程:

在時間關係資料上AutoML:一個新的前沿

圖2 我們的模型管道

時態資料聚合

當時態關係資料跨越多個表格時,找出表間的重要關係然後以最佳方式執行資料聚合將有助於特徵提取。為了提取正確的特徵表示,可對數字特徵使用均值、求和等聚合運算,而對分類特徵則採用計數、眾數等運算。求頻率,聚合指標的計算需要在適當的時間視窗上使用交叉驗證完成。

特徵處理

連線多個資料庫的表會產生高度偏斜的特徵。我們的特徵預處理步驟包括偏斜校正以及特徵變換和增強。特徵增強包括新增具有周期性的數字特徵的平方和三次方變換以及正則或餘弦,日期時間特徵的變換(例如,月,時和分)來豐富特徵空間。還可對分類特徵進行頻率編碼來進一步擴大特徵空間。

模型選擇

在計算和儲存方面,嘗試幾種線性和非線性模型的成本可能會非常昂貴。由於梯度增強決策樹在處理分類特徵和可擴充套件性方面的魯棒性,我們將模型組合限制在CatBoost的實現上。同時使用交叉驗證引數(例如樹的數量)進行調整,以避免過度擬合。

我們的解決方案擴充了現有的AutoML研究專案組合,允許使用涉及時態關係資料庫學習的用例。可以訪問Github儲存庫來檢視我們的解決方案。

AutoML趨勢

隨著行業越來越關注從AI中快速獲取價值並減少機器學習模型從原型到生產部署的週期時間,能夠降低AI准入門檻並實現AI工作流程自動化的AutoML已成為重要推動力。AutoML社群越來越關注於支援真實案例的使用,包括從結構化和非結構化資料、時態關係資料庫以及受概念漂移影響的資料流中學習。

儘管AutoML最初專注於最佳機器學習管道的自動構建,隨著時間的推移,對此類管道自動維護處理它的範圍正在擴大,模型自治性進一步增加。AutoML的進步和強大的計算基礎設施的可利用性將推動人機智慧的融合,使得人類專家能夠更好地將精力集中在學習複雜的,非重複和創造性的問題上,從而獲得更優的解決方案。

原文標題:

AutoMLfor Temporal Relational Data: A New Frontier

原文連結:

https://www.kdnuggets.com/2019/10/automl-temporal-relational-data.html

相關文章