現實世界中的機器學習系統需要資料科學家和領域專家來建立和維護,而這樣的人才卻總是供不應求。自動化機器學習(AutoML)由於在構建和維護機器學習工作流中的關鍵步驟中所展現出的廣泛適用性,使得該領域的研究前景一片光明。它減輕了人類專家的工作負擔,使他們能夠專注於複雜、非重複和具有創造性的學習問題。
在時間關聯式資料庫中使用AutoML
在諸如線上廣告,推薦系統,自動與客戶交流等機器學習應用中,資料集可以跨越多個具有時間戳的相關表來顯示事件的時間安排。而傳統方法則需要專家們透過繁瑣的試錯法手動組合表格來獲取有意義的特徵。用於處理時態關係資料的AutoML考慮了相關關鍵欄位的臨時連線,並透過自動發現重要的表間關係來自動進行特徵合成。
有趣的是,今年的KDD杯開展了以AutoML為主題的挑戰賽,邀請了全世界AI / ML領域的研究和從業人員為時態關係資料庫開發最新的AutoML。
我們的解決方法
我們的工作流程包括預處理,跨關係表的自動特徵合成,模型學習和預測這些步驟。預處理包括對於偏斜校正的特徵變換以及平方和三次特徵的增強。它還包括分類特徵的頻率編碼,而特徵是使用子表中聚合指標的時間聯接自動合成的。多數類的例項將進行下列取樣以保持1:3的比率。漸進式決策樹(GBDT)的Catboost實現可用於學習演算法,交叉驗證則可用於引數調整來決定最佳樹的數量。圖2概括地描述了我們的工作流程:
時態資料聚合
當時態關係資料跨越多個表格時,找出表間的重要關係然後以最佳方式執行資料聚合將有助於特徵提取。為了提取正確的特徵表示,可對數字特徵使用均值、求和等聚合運算,而對分類特徵則採用計數、眾數等運算。求頻率,聚合指標的計算需要在適當的時間視窗上使用交叉驗證完成。
特徵處理
模型選擇
在計算和儲存方面,嘗試幾種線性和非線性模型的成本可能會非常昂貴。由於梯度增強決策樹在處理分類特徵和可擴充套件性方面的魯棒性,我們將模型組合限制在CatBoost的實現上。同時使用交叉驗證對超引數(例如樹的數量)進行調整,以避免過度擬合。
AutoML趨勢
隨著行業越來越關注從AI中快速獲取價值並減少機器學習模型從原型到生產部署的週期時間,能夠降低AI准入門檻並實現AI工作流程自動化的AutoML已成為重要推動力。AutoML社群越來越關注於支援真實案例的使用,包括從結構化和非結構化資料、時態關係資料庫以及受概念漂移影響的資料流中學習。
原文標題:
AutoMLfor Temporal Relational Data: A New Frontier
原文連結:
https://www.kdnuggets.com/2019/10/automl-temporal-relational-data.html