廣告推薦系統的表現直接影響使用者體驗和商業收益,如何在海量資料中精準捕捉使用者需求並提供個性化推薦,成為廣告推薦場景面臨的重要挑戰。為了解決該場景中的資料稀疏、冷啟動等問題,騰訊機器學習平臺部對 AutoML 相關技術進行了深入的研究,發表了一系列具有創新性的學術論文。
一、AutoML 技術背景
AutoML 自動化機器學習,是一個旨在簡化和自動化機器學習模型開發過程的領域。它透過提供工具和技術,如特徵評估、自動化結構搜尋等使得非專業人士也能有效地使用機器學習,降低能力門檻;同時透過自動化流程、超引數搜尋調優等幫助演算法工程師有效提高工作效率。
在廣告推薦場景中,AutoML 具有重要意義,主要體現在高效性、資源最佳化和靈活性等方面。它能夠自動化模型選擇、超引數調優和特徵工程,顯著減少人工干預和時間成本,使團隊能夠快速響應使用者需求和市場變化。此外,AutoML 幫助團隊有效利用計算資源,避免在不必要的實驗上浪費時間,從而集中精力在最有潛力的模型和特徵上。透過自動探索多種模型和演算法,AutoML 能夠找到最適合當前資料和業務需求的解決方案,提升推薦的準確性和相關性。同時,它降低了技術門檻,使非專業人員也能參與模型開發,促進跨部門協作和創新。最後,AutoML 支援持續的模型更新和最佳化,確保推薦系統始終保持高效和準確,並提供可解釋性功能,幫助團隊理解模型決策過程,從而更好地調整廣告策略和最佳化使用者體驗。
騰訊機器學習平臺致力於透過 AutoML 的研究與探索,為使用者提供通用的 AutoML 能力,以提升使用者的使用效率和體驗,從而更好地賦能廣告推薦系統。我們希望透過 AutoML 能力的引入,簡化模型開發流程,使使用者能夠更快速地構建和最佳化廣告推薦模型,最終實現更精準的廣告投放和更優質的使用者體驗。
二、AutoML 研究探索
1. BiGNAS(AAAI'25)
Behavior Importance-Aware Graph Neural Architecture Search for Cross-Domain Recommendation
本文提出了一種新的跨域推薦系統框架,稱為行為重要性感知圖神經網路架構搜尋(BiGNAS)。現有的基於圖神經網路(GNN)的 CNR 方法雖然能夠捕捉複雜的使用者 - 物品互動,但通常依賴於手動設計的架構,BiGNAS 旨在解決推薦系統中的資料稀疏性和冷啟動問題。BiGNAS 透過兩個關鍵元件實現了創新:跨域定製超網路(Cross-Domain Customized Supernetwork)和基於圖的行為重要性感知器(Graph-Based Behavior Importance Perceptron)。超網路作為一次性、無需重訓練的模組,能夠自動搜尋每個域的最佳圖神經網路(GNN)架構,減少了手動設計的複雜性。行為重要性感知器則透過輔助學習動態評估源域行為的重要性,從而提升目標域的推薦效果。
實驗結果表明,BiGNAS 在多個基準資料集和大規模行業廣告資料集上均優於現有的最先進方法。這項研究首次聯合最佳化 GNN 架構和行為資料重要性,為跨域推薦提供了新的思路和有效的解決方案。
2. One-Shot NAS (WWW'23)
Automatic Feature Selection By One-Shot Neural Architecture Search In Recommendation Systems | Proceedings of the ACM Web Conference 2023
本文提出了一種基於一次性神經架構搜尋(One-Shot NAS)的自動特徵選擇方法。推薦系統的效能依賴於特徵的質量和選擇,而傳統的特徵選擇方法依賴人工,耗時且計算資源消耗大。本文設計了一個新框架,透過 NAS 自動識別最優特徵。首先構建一個候選特徵集合,然後利用一次性架構搜尋技術快速評估不同特徵組合的效能。透過訓練一個共享的神經網路,在不同架構之間共享權重,能夠在一次訓練中評估多個架構,即快速評估各種特徵組合,無需重新訓練,從而顯著降低計算開銷。在特徵選擇過程中,模型會根據預定義的效能指標,如準確率和召回率評估不同特徵組合的貢獻。透過實時反饋,搜尋演算法能夠最佳化特徵選擇,最終識別出最具影響力的特徵。這種自動化的特徵選擇過程使得推薦系統能夠更好地捕捉使用者偏好,提高推薦的準確性。
本文為推薦系統中的特徵選擇提供了一種高效的自動化解決方案,實驗結果顯示,該方法在多個推薦任務中表現優異,能夠有效選擇出對推薦效果影響最大的特徵。
3. AutoPooling (WSDM'24)
AutoPooling: Automated Pooling Search for Multi-valued Features in Recommendations | Proceedings of the 17th ACM International Conference on Web Search and Data Mining
本文提出了 AutoPooling 自動化池化搜尋方法,旨在最佳化推薦系統中多值特徵的處理。在推薦系統中,如何有效處理多值特徵(如使用者的興趣標籤、商品的屬性等)是一個重要的挑戰。傳統的池化方法往往依賴於手動設計,難以適應不同資料集和任務的需求。為了解決這一問題,AutoPooling 透過自動化池化策略的搜尋,最佳化了多值特徵的表示。AutoPooling 透過引入一種自動化搜尋機制,能夠在多種池化策略中進行選擇和組合,從而找到最適合特定任務的池化方法。該方法利用強化學習、進化演算法等技術,自動探索不同的池化配置,評估其在推薦任務中的表現。這種自動化的過程不僅提高了池化策略的選擇效率,還能夠根據資料的特性動態調整池化方式。此外,AutoPooling 還考慮了多值特徵之間的關係,透過設計靈活的池化結構,能夠更好地捕捉特徵之間的相互作用。這種方法的靈活性使得它能夠適應各種推薦場景,從而提升模型的整體效能。
實驗結果表明,AutoPooling 在多個基準資料集上均取得了顯著的效能提升,超越了傳統的池化方法。AutoPooling 可以與現有的推薦演算法無縫整合,作為特徵處理的一個模組,提升整體推薦系統的效能。透過自動化池化搜尋,AutoPooling 為推薦系統中的多值特徵處理提供了一種高效且實用的解決方案,推動了推薦演算法的進一步發展。
4. AdaS&S
[2411.07504] AdaS&S: a One-Shot Supernet Approach for Automatic Embedding Size Search in Deep Recommender System
本文提出了 AdaS&S,一種自動化搜尋深度推薦系統中 embedding 層大小的方法。在深度推薦系統中,embedding 層的大小對模型的效能起著關鍵作用。然而,手動選擇合適 embedding 大小通常需要大量的實驗和經驗,既耗時又低效。為了解決這一問題,AdaS&S 採用一次性超網路(One-Shot Supernet)策略,旨在自動化 embedding 大小的搜尋過程。AdaS&S 透過構建一個超網路,能夠在同一模型中同時訓練多個 embedding 大小的配置。這種共享權重的機制使得不同 embedding 大小的模型可以高效地進行訓練,從而顯著減少了訓練時間和計算資源的消耗。透過快速評估不同 embedding 大小對模型效能的影響,AdaS&S 能夠自動選擇最優的配置,提升推薦系統的效果。此外,AdaS&S 引入了自適應搜尋策略,根據模型在驗證集上的表現動態調整嵌入大小的搜尋範圍。這種靈活性使得該方法能夠在不同的資料集和任務中表現出色,適應性強。
實驗結果表明,AdaS&S 在多個基準資料集上均取得了優異的效能,顯著提升了推薦系統的效果,同時降低了超引數調優的複雜性。透過自動化嵌入大小的搜尋,AdaS&S 為深度推薦系統的最佳化提供了一種高效且實用的解決方案,推動了相關領域的研究進展。
5. FlexHB
[2402.13641] FlexHB: a More Efficient and Flexible Framework for Hyperparameter Optimization
本文提出了一種名為 FlexHB 的超引數最佳化框架,旨在顯著提升最佳化過程的效率和靈活性。傳統的超引數最佳化方法往往面臨著計算資源消耗過大和搜尋空間不夠靈活的問題,這使得在實際應用中難以快速找到最佳的超引數配置。為了解決這些問題,FlexHB 巧妙地結合了貝葉斯最佳化和超頻寬(Hyperband)策略,透過動態調整資源分配,能夠快速評估不同超引數配置下模型的效能,從而有效縮短最佳化所需的時間。FlexHB 的靈活性體現在其對多種模型和任務的支援,使用者可以根據具體需求自定義搜尋空間和評估策略。這種個性化的設定使得最佳化過程更加貼合實際應用場景,能夠更好地滿足不同使用者的需求。此外,FlexHB 還透過智慧的資源管理,確保在最佳化過程中能夠高效利用計算資源,降低不必要的浪費。
實驗結果表明,FlexHB 為超引數最佳化提供了一種高效且靈活的解決方案。在多個基準資料集上的測試中,FlexHB 顯著提高了超引數最佳化的效率和效果,成功降低了時間和計算成本。這一框架不僅提供了有效的超引數調優工具,也為未來的超引數最佳化研究開闢了新的方向。