
本文作者來自香港科技大學、香港科技大學(廣州)、香港城市大學以及UIUC等機構。其中,港科大在讀博士生陳巍昱、港城大在讀博士生張霄遠和港科廣在讀博士生林百炅為共同第一作者;林熙博士目前擔任港城大博士後研究員;UIUC趙晗助理教授、港城大張青富教授以及港科大郭天佑教授為共同通訊作者。趙晗博士的研究方向主要集中在機器學習理論和可信機器學習領域,涵蓋演算法公平,可解釋性和多工最佳化等多個方向,其研究成果曾獲Google Research Award。張青富教授 (IEEE Fellow) 長期致力於多目標最佳化的研究,所提出MOEA/D方法至今已被引用近萬次,成為多目標最佳化經典正規化之一。郭天佑教授 (IEEE Fellow) 專注於機器學習中的最佳化問題研究,曾獲AI 2000最具影響力學者榮譽提名,並擔任IJCAI-2025程式主席。
近年來,深度學習技術在自動駕駛、計算機視覺、自然語言處理和強化學習等領域取得了突破性進展。然而,在現實場景中,傳統單目標最佳化正規化在應對多工協同最佳化、資源約束以及安全性 - 公平性權衡等複雜需求時,逐漸暴露出其方法論的侷限性。值得注意的是,在大語言模型(LLM)與生成式 AI 系統的多維度價值對齊(Multi-Dimensional Alignment)領域,如何協調模型效能、安全倫理邊界、文化適應性及能耗效率等多元目標,已成為制約人工智慧系統社會應用的關鍵挑戰。多目標最佳化(Multi-Objective Optimization, MOO)作為一種協調多個潛在衝突目標的核心技術框架,正在成為破解複雜系統多重約束難題的關鍵方法。
近日,由香港科技大學、香港科技大學(廣州)、香港城市大學以及 UIUC 等團隊聯合釋出的基於梯度的多目標深度學習綜述論文《Gradient-Based Multi-Objective Deep Learning: Algorithms, Theories, Applications, and Beyond》正式上線。這篇綜述從多目標演算法設計、理論分析到實際應用與未來展望,全方位解析瞭如何在多工場景下高效平衡各目標任務,呈現了這一領域的全景。
論文題目:Gradient-Based Multi-Objective Deep Learning: Algorithms, Theories, Applications, and Beyond 論文連結:https://arxiv.org/pdf/2501.10945v2 倉庫連結:https://github.com/Baijiong-Lin/Awesome-Multi-Objective-Deep-Learning
背景
在深度學習中,我們常常需要同時最佳化多個目標:
多工學習:在許多實際問題中,我們常常需要同時最佳化多個任務,並在不同任務之間尋求平衡,以解決它們之間的潛在衝突(例如,在分子性質預測領域,我們通常需要對一個分子預測多種性質);
大語言模型的多維度價值對齊:在大語言模型的訓練過程中,我們期望其生成的回覆能夠與人類多維度的價值偏好相匹配,涵蓋有用性、安全性、幽默度等多個方面;
資源約束、安全性、公平性等因素的權衡:在許多工業場景中,除了效能指標外,安全、能耗、延遲等實際工程指標也是需要兼顧的重要目標。
多目標最佳化演算法旨在尋找一系列 「折中解」(也稱為 Pareto 最優解),在不同目標間達到平衡,從而滿足應用場景中對協同最佳化的要求。

演算法設計
基於梯度的多目標最佳化方法主要分為三類:尋找單個 Pareto 最優解的演算法,尋找有限個 Pareto 最優解的演算法以及尋找無限個 Pareto 最優解的演算法。

尋找單個 Pareto 最優解
在多工學習等場景中,通常只需找到一個平衡的解,以解決任務之間的衝突,使每個任務的效能都儘可能達到最優。為此,研究者們提出了多種方法,這些方法可進一步分為損失平衡方法和梯度平衡方法。
損失平衡方法:透過動態計算或學習目標權重,平衡不同任務的損失。例如,動態權重平均(DWA)透過每個目標的訓練損失的下降速度更新權重;不確定性加權(UW)基於每個目標的不確定性動態最佳化目標權重;多目標元學習(MOML)透過驗證集效能自適應調整目標權重。
梯度平衡方法:透過計算多個任務梯度的 「最優平衡方向」,使模型在更新引數時能夠兼顧所有任務的最佳化需求。這類方法又可以細分為梯度加權方法和梯度操縱方法。例如,多梯度下降演算法(MGDA)透過求解最佳化問題找到更新方向,使該方向上的梯度更新能夠最大化地減少所有任務的損失函式;PCGrad 方法將每個任務的梯度投影到與其他任務梯度衝突最小化的方向上,從而有效解決任務間的梯度衝突。
一些有代表性的方法如下圖所示:

尋找有限個 Pareto 最優解
在尋找有限個 Pareto 解集時,需要同時考慮兩個關鍵因素:解的快速收斂性(確保解迅速逼近 Pareto 最優前沿)和解集的多樣性(保證解在 Pareto 前沿上的均勻分佈)。目前主要有兩類方法:
基於偏好向量的方法:利用偏好向量來指定特定的 Pareto 解。透過均勻分佈的偏好向量,可以生成具有多樣性的 Pareto 解集,覆蓋 Pareto 前沿的不同區域。
無需偏好向量的方法:透過最佳化 Pareto 解集的某個指標來提高解的多樣性。例如,最大化超體積(Hypervolume),使解集在目標空間中覆蓋更大的區域;或者最大化最小距離,確保解集中的解彼此遠離,從而提升分佈均勻性。由於該類方法無需指定偏好向量,因此具有更高的適應性和靈活性。
一些有代表性的方法如下圖所示:

尋找無限個 Pareto 最優解
為滿足使用者在任一偏好下都能獲得合適解的需求,研究者設計了直接學習整個 Pareto 集的方法,主要包括:
超網路:利用專門的網路根據使用者偏好生成目標網路的引數;
偏好條件網路:在原模型中增加偏好資訊作為額外條件;
模型組合:透過組合多個基模型的引數(如 PaMaL、LORPMAN 等方法)實現對所有 Pareto 解的緊湊表達。
在訓練過程中,這些方法通常採用隨機取樣使用者偏好,利用端到端的梯度下降最佳化對映網路引數,同時結合標量化目標或超體積最大化等策略,確保對映網路能夠覆蓋整個解集並實現穩定收斂。
理論分析
我們從收斂性和泛化性兩個角度總結了現有的 MOO 的理論分析:
收斂性:針對確定性(全梯度)和隨機梯度的情況,許多工作從 Pareto Stationary 角度出發,提供了收斂性證明。透過雙取樣、平滑移動平均以及近似求解子問題等策略,有效降低了隨機梯度帶來的偏差,加快了整體收斂速度,理論上可以達到單目標最佳化相近的收斂速率。
泛化性:許多工作探討了多目標深度學習模型的泛化能力,利用 Rademacher 複雜度等工具分析了標量化方法與梯度平衡方法在未見資料上的表現。
應用與挑戰
基於梯度的多目標最佳化方法已在多個前沿應用中展現出巨大潛力,主要包括:
計算機視覺(CV):應用於多工密集預測(如語義分割、深度估計、表面法向預測),實現任務間的協同提升。
強化學習(RL):在多目標強化學習中,同時最佳化獎勵、多樣性和安全性指標,使智慧體在複雜環境下表現更均衡。
神經架構搜尋(NAS):兼顧模型準確性與資源消耗(如 FLOPs、引數量、延遲),尋找適合嵌入式裝置的高效架構。
推薦系統:除準確度外,整合新穎性、多樣性、使用者公平等指標,為個性化推薦提供最佳化支撐。
大語言模型(LLM):(1)多工微調:在預訓練語言模型的基礎上,針對多個下游任務同時微調,可以提高模型的效率和泛化能力;(2)多目標對齊:在訓練階段,透過多目標演算法同時最佳化多個目標(如安全性、有用性、幽默性等),以使模型的輸出更好地滿足使用者在不同方面的偏好。
儘管多目標最佳化方法已取得諸多進展,但仍面臨一些亟待解決的問題:比如:理論泛化分析不足, 計算開銷與高效性問題, 高維目標與偏好取樣挑戰, 分散式訓練與協同最佳化以及大語言模型的多目標最佳化。
多目標演算法庫
我們開源了多目標深度學習領域的兩大的演算法庫:LibMTL 和 LibMOON。
LibMTL 是一個專為多工學習設計的開源庫,支援超過 20 種多工演算法。它在 GitHub 上已收穫超過 2200 個 Star,並被機器學習頂刊《Journal of Machine Learning Research》(JMLR)接收。
專案地址:https://github.com/median-research-group/LibMTL
LibMOON 是一個專注於多目標最佳化的開源框架,支援超過 20 種多目標演算法,能夠高效尋找多個 Pareto 最優解。其相關工作已被人工智慧頂會 NeurIPS 2024 接收。
專案地址:https://github.com/xzhang2523/libmoon
結語
本綜述旨在為多目標深度學習領域提供一份全面的資源整合。我們系統地梳理了從演算法設計、理論分析到實際應用的各個方面,並深入探討了未來發展面臨的挑戰。無論您的研究重點是多工學習、強化學習,還是大語言模型的訓練與對齊,相信都能在本文中找到有價值的見解與啟發。我們也認識到,當前的工作可能未能完整涵蓋該領域的所有研究成果,如果你有任何建議或補充,歡迎訪問我們的 GitHub 倉庫,並提交 Issue 或 Pull Request,讓我們攜手推動這一領域的發展,共同進步!