AAAI 2025 | 用於韋伯區位問題的去奇異性次梯度方法

机器之心發表於2024-12-30
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

暨南大學通用機器學習課題組由網路空間安全學院和資訊科學技術學院的多名青年教師、博士生、碩士生和本科生共同組成,研究方向包括通用逼近理論、分佈外泛化、非凸最佳化、稀疏學習、深度學習框架的基礎模組開發、最佳化器開發、隱私保護與增強等。自 2024 年 4 月至 12 月,課題組作為第一單位已獲得所有 CCF A 機器學習國際頂級會議 ICML(2 篇)、NeurIPS 和人工智慧國際頂級會議 IJCAI、AAAI 錄用論文共 5 篇。本文第一作者為課題組負責人賴兆榮,通訊作者為博士生李程,其他合作作者為課題組教師吳小天、方良達、陳子良。

問題背景

韋伯區位問題源自一個經典的運籌最佳化問題,它首先由著名數學家皮耶・德・費馬提出,後被著名經濟學家阿爾弗雷德・韋伯(著名社會學家馬克斯・韋伯的弟弟)擴充套件,在機器學習、人工智慧、金融工程及計算機視覺等眾多領域均有廣泛應用。在一般定義下,該問題的目標在於找到一個「中心點」x_*,使得這個中心點到 m 個給定資料點 x_i 的加權距離之和最小 [1][2]:
圖片
這裡有兩個重要引數:用作距離的 l_p 範數中的 p 值,以及距離的冪次 q。一般考慮 p>=1 且 1<=q<=p。p=2 表示常用的歐氏距離;p=1 表示曼哈頓距離,代表一種重要的非歐幾何。允許這兩個變化引數有助於增強韋伯區位問題的表達力和對更廣泛任務的適應性。

為直入主題,計算 (1) 式中損失函式的梯度如下:
圖片
其中上標 t 表示第 t 維,並假設資料點 x_i 屬於 d 維實空間(1<=t<=d)。容易看出,當 q<p 或 p<2 時,若 y 剛好擊中如下奇異集,則梯度不存在:
圖片
其中 1<=q<p,p=2 的情形相對比較簡單,每個資料點即為奇異點,所以總共只有有限個奇異點,如下圖所示。該情形已由本課題組的 IJCAI 2024 論文解決 [3]。
圖片
而 1<=q<=p,1<=p<2 的情形就要複雜很多了。由於 p=2 的情形只有有限個奇異點(如下圖左的紅點所示),所以只要成功設計出一個能保持損失函式下降性質的演算法,則可以保證最多隻經過每個奇異點一次並脫離奇異集。但對於 1<=p<2 的情形,奇異集是一個包含無限個點的連續點集合(如下圖右的紅色虛線及紅點所示),所以演算法可能重新訪問奇異集無限次並最終不會逃離奇異集。
圖片
該奇異性問題經常且意外地發生。造成奇異性的初始或中間迭代點可在 d>=2 維實空間中的一個開集中稠密,甚至充滿整個 d 維實空間 [4]。更為嚴重的是,該問題無法依靠簡單直觀的手段來回避,例如隨機擾動迭代點使其離開奇異集,或者重選一個隨機初始點,等等。事實上,只要採用本文提出的去奇異性次梯度方法,即可在不增加計算複雜度(與一般梯度法相比)的有利條件下解決該奇異性問題,因此完全不需要再借助其他迴避手段。
圖片
  • 論文標題:De-singularity Subgradient for the q-th-Powered L_p-Norm Weber Location Problem

  • 論文連結:http://arxiv.org/abs/2412.15546

  • 專案地址:https://github.com/laizhr/qPpNWAWS

去奇異性次梯度法

本文提出一種解決奇異性問題的直觀方法:識別出引發奇異性的資料點及維度,然後把相應的分量去除掉。首先是識別出引發奇異性的資料點及維度,分別用集合 V_t (y) 和 U_i (y) 來表示。
圖片
下圖是 V_t (y) 和 U_i (y) 的一個直觀示意圖。
圖片
然後使用定義 5 來定義去奇異性次梯度 D_{p,q}(y)。
圖片
接著,我們需要驗證這個去奇異性次梯度 D_{p,q}(y) 具有與普通梯度類似的良好性質。例如,它要能夠刻畫最小值點(定理 6)和下降方向(定理 7)。這些刻畫的關鍵技術在於引入 p 範數的共軛範數,即使得 1/r+1/p =1 成立的 r 範數。
圖片
圖片
基於 q 次方 p 範數的去奇異性 Weiszfeld 演算法

獲得可行的去奇異性次梯度 D_{p,q}(y) 後,下一步就是建立可行的求解演算法。本文基於求解該問題常用的 Weiszfeld 演算法 [5][2],建立一種基於 q 次方 p 範數的去奇異性 Weiszfeld 演算法(簡記為 qPpNWAWS,如 18 式所示)。它在非奇異性情形下使用 (9) 式的常規 Weiszfeld 更新迭代,在奇異性情形下使用 (17) 式的沿下降方向線性搜尋法。
圖片
圖片
圖片
透過這種方式,qPpNWAWS 演算法可自由來回多次(甚至包括無限次)遊走於非奇異集與奇異集之間或之內,同時保證損失函式隨迭代下降,並最終收斂。在 1<p<2 這一嚴格凸情形下,qPpNWAWS 演算法甚至能進一步獲得更強的收斂性質,如迭代序列收斂到全域性最小值點,等等。具體演算法流程較為繁瑣複雜,請參閱論文附錄 A。演算法的收斂性定理、其他性質定理以及詳細證明也請參閱論文。

實驗結果

我們以 CSI300 資料集 [3] 為例簡單介紹實驗結果,其他資料集以及詳細實驗結果請參閱論文。執行實驗的機器配置為:Intel Core i9-14900KF 中央處理器 1 個,64-GB DDR5 6000-MHz 記憶體,帶 16-GB 獨立視訊記憶體的 Nvidia RTX 4080 SUPER 顯示卡 1 張。

實驗一:

該實驗用於記錄 qPpNWAWS 演算法在奇異點需要幾次線性搜尋才能使損失函式下降。結果表明在絕大多數情形下只需不超過 3 次線性搜尋。
圖片
實驗二:

該實驗用於記錄 qPpNWAWS 演算法完整執行一次所需的總迭代次數以及總時間。結果表明在絕大多數情形下只需不超過約 15 次迭代以及 0.02 秒的總時間。
圖片
實驗三:

該實驗用於記錄 qPpNWAWS 演算法的實際計算收斂率。結果表明在絕大多數情形下收斂率均遠小於 1,即達到線性收斂速度。
圖片
實驗四:

該實驗主要測試不同 (q,p) 情形下使用 qPpNWAWS 演算法進行線上資產配置實驗 [6][7] 所得到的投資得分 —— 累計財富(CW)和夏普比率(SR)。結果表明一定數目的其他 (q,p) 情形(例如 (q,p)=(1,1.6))的得分要比原始版本 (q,p)=(1,2) 的得分高。因此解決 1<=q<=p,1<=p<2 情形下的奇異性問題有著非常重要的現實意義。
圖片
關於通用機器學習

通用機器學習是一個由多個研究方向有機結合而成的整體領域。其往往需要融會貫通多個數學類和計算機類學科的知識,攻關通用人工智慧中最為基礎的科學與技術難題。本文屬於該領域中的基礎模組開發與最佳化器開發研究方向。以下是近期本課題組在該領域的一些主要論文與主攻方向,歡迎閱讀並與我們交流討論。

  • [a]. Zhao-Rong Lai, Weiwen Wang*, "Invariant Risk Minimization Is A Total Variation Model", the 41st International Conference on Machine Learning (ICML, main track), 2024.(深度學習框架、分佈外泛化)
  • [b]. Yizun Lin, Yangyu Zhang, Zhao-Rong Lai*, Cheng Li,"Autonomous Sparse Mean-CVaR Portfolio Optimization", the 41st International Conference on Machine Learning (ICML, main track), 2024.(逼近理論、稀疏學習)
  • [c]. Yizun Lin, Zhao-Rong Lai*, Cheng Li,“A Globally Optimal Portfolio for m-Sparse Sharpe Ratio Maximization”, the 38th Annual Conference on Neural Information Processing Systems(NeurIPS, main track), 2024.(最佳化器開發、稀疏學習)
  • [d]. Zhao-Rong Lai, Xiaotian Wu, Liangda Fang, Ziliang Chen*, "A De-singularity Subgradient Approach for the Extended Weber Location Problem", the 33rd International Joint Conference on Artificial Intelligence (IJCAI, main track), 2024.(基礎模組開發、最佳化器開發)

參考文獻:
[1]. Weber, A. 1909. Uber den Standort der Industrien. Tubingen: Mohr.
[2]. Morris, J. G. 1981. Convergence of the Weiszfeld algorithm for Weber problems using a generalized “distance” function. Operations Research, 29(1): 37–48.
[3]. Lai, Z.-R.; Wu, X.; Fang, L.; and Chen, Z. 2024. A De-singularity Subgradient Approach for the Extended Weber Location Problem. In Proceedings of the 33rd International Joint Conference on Artificial Intelligence.
[4]. Chandrasekaran, R.; and Tamir, A. 1989. Open questions concerning Weiszfeld’s algorithm for the Fermat-Weber location problem. Mathematical Programming, 44: 293–295.
[5]. Weiszfeld, E.. Sur le point pour lequel la somme des distances de n points donnes est minimum. Tohoku Mathematical Journal, 43:355–386, 1937.
[6]. Li, B.; Sahoo, D.; and Hoi, S. C. 2016. OLPS: a toolbox for on-line portfolio selection. Journal of Machine Learning Research, 17(1): 1242–1246.
[7]. Huang, D.; Zhou, J.; Li, B.; Hoi, S. C. H.; and Zhou, S. 2016. Robust Median Reversion Strategy for Online Portfolio Selection. IEEE Transactions on Knowledge and Data Engineering, 28(9): 2480–2493.

相關文章