
最終更新梯度
與所有損失項的最佳化梯度均不衝突。
在每個特定損失梯度上的投影長度是均勻的,可以確保所有損失項以相同速率進行最佳化。
長度可以根據損失項之間的衝突程度自適應調整。

論文地址:https://arxiv.org/abs/2408.11104
專案主頁:https://tum-pbs.github.io/ConFIG/
GitHub: https://github.com/tum-pbs/ConFIG













具體最佳化方向:相比於直接求解梯度矩陣的逆,ConFIG 方法求解了歸一化梯度矩陣的逆,即
,其中
表示第
個梯度向量的單位向量。可以證明,變換後
向量的每個分量代表了每個梯度
與最終更新梯度
之間的餘弦相似度。因此,透過設定
分量的不同值可以直接控制最終更新梯度對於每個損失梯度的最佳化速率。在 ConFIG 中,
被設定為單位向量以確保每個損失具有相同的最佳化強度從而避免某些損失項的最佳化被忽略。
最佳化梯度大小:此外,ConFIG 方法還根據梯度衝突程度調整步長。當梯度方向較一致時,加快更新;當梯度衝突嚴重時,減小更新幅度:
, 其中
為每個梯度與最終更新方向之間的餘弦相似度。

使用梯度的動量(指數移動平均)代替梯度進行 ConFIG 運算。
在每次最佳化迭代中,僅對一個或部分損失進行反向傳播以更新動量。其它損失項的動量採用之前迭代步的歷史值。










