AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文作者來自於港中文、清華和UIC。主要作者包括:餘甸之,港中文博士生;張欣妮,港中文博士生;陳焱凱,港中文博士;劉璦瑋,清華大學博士生;張逸飛,港中文博士;Philip S. Yu,UIC教授;Irwin King,港中文教授。
論文標題:Recent Advances of Multimodal Continual Learning: A Comprehensive Survey 論文連結:https://arxiv.org/abs/2410.05352 GitHub地址:https://github.com/LucyDYu/Awesome-Multimodal-Continual-Learning
挑戰 1 模態失衡:模態失衡是指多模態系統中不同模態的處理或表示不均衡,表現在資料和引數兩個層面。在資料層面,不同模態的資料可用性可能會在 CL 過程中發生顯著變化,出現極度不平衡的情況,如缺乏某些模態。在引數層面,不同模態元件的學習可能會以不同的速度收斂,從而導致所有模態的學習過程整體失衡。 挑戰 2 複雜模態互動:模態互動發生在模型元件中,在這些元件中,多模態輸入資訊的表徵明確地相互作用。這種互動給 MMCL 帶來了獨特的挑戰,主要體現在兩個互動過程中:模態對齊和模態融合。在模態對齊過程中,單個資料樣本的不同模態特徵往往會在連續學習過程中出現分散,這種現象被稱為 MMCL 中的空間紊亂。這種發散可能會導致更嚴重的效能下降。在模態融合方面,在非 CL 環境中使用的經典多模態融合方法在 MMCL 環境中可能會表現較差,因為不同的融合技術對解決遺忘問題有不同的效果。 挑戰 3 高計算成本:在 MMCL 中加入多種模態會大大增加計算成本,無論是在模型層面還是在任務層面都是如此。在模型層面,增加模態不可避免地會增加可訓練引數的數量。許多 MMCL 方法利用預訓練的多模態模型作為基礎。然而,不斷對這些大規模模型進行整體微調會帶來沉重的計算開銷。同樣,在特定任務層面,MMCL 方法可能會導致特定任務可訓練引數的持續積累,這些引數可能會超過預訓練模型中的引數數量,從而抵消了採用連續學習訓練模式的效率優勢。 挑戰 4 預訓練零樣本能力的退化:隨著預訓練模型的進步,MMCL 方法可以用這些強大的模型。這些預先訓練好的多模態模型經常會表現出零樣本能力。然而,在訓練過程中,該能力可能會減弱。這種退化風險可能導致未來任務上的嚴重效能下降,這被稱為 MMCL 中的負前向知識轉移。
基於正則化的方法:由於訓練中引數的自由移動導致災難性遺忘,基於正則化的方法旨在對引數施加約束來減少遺忘。 基於架構的方法:該類方法使用不同的模型引數處理不同的任務。基於正則化的方法共享所有引數來學習任務,這使得它們容易受到任務間干擾:即記住舊任務會嚴重干擾新任務的學習,導致效能下降,尤其是在前向知識轉移為負時。相比之下,基於架構的方法透過引入特定於任務的元件來減少任務間干擾。 基於重放的方法:該類方法利用一個情節記憶緩衝區來重放來自先前任務的歷史例項,例如資料樣本,從而幫助在學習新任務時保持早期知識。這種重放例項的方法避免了基於正則化的方法的嚴格約束,並規避了在架構基於的方法中動態修改網路架構的複雜性。 基於提示的方法:隨著大型模型的快速發展及其在連續學習環境中的應用,基於提示的方法最近應運而生,以更好地利用預訓練過程中獲得的豐富知識。這些方法的優勢在於只需最小的模型調整,減少了廣泛微調的需求,而與之前通常需要顯著微調或架構修改的方法不同。基於提示的方法的正規化透過在連續空間中應用少量提示引數來修改輸入,使得模型在學習額外的特定任務資訊時能夠保留其原有知識。
提高模態的數量與質量:表 3 中顯示,只有少數 MMCL 方法關注視覺和語言以外的模態。因此,在整合更多模態方面還有巨大的研究空間。此外,模態並不限於表 3 中列出的內容,還可能包括生物感測器、基因組學等,從而增強對新興挑戰的支援,尤其是在科學研究中的人工智慧應用(AI for science)。 更好的模態互動策略:許多現有的 MMCL 方法僅僅在網路架構中融合模態,而沒有深入理解或分析它們在訓練中的相互影響。因此,測量這種跨模態影響將是一個有趣且有前景的研究方向,以實現更細粒度的多模態互動。 引數高效微調的 MMCL 方法:引數高效微調(PEFT)方法提供了一種有效的解決方案,以最佳化訓練成本。雖然基於提示的方法是引數高效的,但在表 2 中可以看到,其他類別中僅有 MoE-Adapters4CL 利用了 PEFT 方法。因此,考慮到近年來湧現出眾多 PEFT 方法,將它們應用於減少 MMCL 方法的訓練成本是一個值得探索的方向。此外,除了簡單地應用現有 PEFT 方法,一個有前景的方向是為 MMCL 設定提出新的 PEFT 方法,並將其與其他 MMCL 技術良好整合。 更好的預訓練知識維護:由於許多 MMCL 方法使用了強大的多模態預訓練模型,因此在訓練過程中自然希望能夠記住其預訓練知識。遺忘預訓練知識可能會顯著影響未來任務效能。 基於提示的 MMCL 方法:基於提示的 MMCL 方法能有效應對挑戰 3:高計算成本,以及挑戰 4:預訓練零樣本能力退化。然而,如表 2 所示,基於提示的 MMCL 方法目前是最少的一類。鑑於基於提示的方法仍處於起步階段,因此進一步研究和發展的潛力巨大。 可信賴的多模態連續學習:隨著人們越來越關注隱私以及政府實施更多相關法規,對可信賴模型的需求正在上升。諸如聯邦學習(FL)等技術可以被用於使伺服器模型在不共享原始資料的情況下學習所有客戶端的資料知識。隨著眾多聯邦連續學習(FCL)方法的發展,將 FCL 方法擴充套件到 MMCL 將是一個有前景的發展方向,從而增強 MMCL 模型的可信賴性。