SiMBA:基於Mamba的跨影像和多元時間序列的預測模型

deephub發表於2024-03-31

這是3月26日新發的的論文,微軟的研究人員簡化的基於mamba的體系結構,並且將其同時應用在影像和時間序列中並且取得了良好的成績。

語言模型的發展正在從大型語言模型(LLMs)向小型語言模型(SLMs)轉變。llm和slm的核心都是transformers,它是llm和slm的構建模組。雖然transformers透過其注意力網路已經證明了其跨領域的卓越效能,但注意力存在許多問題,包括低歸納偏置和輸入序列長度的二次複雜度。

狀態空間模型(ssm)在處理資訊密集資料建模方面效率較低,特別是在計算機視覺等領域,並且在基因組資料等離散場景中面臨挑戰。為了解決典型狀態空間模型難以有效處理長序列的問題,最近提出了一種選擇性狀態空間序列建模技術Mamba。但是Mamba卻有穩定性問題,當擴充套件到計算機視覺資料集的大型網路時,訓練損失不收斂。

來自微軟的研究人員介紹了SiMBA,這是一種引入EinFFT進行通道建模的新架構。SiMBA體系結構將Mamba用於序列建模,並引入EinFFT作為一種新的通道建模技術。有效地解決了在擴充套件到大型網路時在Mamba中觀察到的不穩定性問題。該方法突出了基於卷積模型、transformers模型、mlp混頻器、頻譜混頻器模型和狀態空間方法的各種模型。論文還介紹了將卷積與transformers或頻譜方法相結合的混合模型。

SiMBA的通道混合包含三個主要元件:頻譜變換、使用愛因斯坦矩陣乘法的頻譜門控網路和逆頻譜變換。EinFFT透過在複數表示上應用愛因斯坦矩陣乘法來利用頻域通道混合。這使得能夠提取具有增強的全域性可見性和能量集中度的關鍵資料模式。Mamba結合MLP進行通道混合可以彌補小規模網路的效能差距,但對於大型網路可能存在同樣的穩定性問題。結合EinFFT, Mamba解決了小型和大型網路的穩定性問題。

https://avoid.overfit.cn/post/c21aa5ca480b47198ee3daefdc7254bb

相關文章