AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
論文第一作者為清華大學自動化系博士生韓東辰,指導老師為黃高副教授。他的主要研究方向包括高效模型架構設計、多模態大模型等。
Mamba 是一種具有線性計算複雜度的狀態空間模型,它能夠以線性計算複雜度實現對輸入序列的有效建模,在近幾個月受到了廣泛的關注。
本文給出了一個十分有趣的發現:強大的 Mamba 模型與通常被認為效能不佳的線性注意力有著內在的相似性:本文用統一的公式表述了 Mamba 中的核心模組狀態空間模型(SSM)和線性注意力,揭示了二者之間的密切聯絡,並探究了是哪些特殊的屬性和設計導致了 Mamba 的成功。
實驗結果表明,等效遺忘門和宏觀結構設計是 Mamba 成功的關鍵因素。本文透過分析自然地提出了一個新的模型結構:Mamba-Inspired Linear Attention(MILA),它同時繼承了 Mamba 和線性注意力的優點,在各種視覺任務中表現出超越現有的視覺 Mamba 模型的精度,同時保持了線性注意力優越的平行計算與高推理速度。
論文連結:https://arxiv.org/abs/2405.16605 程式碼連結:https://github.com/LeapLabTHU/MLLA 影片講解:https://www.bilibili.com/video/BV1NYzAYxEbZ