Mamba 雖好,但發展尚早。
論文標題:A Survey of Mamba 論文地址:https://arxiv.org/pdf/2408.01129
Mamba-360: Survey of state space models as transformer alternative for long sequence modelling: Methods, applications, and challenges. arXiv:2404.16112
State space model for new-generation network alternative to transformers: A survey. arXiv:2404.09516
Vision Mamba: A Comprehensive Survey and Taxonomy. arXiv:2405.04404
A survey on vision mamba: Models, applications and challenges. arXiv:2404.18861
A survey on visual mamba. arXiv:2404.15956
離散化
卷積計算
整合方法:將 Mamba 塊與其它模型整合到一起,實現效果與效率的平衡; 替換方法:用 Mamba 塊替換其它模型框架中的主要層; 修改方法:修改經典 Mamba 塊內的元件。
展平式掃描方法:以展平的視角看待 token 序列,並基於此處理模型輸入; 立體式掃描方法:跨維度、通道或尺度掃描模型輸入,這又可進一步分為三類:分層掃描、時空掃描、混合掃描。
如何開發和改進基於 Mamba 的基礎模型; 如何充分實現硬體感知型計算,以儘可能利用 GPU 和 TPU 等硬體,提升模型效率; 如何提升 Mamba 模型的可信度,這需要安全和穩健性、公平性、可解釋性以及隱私方面的進一步研究; 如何將 Transformer 領域的新技術用於 Mamba,如引數高效型微調、災難性遺忘緩解、檢索增強式生成(RAG)。