要用 Mamba 做可以在任何地方執行的實時智慧系統。
Mamba 這種狀態空間模型(SSM)被認為是 Transformer 架構的有力挑戰者。近段時間,相關研究成果接連不斷。而就在不久前,Mamba 作者 Albert Gu 與 Karan Goel、Chris Ré、Arjun Desai、Brandon Yang 一起共同創立的 Cartesia 獲得 2700 萬美元種子輪融資。
Cartesia 創立於 2023 年。該團隊在相關部落格中寫到,他們的使命是「構建具有長記憶能力的實時智慧,無論你身在何處都能執行。」而其中一部分目標便是「把(Mamba)這些前沿模型帶給我們的客戶,幫助他們構建實時 AI 應用的未來。」
Albert Gu 的推文
Cartesia 是史丹佛人工智慧實驗室(Stanford AI Lab)多年來在 SSM 上研究成果的結晶,算得上是學術界到產業界成果轉化的又一典範。該團隊寫到:「在過去四年中,我們構建了 SSM 背後的理論,並對其進行了擴充套件,讓其可在文字、音訊、影片、影像和時間序列資料等多種模態下達到 SOTA 的結果。」
訊息釋出後,人們紛紛點贊,包括 Hugging Face 聯合創始人 Thomas Wolf 以及 Vercel CEO Guillermo Rauch。
Mamba 要落地,第一步是文字轉語音?
Transformer 的最大痛點就是線性注意力機制,這導致模型在處理長文字時計算量暴增,比如上下文增加 32 倍時,計算量將增加 1000 倍。Mamba 透過引入「SSM」,成功將計算量增長從平方級降至線性,不僅能處理百萬級 token 的長序列,還實現了 5 倍的推理吞吐量提升。
論文連結:https://arxiv.org/ftp/arxiv/papers/2312/2312.00752.pdf
「SSM」的突破讓 Mamba 在語言建模方面的效果尤為出色,甚至能擊敗 Transformer。但從 Cartesia 的產品來看,Mamba 的主要作者 Albert Gu 首先把寶押在了文字轉語音上。
他們將 Cartesia 的使命定位為打造具有長期記憶能力、可以在任何地方執行的實時智慧系統。
Cartesia 的官方部落格寫道:「基於 Transformer 架構的模型仍有重要侷限,它們一次只能處理和生成很短的資訊(幾分鐘的音訊或幾秒鐘的影片),無法高效地保持互動狀態,在大多數硬體上實時執行的成本也太過昂貴。」而能將長序列資料壓縮成固定大小的狀態的 S4 和 Mamba 架構正好是這些問題的「特效藥」。
基於這樣的理念,Cartesia 在今年推出了第一個產品 Sonic。這是一個可部署在移動裝置上的文字轉語音模型,並提供 API 服務。
試玩連結:https://play.cartesia.ai/text-to-speech
除了基礎的文字轉語音功能,Sonic 還支援聲音克隆,並允許使用者調節語速、情感、發音和口音等引數。
Sonic 目前支援 15 種語言,還可以按性別調整男性、女性和中性三種選項:
Cartesia 選擇了「最快、質量最高」作為 Sonic 的宣傳語:它可以在僅 90 毫秒內(大約是眨兩次眼睛的時間)流式輸出第一個音訊位元組,完美適用於實時和對話式體驗。
機器之心也嘗試了一下,Sonic 的速度確實是「超音速」級的,有點偏科,更擅長英語「母語」,中文的 AI 味仍然很重。
提示詞:你在以下時間有空嗎?上午 10:00、10:05、10:10、10:15、10:20、10:25、10:30、10:35、10:40、10:45、10:50 或 10:55?
提示詞:How much wood could a woodchuck chuck if a woodchuck could chuck wood? A woodchuck would chuck as much wood as a woodchuck could chuck if a woodchuck could chuck wood.
Sonic Preview 目前還未開放除英語外的其他語種。不過,據我們在官方提供的 Playgound 中實測,Sonic Preview 的表現一般,「買家秀」和「賣家秀」差得還是有點大。至於部落格中寫的「超高真實感」嘛,可能還需繼續努力。
論文地址:https://stacks.stanford.edu/file/druid:mb976vf9362/gu_dissertation-augmented.pdf
Tri Dao:Together AI 首席科學家、普林斯頓大學電腦科學助理教授、Flash Attention 提出者、Mamba 的另一位作者。 Stefano Ermon,史丹佛大學電腦科學副教授。 Simran Arora,Stanford AI Lab 在讀博士,其一作論文《Ask Me Anything: A simple strategy for prompting language models》是 ICLR 2023 的 Spotlight 論文。 Sabri Eyuboglu,Stanford AI Lab 在讀博士,其一作論文《Simple linear attention models balance the recall-throughput tradeoff》獲得了 ICML 2024(用於基礎模型的高效系統研討會) 的最佳論文獎。 Ishaan Preet Singh,投資者之一,曾參與投資了多家創業公司。
挑戰Transformer的Mamba是什麼來頭?作者博士論文理清SSM進化路徑 五倍吞吐量,效能全面包圍Transformer:新架構Mamba引爆AI圈