Mamba作者帶史丹佛同學、導師創業,Cartesia獲2700萬美元種子輪融資

机器之心發表於2024-12-13

要用 Mamba 做可以在任何地方執行的實時智慧系統。

Mamba 這種狀態空間模型(SSM)被認為是 Transformer 架構的有力挑戰者。近段時間,相關研究成果接連不斷。而就在不久前,Mamba 作者 Albert Gu 與 Karan Goel、Chris Ré、Arjun Desai、Brandon Yang 一起共同創立的 Cartesia 獲得 2700 萬美元種子輪融資。

圖片

Cartesia 創立於 2023 年。該團隊在相關部落格中寫到,他們的使命是「構建具有長記憶能力的實時智慧,無論你身在何處都能執行。」而其中一部分目標便是「把(Mamba)這些前沿模型帶給我們的客戶,幫助他們構建實時 AI 應用的未來。」

圖片

Albert Gu 的推文

Cartesia 是史丹佛人工智慧實驗室(Stanford AI Lab)多年來在 SSM 上研究成果的結晶,算得上是學術界到產業界成果轉化的又一典範。該團隊寫到:「在過去四年中,我們構建了 SSM 背後的理論,並對其進行了擴充套件,讓其可在文字、音訊、影片、影像和時間序列資料等多種模態下達到 SOTA 的結果。」

訊息釋出後,人們紛紛點贊,包括 Hugging Face 聯合創始人 Thomas Wolf 以及 Vercel CEO Guillermo Rauch。

圖片

Mamba 要落地,第一步是文字轉語音?

Transformer 的最大痛點就是線性注意力機制,這導致模型在處理長文字時計算量暴增,比如上下文增加 32 倍時,計算量將增加 1000 倍。Mamba 透過引入「SSM」,成功將計算量增長從平方級降至線性,不僅能處理百萬級 token 的長序列,還實現了 5 倍的推理吞吐量提升。

圖片

  • 論文連結:https://arxiv.org/ftp/arxiv/papers/2312/2312.00752.pdf

「SSM」的突破讓 Mamba 在語言建模方面的效果尤為出色,甚至能擊敗 Transformer。但從 Cartesia 的產品來看,Mamba 的主要作者 Albert Gu 首先把寶押在了文字轉語音上。

他們將 Cartesia 的使命定位為打造具有長期記憶能力、可以在任何地方執行的實時智慧系統。

Cartesia 的官方部落格寫道:「基於 Transformer 架構的模型仍有重要侷限,它們一次只能處理和生成很短的資訊(幾分鐘的音訊或幾秒鐘的影片),無法高效地保持互動狀態,在大多數硬體上實時執行的成本也太過昂貴。」而能將長序列資料壓縮成固定大小的狀態的 S4 和 Mamba 架構正好是這些問題的「特效藥」。

基於這樣的理念,Cartesia 在今年推出了第一個產品 Sonic。這是一個可部署在移動裝置上的文字轉語音模型,並提供 API 服務。

圖片

  • 試玩連結:https://play.cartesia.ai/text-to-speech

除了基礎的文字轉語音功能,Sonic 還支援聲音克隆,並允許使用者調節語速、情感、發音和口音等引數。

圖片

Sonic 目前支援 15 種語言,還可以按性別調整男性、女性和中性三種選項:

圖片

Cartesia 選擇了「最快、質量最高」作為 Sonic 的宣傳語:它可以在僅 90 毫秒內(大約是眨兩次眼睛的時間)流式輸出第一個音訊位元組,完美適用於實時和對話式體驗。

機器之心也嘗試了一下,Sonic 的速度確實是「超音速」級的,有點偏科,更擅長英語「母語」,中文的 AI 味仍然很重。Mamba作者帶史丹佛同學、導師創業,Cartesia獲2700萬美元種子輪融資Mamba作者帶史丹佛同學、導師創業,Cartesia獲2700萬美元種子輪融資Mamba作者帶史丹佛同學、導師創業,Cartesia獲2700萬美元種子輪融資

圖片
不過,從個人創作者和初創公司到大型企業,已有數千名客戶在使用 Sonic,主要用於數字人和遊戲場景。

例如,AI 模型平臺服務商 Cerebrium 將 Sonic 整合到了 AI Avatar 中,透過 Mistral-7B 提供對話能力,配合 Tavus 的動畫技術,實現了實時人機互動。在遊戲領域,Sonic 與 Ego 合作,為 NPC 角色注入了獨特的聲音個性。Mamba作者帶史丹佛同學、導師創業,Cartesia獲2700萬美元種子輪融資
從免費到企業級,Cartesia 提供多層定價方案:免費版可使用 1 萬字元;專業版 5 美元 / 月,支援 10 萬字元;創業版 49 美元 / 月,可用 125 萬字元;擴充套件版 299 美元 / 月,提供 800 萬字元額度;企業版則完全定製化。各版本的系統同時能處理多少個語音生成任務從 1 到 15 不等,超出字元限制後可按量計費。
圖片
為音訊和影片等富媒體訊號構建長上下文生成模型一直面臨著控制性差、容易出現偏差的挑戰。在過去幾個月,Cartesia 建立了一個新的 SSM 多流架構,可以在多個不同模態的資料流上並行,進行持續推理和生成。

Cartesia 在部落格中稱,「在這個新 SSM 架構基礎上,我們訓練了一個端到端的語音生成模型,它可以對文字進行精細控制以防止幻覺,同時保持端到端生成的超高真實感。這比之前的端到端音訊生成架構有了根本性的改進,克服了處理複雜、冗長和重複的文字時遇到的困難。

以下是一些「賣家秀」:

提示詞:你在以下時間有空嗎?上午 10:00、10:05、10:10、10:15、10:20、10:25、10:30、10:35、10:40、10:45、10:50 或 10:55?
Mamba作者帶史丹佛同學、導師創業,Cartesia獲2700萬美元種子輪融資
提示詞:How much wood could a woodchuck chuck if a woodchuck could chuck wood? A woodchuck would chuck as much wood as a woodchuck could chuck if a woodchuck could chuck wood.
Mamba作者帶史丹佛同學、導師創業,Cartesia獲2700萬美元種子輪融資
這個新模型(Sonic Preview)同樣也可以試玩,在未來幾周內將開放 API 服務。

Sonic Preview 目前還未開放除英語外的其他語種。不過,據我們在官方提供的 Playgound 中實測,Sonic Preview 的表現一般,「買家秀」和「賣家秀」差得還是有點大。至於部落格中寫的「超高真實感」嘛,可能還需繼續努力。 Mamba作者帶史丹佛同學、導師創業,Cartesia獲2700萬美元種子輪融資

團隊成員介紹

Cartesia 雖然才剛剛建立,但已經有了 30 餘位員工和多位顧問。該公司的網站寫到:「我們的創始團隊是在 Stanford AI Lab 互相認識的 PhD,我們在這裡發明了狀態空間模型 (SSM),這是一種用於訓練更高質量、更高效的大規模基礎模型的基本新原語。」

下面我們將簡單介紹 Cartesia 的一些主要創始成員。
圖片
Albert Gu,擔任首席科學家

Albert Gu,從 Stanford AI Lab 畢業的博士生之一,現在不僅擔任 Cartesia 首席科學家,同時也是卡內基・梅隆大學的助理教授。他還入選了《時代》雜誌 2024 年 AI 領域百大影響力人物榜單。
圖片
2023 年,他在自己的博士學位論文中提出了 S4 架構(Structured State Spaces for Sequence Modeling),之後他與 Tri Dao 合作的 Mamba 便是在這一架構基礎上的進一步泛化。
圖片
  • 論文地址:https://stacks.stanford.edu/file/druid:mb976vf9362/gu_dissertation-augmented.pdf

Karan Goel,擔任 CEO
圖片
Karan Goel 目前正在 Stanford AI Lab 就讀博士,導師為 Chris Ré 教授;此外,他的學術生涯中還得到了多位名師指導,其中包括李飛飛、Emma Brunskill、Jure Leskovec 和 Sidhartha Sinha 等多位史丹佛教授。

Goel 的研究方向非常廣泛,包括模型審計方法(Robustness Gym、Mandoline)和模型穩健性(Model Patching)、機器學習互動式資料系統(Meerkat)、序列建模新原語(S4)以及序列模型在音訊生成(SaShiMi)、影像和影片分類(S4ND)、時間序列預測和醫療應用(GERD Diagnosis)中的應用。

Chris Ré
圖片
Christopher Ré,Stanford AI Lab、基礎模型研究中心和機器學習研究組副教授。Cartesia 的其他所有聯合創始人都是他的學生。

Ré 是 AI 領域的最知名的研究者之一,其主導或參與的研究成果包括 Flash Attention、曾發表於 Science 封面的 Evo、NeurIPS 2023 Spotlight 論文 HyenaDNA、ICLR 2023 Spotlight 論文 Ask Me Anything 等等許多。

Arjun Desai
圖片
Arjun Desai 也是 Stanford AI Lab 一位在讀博士生。Akshay Chaudhari 和 Chris Ré 都是他的導師。其研究重點是訊號處理和機器學習,以及如何為醫療和科學領域的應用構建可擴充套件的部署和驗證系統。

Brandon Yang
圖片
Brandon Yang 也曾在 Stanford AI Lab 從事過博士研究,但中途離開學術界進入職場。之後先後在多家公司和團隊從事開發工作。2016 年,他參與創立了生產力平臺公司 Cadence 並擔任 CEO。之後又回到 Stanford AI Lab 擔任過一段時間的研究助理,在 Emma Brunskill 的指導下參與了生成對抗樹搜尋研究,並在吳恩達的指導下研究開發了一些用於醫學問題的機器學習演算法和資料集。

這段經歷之後,他又先後在 deeplearning.ai、谷歌、Snorkel AI 等公司工作。可以說具有非常豐富的學術界和產業界經歷。

其他成員

除了以上的聯合創始團隊,Cartesia 還吸納了另一些研究者和開發者的加入。
圖片
Cartesia 的技術團隊

Cartesia 也有一個相當厲害的顧問團隊。
圖片
  • Tri Dao:Together AI 首席科學家、普林斯頓大學電腦科學助理教授、Flash Attention 提出者、Mamba 的另一位作者。
  • Stefano Ermon,史丹佛大學電腦科學副教授。
  • Simran Arora,Stanford AI Lab 在讀博士,其一作論文《Ask Me Anything: A simple strategy for prompting language models》是 ICLR 2023 的 Spotlight 論文。
  • Sabri Eyuboglu,Stanford AI Lab 在讀博士,其一作論文《Simple linear attention models balance the recall-throughput tradeoff》獲得了 ICML 2024(用於基礎模型的高效系統研討會) 的最佳論文獎。
  • Ishaan Preet Singh,投資者之一,曾參與投資了多家創業公司。

擴充閱讀:

  • 挑戰Transformer的Mamba是什麼來頭?作者博士論文理清SSM進化路徑
  • 五倍吞吐量,效能全面包圍Transformer:新架構Mamba引爆AI圈

參考連結:
https://x.com/_albertgu/status/1867276846917906592
https://www.cartesia.ai/blog/seed

相關文章