8人小團隊單挑OpenAI，半年仿出GPT-4o，還開源了

最近，一個對標 GPT-4o 的開源實時語音多模態模型火了。

這個開源模型來自法國一個僅有 8 人的非營利性 AI 研究機構 ——Kyutai，模型名為 Moshi，具備聽、說、看的多模態功能。圖靈獎得主 Yann LeCun 轉發說道：「Moshi 能聽懂帶有法國口音的英語。」據悉，該團隊開發這個模型僅用了 6 個月。

的確，在研究團隊演示的影片中，我們發現 Moshi 可以非常流利地回答人們提出的問題，進行日常對話交流，甚至可以猜出提問者的意圖。

例如，當提問者說「下個月打算去攀登珠穆朗瑪峰，我在想......」，提問者話說到一半，Moshi 就說道：「太了不起了，你需要帶些什麼裝備呢」，提問者則表示：「這正是我想討論的話題，你覺得我需要帶些什麼呢」。於是，Moshi 給出了一些攀登裝置的專業建議，並回答了關於注意事項的問題： 8人小團隊單挑OpenAI，半年仿出GPT-4o，還開源了

我們發現 Moshi 還會開些小玩笑：「你肯定不想穿著涼鞋去爬山」。

研究團隊還用各種說話風格展示了 Moshi 表達和理解情緒的能力。例如，讓 Moshi 用法國口音誦讀詩句： 8人小團隊單挑OpenAI，半年仿出GPT-4o，還開源了

不過這首詩太長了，研究人員打斷了 Moshi 的朗誦，Moshi 立即停了下來。

作為一個多模態大模型，Moshi 的角色扮演能力也是很強的，以海盜身份講述海上冒險故事，那也是張口就來： 8人小團隊單挑OpenAI，半年仿出GPT-4o，還開源了

當提問者問道海盜船叫什麼名字，Moshi 還反客為主，反問提問者：「你叫什麼名字，是什麼讓你過上了海盜生活？」不得不說，提問者此時顯得有些被動了。

最後，研究人員還讓 Moshi 用低聲細語講一個神秘的故事： 8人小團隊單挑OpenAI，半年仿出GPT-4o，還開源了

不過，Moshi 講的有些陶醉，研究人員多次打斷未果。最後還是研究人員壓低聲音，用跟 Moshi 類似的語氣提出下一個問題，才讓 Moshi 繼續回答了下一個問題，這大概就是用魔法打敗魔法吧。繼續回答問題時，研究人員表示對一些細節沒有興趣，Moshi 還是自顧自地繼續講，直到在大家的掌聲中，它才真的停止。

Moshi 的背後：合成資料立大功

Moshi 的設計目的是理解和表達情感，具有諸如用不同口音（包括法語）說話的能力。它可以聆聽和生成音訊和語音，同時保持文字思維的無縫流動。Moshi 的一個突出特點是能夠同時處理兩個音訊流，使其可以同時聆聽和說話。這種實時互動基於文字和音訊混合的聯合預訓練，利用來自 Helium 的合成文字資料，這是一個由 Kyutai 開發的 70 億引數語言模型。

Moshi 的微調過程涉及使用文字到語音 (TTS) 技術轉換的 100,000 個「口語風格」的合成對話。模型的語音在一個單獨的 TTS 模型生成的合成資料上進行訓練，實現了令人印象深刻的 200 毫秒端到端延遲。值得注意的是，Kyutai 還開發了一個可以在 MacBook 或消費級 GPU 上執行的 Moshi 小型版本，使其可以被更廣泛的群體使用。

Kyutai 強調負責任的 AI 使用，透過嵌入水印來檢測 AI 生成的音訊，這一功能目前仍在開發中。將 Moshi 作為開源專案釋出，彰顯了 Kyutai 對透明度和 AI 社群內協作開發的承諾。

Moshi 的核心是一個處理語音輸入和輸出的 70 億引數多模態語言模型。該模型採用雙通道輸入 / 輸出系統，同時生成文字 token 和音訊編解碼器。基礎文字語言模型 Helium 7B 從零開始訓練，然後與文字和音訊編解碼器聯合訓練。語音編解碼器基於 Kyutai 內部的 Mimi 模型，具有 300 倍的壓縮係數，可捕捉語義和聲音資訊。

訓練 Moshi 涉及嚴格的過程，微調了 100,000 個高度詳細的帶有情感和風格註釋的轉錄結果。文字轉語音引擎支援 70 種不同的情緒和風格，是根據一位名叫 Alice 的有執照的聲音達人錄製的 20 個小時的音訊進行微調的。該模型具有適應性，可以在不到 30 分鐘的音訊中進行微調。

Moshi 的部署展示了其效率。演示模型託管在 Scaleway 和 hug Face 平臺上，可以在 24 GB 的 VRAM 上處理兩個 batch size。它支援各種後端，包括 CUDA、Metal 和 CPU，並受益於 Rust 對推理程式碼的最佳化。增強的 KV 快取和提示快取有望進一步提高效能。

展望未來，Kyutai 對 Moshi 有雄心勃勃的計劃。團隊計劃釋出技術報告和開放模型版本，包括推理程式碼庫、7B 模型、音訊編解碼器和完整的最佳化堆疊。未來版本如 Moshi 1.1、1.2 和 2.0 將根據使用者反饋改進模型。Moshi 的許可旨在儘可能寬鬆，促進廣泛採用和創新。

總之，Moshi 體現了小型專注團隊在 AI 技術方面取得非凡進展的潛力。這個模型為研究輔助、頭腦風暴、語言學習等開闢了新途徑，展示了 AI 在端側部署時的變革力量。

LeCun 坐鎮，三十年 AI 老兵帶隊，

這是一支小而精的歐洲團隊

Kyutai 是歐洲首個致力於人工智慧開放研究的私人倡議實驗室，由 iliad 集團、CMA CGM 集團和 Schmidt Futures 於 2023 年 11 月共同創立，初始資金近 3 億歐元。

Kyutai 定位為人工智慧開放科學實驗室，是一個非營利組織，其使命是解決現代人工智慧的基本挑戰。Kyutai 專注於開發包含文字、聲音、影像等的大型多模態模型，旨在發明新的演算法來增強這些模型的能力、可靠性和效率。藉助 iliad 集團子公司 Scaleway 提供的計算能力，Kyutai 將歐洲最高效能的超級計算機用於人工智慧應用。

該實驗室堅決致力於人工智慧的民主化，並將自己定位為人工智慧開放科學的領導者。Kyutai 的野心不僅限於科學進步，還旨在與全球人工智慧生態系統分享其進展。

Kyutai 組建了一支由具有傑出學術和商業背景的優秀研究人員組成的團隊，在巴黎設有辦事處。其創始團隊包括：

執行長 Patrick Pérez：在計算機視覺和機器學習領域擁有三十多年經驗的專業人士；
首席擴充套件（scaling）官 Edouard Grave：在大語言模型和自然語言處理方面擁有專業知識；
首席科學官 Hervé Jégou：因對計算機視覺和壓縮域搜尋演算法的貢獻而聞名；
技術長 Laurent Mazaré：在應用數學、密碼學和機器學習方面經驗豐富；
首席建模官 Neil Zeghidour：前 Google DeepMind 研究員，專門研究生成音訊；
創始科學家 Alexandre Défossez：專門研究機器學習應用數學。

其中，前三人都是 Google Scholar 被引量高達 40000 + 的學術大牛。

CEO Patrick Pérez 碩士畢業於巴黎中央理工學院，博士在雷恩大學攻讀訊號處理專業。在創辦 Kyutai 之前，他是法資世界 500 強企業法雷奧（valeo）公司人工智慧副總裁兼 valeo.ai 的科學總監，valeo.ai 是一個專注於法雷奧汽車應用尤其是自動駕駛汽車的人工智慧研究實驗室。在加入法雷奧之前，他還曾在 Technicolor (2009-2018)、Inria (1993-2000、2004-2009) 和微軟劍橋研究院 (2000-2004) 擔任研究員。他的研究範圍包括多模態場景理解和計算成像。

首席擴充套件官 Edouard Grave 之前在 Facebook AI Research（FAIR）擔任研究科學家。他的研究目標是設計能夠理解自然語言的計算機系統。更確切地說，他的研究重點是為自然語言處理開發強大的機器學習演算法，這種演算法只需要最少的監督。他的工作的另一個重要方面是設計計算效率高的方法，從而將 AI 模型擴充套件到大規模資料集。

首席科學官 Hervé Jégou 曾在 FAIR 擔任高管，研究方向是大規模索引、人工智慧、機器學習及應用。他最出名的發明是「乘積量化（product quantization）」搜尋，它為最流行的向量搜尋庫 FAISS 和 ScanNN 提供了動力。此外，他還啟動了 FAISS 庫並編寫了它的第一個實現。

Kyutai 的科學委員會由三名國際知名人工智慧專家組成：韓國科學家 Yejin Choi，專門研究自然語言處理和計算機視覺；Yann LeCun（法國研究員、深度學習先驅、Meta 首席人工智慧科學家）和 Bernhard Schölkopf（以機器學習領域的工作而聞名的德國研究員）。

iliad 集團董事長兼創始人 Xavier Niel 表示：「歐洲擁有贏得人工智慧競賽所需的一切。透過在巴黎建立人工智慧開放研究實驗室，我們進一步加快了步伐。Kyutai 將為我們提供超高效能、可靠的人工智慧模型，整個歐洲人工智慧生態系統都將能夠從中受益。」

^{參考連結：https://moveitmagazine.com/2023/11/20/kyutai-europes-pioneering-ai-open-science-lab-launched-in-paris/}

^{https://www.marktechpost.com/2024/07/03/kyutai-open-sources-moshi-a-real-time-native-multimodal-foundation-ai-model-that-can-listen-and-speak/}

相關文章