通義釋出語音模型 MinMo:全雙工、多口音;MiniCPM-o :端側 GPT-4o 級視覺、語音、多模態實時流式大模型

RTE开发者社区發表於2025-01-15

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@qqq,@ 鮑勃

01 有話題的技術

1、MiniCPM-o :端側可用的 GPT-4o 級視覺、語音、多模態實時流式大模型

MiniCPM-o 是從 MiniCPM-V 升級的最新端側多模態大模型系列。該系列模型能夠以端到端的方式,接受影像、影片、文字、音訊作為輸入,生成高質量文字和輸出語音。自 2024 年 2 月以來,開發團隊以實現高效能和高效部署為目標,釋出了 6 個版本的模型。

目前系列中最值得關注的模型包括:

MiniCPM-o 2.6:MiniCPM-o 系列最新、效能最佳的模型。總引數量 8B,視覺、語音和多模態流式能力達到了 GPT-4o-202405 級別,是開源社群中模態支援最豐富、效能最佳的模型之一。在新的語音模式中,MiniCPM-o 2.6 支援可配置聲音的中英雙語語音對話,還具備情感/語速/風格控制、端到端聲音克隆、角色扮演等進階能力。模型也進一步提升了 MiniCPM-V 2.6 的 OCR、可信行為、多語言支援和影片理解等視覺能力。基於其領先的視覺 token 密度,MiniCPM-V 2.6 成為了首個支援在 iPad 等端側裝置上進行多模態實時流式互動的多模態大模型。

MiniCPM-V 2.6:MiniCPM-V 系列中效能最佳的模型。總引數量 8B,單圖、多圖和影片理解效能超越了 GPT-4V。它取得了優於 GPT-4o mini、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 等的單圖理解表現,併成為了首個支援在 iPad 等端側裝置上進行實時影片理解的多模態大模型。(@ OpenBMB@X)

2、8B 多模態語音大模型 MinMo,全雙工、強情感、多口音「聲情並茂 · 入戲走心」

阿里通義實驗室最新的一款多模態模型:MinMo。它主打「可無縫語音互動」,在語音對話場景中,用起來更自然、更貼近人類的說話方式,還能支援不同的語氣或方言。當用英語與 MinMo 聊天,討論電影時:全雙工語音互動意味著使用者和系統同時說話也不會亂,MinMo 可以在 100 毫秒左右將語音轉成文字,並在大約 600 毫秒的理論延遲或實際約 800 毫秒的條件下,完成雙向交流。

換句話說,問一句未完,MinMo 已經在分析並給出反饋,過程幾乎沒有停頓。更有趣的是,它對語音生成也進行了大幅升級。使用者可以指定情感、方言、說話風格,甚至是模仿某人的聲音。與 MinMo 用中文聊天,同時控制 MinMo 的口音(四川話、粵語等)在對話中:用中文與 MinMo 聊天,指導 MinMo 進行情感互動和角色扮演:這種多樣化的可控生成,讓它在語音對話、多語言識別、多語言翻譯、情感識別、說話人分析、音訊事件分析等任務上表現不錯。

官方還透露,他們有 140 萬小時的語音資料訓練,模型大約有 80 億引數,但依然能保持原本文字 LLM 的理解能力。

目前看來,MinMo 專注的仍是「無縫語音聊天」,讓人機對話像真人交流一樣自然順暢。與此同時,它也保有對指令的良好跟隨能力:可以基於文字或者語音的提示,實現中英文或方言的切換,情緒、聲線的選擇與模擬。對那些想快速原型或做智慧客服、語音助理的開發者而言,這似乎是個值得追蹤的進展。在整體趨勢上,大模型們正競爭著給使用者帶來「更真實的對話體驗」。(@AI 進修生)

3、英偉達開源影像生成模型 Sana ,1 秒生圖、支援中英文和 emoji

近日,英偉達開源了一款名為 Sana 的影像生成模型,這一模型僅有 0.6 億個引數,極大降低了執行門檻。

據瞭解,Sana 能夠生成 4096×4096 解析度的影像,並且可以在 16GB 的顯示卡上執行,不到 1 秒的時間內生成 1024×1024 解析度的高質量圖片,這一速度在同類模型中表現突出。

研究團隊引入了一種深度壓縮自編碼器(DC-AE),相比於傳統的自編碼器,Sana 的壓縮比高達 32 倍,大大減少了潛在標記的數量,這對於生成超高解析度影像至關重要。其次,Sana 採用了線性擴散變換器(DiT),用線性注意力取代了傳統的二次注意力,從而將複雜度降低到 O(N),並透過 3×3 深度卷積提升了區域性資訊的捕捉能力。這樣的設計使得 Sana 在生成 4K 影像時延遲提高了 1.7 倍。

在文字編碼方面,Sana 選擇了小型的解碼器專用大語言模型 Gemma,取代了傳統的 T5 模型。Gemma 在理解和執行復雜指令方面表現更為出色,增強了影像與文字之間的對齊能力。此外,Sana 還最佳化了訓練和推理策略,透過自動標記和選擇高 CLIP 評分的描述,提升了文字與影像的一致性。新提出的 Flow-DPM-Solver 演算法將推理步驟減少到了 14-20 步,顯著提高了效能。

綜合效能方面,Sana 在多個先進的文字到影像擴散模型中表現優異。在 512×512 解析度下,Sana-0.6 的吞吐量是 PixArt-Σ 的 5 倍,並且在影像生成質量方面表現出色。而在 1024×1024 解析度下,Sana-0.6B 在小於 3 億引數的模型中也有著顯著的優勢。

Sana-0.6B 不僅效能強勁,還可以在 16GB 的筆記本 GPU 上快速生成影像,助力內容創作者高效地實現創作目標。據稱,Sana0.6B 效能上和 Flux-12B 也具備競爭力,引數量只有其 1/20,速度卻是整整快 100 倍。

有趣的是,Sana 提示詞支援英文、中文和 emoji。使用者可以輸入中文詩句,生成與之相關的藝術影像。此外,Sana 還具有一定的安全性,當使用者輸入不當詞彙時,系統會自動用紅心圖案❤️替代,從而避免不適內容的生成。

值得一提的是,Sana 已獲得官方對 ComfyUI 的支援,並配備了 Lora 訓練工具。(@ AIbase 基地)

4、月之暗面海外產品負責人的 AI Coding 專案被投資人搶爆了,新一輪估值 8000 萬美元

(圖片來源:月之暗面)

根據藍鯨新聞報導,由前月之暗面海外產品 Noisee 創始人明超平發起的 AI Coding 專案「新言意碼」已完成兩輪融資,目前公司估值已達到 8000 萬美元。此次融資吸引了包括五源資本、高榕資本、真格基金、高瓴創投和 IDG 資本等在內的多家頂級投資機構。

高榕資本、FunPlus(遊戲公司趣加)、五源資本和真格基金為新言意碼第一輪融資的投資方。目前,公司主要與前月之暗面的股東進行溝通,尚未廣泛接觸其他潛在投資者。

新言意碼定位為 AI coding 應用,瞄準類似於美國智慧程式碼生成產品 Cursor 的市場,而 Cursor 當前估值已達 25 億美元。國內 AI coding 賽道同樣活躍,已有如 aiXcoder、AIGCode 和 Babel 等多家公司浮現,進一步推動該領域的發展。

此前,月之暗面曾曝出多位出海產品負責人離職創業,並在 9 月停更了兩款出海 to C 產品 Ohai 和 Noisee,轉而專注於 Kimi 產品的開發。此舉不僅是戰略收縮,亦體現了月之暗面對產品聚焦的決心。隨著 Noisee 的部分功能遷移至 Kimi,月之暗面顯然在為多模態產品的未來佈局。

這並不是第一次月之暗面的產品負責人離職。據公開資訊顯示,月之暗面大模型產品負責人王冠已於年初創辦 ONE2X。創業方向為 AI 影片,已經獲得了頂級機構的天使輪投資。

前 Ohai 產品負責人也於近期離職創業。Ohai 是月之暗面對標 Character.ai 的情感陪伴類產品,24 年 2 月在海外上線。(@ Z Finance )

02 有亮點的產品

1、Level AI:突破了傳統關鍵詞匹配的侷限,實現了對客服對話的深度理解。

Level AI 將先進的 AI 技術與實際的業務場景緊密結合。其核心產品建立在語義智慧的基礎之上,突破了傳統關鍵詞匹配的侷限,實現了對客服對話的深度理解。

產品亮點: 實時理解客戶意圖,實現自然互動和準確響應

差異化 1: 語義智慧(semantic intelligence)

Level AI 採用更深層的語義智慧(semantic intelligence)方案,能夠真正理解對話的上下文和意圖。同時,Level AI 的場景管理功能提供了一組預構建的場景,同時允許使用者建立特定於業務需求的自定義場景。

差異化 2: 動態調整內容(Dynamic Content Adaptation)

動態調整內容是一種先進的智慧互動系統功能,它透過持續監控和分析對話流程,實時調整回應的專業度和表達方式。這種系統能夠精準識別使用者的專業水平和需求特點,並據此提供相應的服務內容。

在技術支援中,系統能根據使用者的表達方式調整解決方案:面對普通使用者報告「網路連不上」時,提供簡單的重啟步驟;而當技術使用者提到「DNS 解析失敗」時,則直接給出專業的網路診斷方案。

在產品諮詢時,系統會根據使用者特徵調整介紹重點:向普通消費者重點展示手機的外觀和易用性,而對專業使用者則詳細說明技術引數;對攝影愛好者著重介紹相機功能,對遊戲玩家則側重效能分析。

在客服場景中,系統能識別使用者情緒並相應調整:對情緒激動的客戶,採用簡潔安撫的方式快速處理;對理性客戶,則提供完整的政策解釋和流程說明。

差異化 3: 客服質量管理(Quality control)

Level AI 構建了涵蓋服務指標、專業度評估和情感分析的綜合評估體系,並透過預警機制幫助企業及時發現潛在問題,同時系統的模組化設計既確保了部署靈活性,也強化了資料安全和隱私保護,為企業客服智慧化轉型提供了可靠的技術支援。(@ Z Potentials )

2、ChatGPT 新功能:Tasks 可設未來任務提醒

今天,OpenAI 正在為 ChatGPT 推出一項名為「Tasks」的新測試功能,該功能允許使用者安排未來的行動和提醒事項。

比如你想要在早上 7 點得到每日天氣預報,或者需要一個關於護照到期的提醒,又或者只是在睡前給孩子講一個敲敲門的笑話…… 現在,ChatGPT 可以透過安排一次性或重複性任務來處理所有這些事務。

「在聊天介面或者透過個人資料選單下的 Task 頁面,你可以安排希望 ChatGPT 執行的任務,比如每週傳送全球新聞簡報,獲取每天個性化的 15 分鐘鍛鍊計劃,或者為將來需要做的事情設定提醒。」

這項功能從今天開始向 Plus、Team 和 Pro 訂閱者推出,旨在使聊天機器人更接近於傳統的數字助手,你可以把它想象成擁有 ChatGPT 更高階語言能力的谷歌助手或 Siri。該功能同時支援了網頁端和 App 端。(@36 氪)

3、MiniMax 釋出 MiniMax-01 系列模型,強化超長文字處理能力

MiniMax 近日宣佈推出並開源其 MiniMax-01 系列模型。這一系列模型專為處理超長文字上下文及提升 AI 代理開發而設計。

MiniMax-Text-01 是該系列中的一款重要模型,其上下文視窗可支援高達 400 萬個標記(tokens),這相當於一個小型圖書館的書籍量。在大型語言模型(LLM)中,上下文視窗是指模型在一次輸入/輸出交換中能處理的資訊量,其中單詞和概念被表示為數值標記,這是 LLM 對其訓練資料的內部數學抽象。

此前,谷歌的 Gemini 1.5 Pro 模型以 200 萬個標記的上下文視窗領先,而 MiniMax-Text-01 則將此容量翻倍。MiniMax 表示,MiniMax-01 能有效處理高達 400 萬個標記,是其他主流模型容量的 20 至 32 倍,預計能支援未來一年內代理相關應用的激增,因為這些應用越來越需要擴充套件上下文處理能力和持續記憶體。

目前,這些模型已在 Hugging Face 和 GitHub 上以 MiniMax 自定義許可的形式提供下載,使用者可以直接在 Hailuo AI Chat(ChatGPT、Gemini、Claude 的競爭對手)上試用,也可透過 MiniMax 的應用程式程式設計介面(API)接入,供第三方開發者將其獨特應用與這些模型連結。

MiniMax 為文字和多模態處理提供 API,價格具有競爭力:每 100 萬個輸入標記 0.2 美元,每 100 萬個輸出標記 1.1 美元。相比之下,OpenAI 的 GPT-4o 透過其 API 每 100 萬個輸入標記收費 2.5 美元,價格高出 12.5 倍。

此外,MiniMax 整合了包含 32 個專家的混合專家(MoE)框架,以最佳化可擴充套件性。這種設計在保持關鍵基準測試上的競爭效能的同時,平衡了計算和記憶體效率。

MiniMax-01 的核心是閃電注意力(Lightning Attention)機制,這是一種創新的變壓器架構替代方案。該設計顯著降低了計算複雜性,模型包含 456 億個引數,每次推理啟用 459 億個。閃電注意力結合了線性和傳統 SoftMax 層,為長輸入實現了近線性複雜性。

MiniMax 重建了其訓練和推理框架,以支援閃電注意力架構,關鍵改進包括:MoE 全對全通訊最佳化,減少了 GPU 間通訊開銷;變長環形注意力,最小化了長序列處理的計算浪費;高效核心實現,定製的 CUDA 核心提高了閃電注意力的效能。這些進步使 MiniMax-01 模型在實際應用中更具可行性,同時保持了成本效益。

在主流文字和多模態基準測試中,MiniMax-01 與 GPT-4 和 Claude-3.5 等頂級模型相媲美,特別是在長上下文評估中表現出色。MiniMax-Text-01 在 400 萬個標記上下文的「針入草堆」任務中實現了 100% 的準確率,且隨著輸入長度的增加,效能下降微乎其微。(@ ATYUN)

03 有態度的觀點

1、獨角獸 Replit CEO 談從「人 - 機互動」到「AI-機互動」:重要的是保持適應能力和韌性

(圖片來源:Replit 官網)

Amjad Masad 表示,一個非常重要的技能是「生成力」,也就是快速生成新想法的能力。這可能比較難培養,但非常值得努力。「可以把它想象成一條流水線:你有想法,然後需要將這些想法初步生產出來,最後再讓其他人使用或與你協作。」

他有一個觀點稱之為「Amjad Law」,學習程式設計的回報每六個月就會翻倍。「學習一點點程式設計技能,比如如何與 AI 互動、如何閱讀程式碼並除錯,會帶來越來越大的收益。因為你能夠創造更多東西,能夠更輕鬆地開發出更完整的產品。」

「我們的工作方式將迅速發生變化,重要的是保持對這種變化的適應能力和韌性。現在有件事我覺得很難是做 roadmaps,尤其是涉及到 AI 相關的任何事情。實際上,AI 能影響到的任何領域都需要快速反應。」(@ Z Potentials)

更多 Voice Agent 學習筆記:

對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢

語音即入口:AI 語音互動如何重塑下一代智慧應用

Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……

幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記

市場規模超 60 億美元,語音如何改變對話式 AI?

2024 語音模型前沿研究整理,Voice Agent 開發者必讀

從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?

人類級別語音 AI 路線圖丨 Voice Agent 學習筆記

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章