MiniMax不聲不響出了款讓人驚喜的生產力產品:「海螺AI」大測評

机器之心發表於2024-04-25

繼 1 月推出國內首個基於 MoE 架構的千億引數量大語言模型 abab6 後,上週,通用人工智慧創業公司、中國估值最高的大模型公司之一 MiniMax 推出了萬億 MoE 模型 abab 6.5。根據 MiniMax 釋出的技術報告,在各類核心能力測試中,abab 6.5接近 GPT-4、 Claude 3 Opus 、Gemini 1.5 Pro 等世界領先的大語言模型

圖片

MiniMax 用業界標準的開源測試集測試兩個模型。abab 6.5系列包含兩個模型 abab 6.5和abab 6.5s,在知識、推理、數學、程式設計、指令遵從等維度與行業領先的語言模型進行了對比,結果如上。標註星號的為 MiniMax 呼叫API測試得到的結果,其餘分數來自對應的技術報告。

機器之心瞭解,MiniMax還基於自研大模型開發了一款生產力產品“海螺AI",且目前已經接入了 abab 6.5。

圖片

“海螺AI”的網頁介面,設計很簡潔,聽說讀寫,功能覆蓋比較全面。

從產品介面上看,“海螺AI”支援速讀長文、智慧搜尋、免費查資料、識圖、創作文案,還支援語音通話,是少數全面覆蓋 C 端使用者對大模型主要需求的 AI 助手。從目標使用者群來看,似乎包括學生、職場人士、內容創作者。

一、聽說俱佳:有問題?直接聊!

與 Claude -3 Opus、Mistral-Large、Gemini-1.5-Pro 等領先大語言模型相比,“海螺AI"的一大亮點是支援語音互動,也是我們最先體驗的功能。使用語音首先要有一個聽整天都不嫌膩的聲音,“海螺AI"為此提供了豐富選項,聽起來還比較自然,不會太機械和生硬。

第一次使用“海螺AI”是在花鳥市場買綠植,因為不懂行情就問了下它,小海螺展現出不錯的理解能力和反應速度,老闆開價 75 塊的天堂鳥最後被我們以 65 元的價格拿下。

圖片

當聊天物件換成思維跳躍、表達不完整甚至模糊的小孩子,“海螺AI”也能跟上節奏,給予陪伴。這位一年級小朋友第一次和它聊天就聊得不錯,還互報了名字。

圖片

和小朋友第一次聊天的部分內容

第二次聊天時“海螺AI"甚至主動叫出波妞的名字,迅速拉近兩人距離。面對孩子丟擲的冷笑話和諧音梗,“海螺AI"也能利落接茬。不過為了不讓話“掉在”地上,“海螺AI”有時會過於話癆。MiniMax不聲不響出了款讓人驚喜的生產力產品:「海螺AI」大測評

與一年級小朋友輕鬆聊天,對話還有些搞笑。

MiniMax 創始人閆俊傑曾提到自己 80 歲的阿公第一次用“海螺AI”就和它討論了四五十分鐘的歷史人物,“之前想不到有人會這麼來用它。”事實上,願意打字和大語言模型聊上多個回合的人並不多,更多人還是習慣語音,尤其是老人、小孩和視障人士。實時語音加上手機移動,大大降低了上手門檻,也擴充套件了產品的應用場景,會慢慢引發很多人的需求。

找“海螺AI”練口語就是一個例子。YouTube 上很多兩年前的英語學習影片仍有動輒千萬的播放量,足見英語學習的市場潛力。ChatGPT 剛出來時,最先湧現的一批場景應用也是口語陪練。點選主頁上的“和我語音通話”就能開始聊天模式,英文說明練習口語的意圖後,“海螺AI” 切換到英語模式,發音還挺標準。MiniMax不聲不響出了款讓人驚喜的生產力產品:「海螺AI」大測評

隨機找了個地方和海螺AI聊了幾句。

參照雅思口語主題,我們先模擬咖啡館場景互動又切換到大廠面試環節,這位免費教練都能引導你將話題展開來說。 和一些國外 AI 軟體不同,你不用太擔心嘴慢而被它搶話、打斷,交流起來比較從容。另外,聽不懂時還可以用中文發問,它也會用中文回答。

據報導, MiniMax 也是極少數下注語音大模型的團隊之一。利用長達數百萬小時高質量音訊資料進行訓練後,MiniMax 語音大模型效能在去年基礎能力上更進一步,效果已經不輸 ElevenLabs 和 OpenAI。

二、萬字長文、作業難題,輕鬆秒懂

如果說語音互動是“海螺AI”的一個亮點,那麼長文字處理能力就是它的基礎標配。幾百上千字的文章,人類掃一眼就知道大概,一篇 10 萬字論文不睡覺也要讀上至少一天,但好的大模型只要一兩分鐘。處理長文字的能力越強,AI 助手能做的事情就越多,一直以來,長文字也是兵家必爭之地。

從介紹上看,"海螺AI"的長文速讀能力包括快速提煉論文、財報、紀要、書籍要件的關鍵資訊和歸納總結,還能迅速總結微信公眾號文章的要點資訊和作者觀點。不會(或者懶得)寫任何提示也沒問題,找到引導案例,上傳文件就行。

圖片

對於媒體編輯來說,用最短時間獲取文章關鍵資訊的能力很重要。我們粗暴地將冗長的史丹佛2024 AI指數報告塞進對話方塊,沒有任何提示,雖然響應時間有點長,但"海螺AI"還是給出了閱讀筆記,基本覆蓋報告要點。

圖片

還是沒有任何提示,“海螺AI”比較好地總結了一篇 55 頁英文學術論文的內容:

圖片

這是哈佛大學沃頓商學院教授 Ethan Mollick 在社交媒體上轉發的一篇論文,關於學生學習方法效率的實證研究,題目是 Improving Students’ Learning With Effective Learning Techniques: Promising Directions From Cognitive and Educational Psychology

谷歌 DeepMind 在仿人足球領域取得的新進展發表在 Sience Robotics 。這一次,我們故意寫了一個比較複雜的提示,看看“海螺AI”能否遵從指令提取資訊:

“我是一個對機器人技術有極大興趣的媒體從業者,但是沒有相關的技術背景。請幫我深入理解這篇最新發表研究論文,並從以下幾個方面對論文進行詳細解讀:

1.論文的研究目標是什麼?要解決的重要問題是什麼?這個問題對於學界或者產業發展,有什麼重要意義?

2.論文提出了什麼新的思路、方法或模型?跟之前的方法相比有什麼特點和優勢?請儘可能參考論文中的細節進行分析。

3.論文透過什麼實驗來驗證所提出方法的有效性?實驗是如何設計的?實驗資料和結果如何?請引用關鍵資料加以說明。”

這是“海螺AI”返回的結果,還不錯。我們看到“海螺AI”也支援自定義智慧體,將常用的複雜提示建立成一個智慧體就能省去頻繁複制貼上提示模板的麻煩。

圖片

相關論文 Learning agile soccer skills for a bipedal robot with deep reinforcement learning

相比論文,更多人每天閱讀最多的文章可能來自微信公眾號。很多人會有“收集癖”,看到好的公眾號文章都會馬上點選收藏,想著日後再看,但大部分人都再也沒有開啟過。“海螺AI”還可以幫“收藏夾”減負。 比如,直接將《對話 MiniMax 閆俊傑:AGI 不是大殺器,是普通人每天用的產品》公眾號文章連結貼到對話方塊,就能領會要點:

圖片

如何好好睡一覺?不用讀完幾千字的文章吧,直接抓重點不好麼?

圖片

在父母幫助孩子完成家庭作業方面,AI 也是一個非常有用的工具,降低家長輔導過程中的心梗機率。“海螺AI”還支援影像識別(不過,一次只能輸入一張圖片),我們隨機拍下一道普通公立小學的低年級數學作業題,上傳,要求“海螺AI”用孩子聽得懂的話講解思路。

圖片

這是“海螺AI”的回覆:

圖片

我們又試了試帶有奧數性質的題目,好像也可以搞定。這是我們上傳的截圖:

圖片

因為沒有事先給出任何提示,“海螺 AI ”直接用設未知數的方式解答:

圖片

低年級學生肯定看不懂,我們要求它用卡通人物的口吻、提供更適合低年級學生的解題思路,效果還不錯:

圖片

孩子說自己懂了,我們又讓“海螺AI”出題考考是不是真掌握。不過新題目只是換了個數字,沒有什麼挑戰性:

圖片

三、押注 MoE ,成效漸顯

“海螺AI”接入的是 MiniMax 最新發布的萬億 MoE 模型 abab6.5。abab6.5 包含兩個模型 abab 6.5 和 abab 6.5s。abab 6.5 包含萬億引數,支援 200k tokens 的上下文(和 Claude 3 Opus 支援的上下文視窗相同,相當於約 30 萬漢字)。abab 6.5s 跟 abab 6.5 使用了同樣的訓練技術和資料,但更高效,支援 200k tokens 的上下文長度,可以 1 秒內處理近三萬字的文字。abab 6.5 研發過程中,MiniMax 找到了更多加速實現 Scaling Laws 的辦法,包括改進模型架構、重構資料 pipeline、訓練演算法及並行訓練策略最佳化等等。

今年 MoE( Mixture of Expert-混合專家模型)架構已經成為了大模型廠商的主流選擇,而 MiniMax 因為去年 6 月在國內率先投入 MoE 研發,賭上 80% 的算力和研發資源,從產品上看,目前已經嚐到了甜頭。

對於業務場景涉及大規模、實時 AI 應用的公司來說,MoE 能在大引數帶來處理複雜任務能力的同時,又因為 MoE 的稀疏啟用特性不會拖累計算效率,搞砸使用者體驗。據媒體報導,去年 MiniMax 同時為近千家客戶提供服務,模型平均每天處理數百億 tokens。如果未來要服務千萬級乃至億級使用者,繼續做稠密(dense)模型,生成 token 的成本和延時將變得無法接受。

四、雙輪驅動,跑通閉環

值得關注的是,MiniMax 是國內大模型獨角獸中業務佈局相對全面的一家:既有自研大模型技術,又有多款 toC 原生應用,也有面向企業和開發者的 toB 開放平臺。

面向企業和開發者,MiniMax 開放平臺透過開放 API 介面為零售、製造業、網際網路、內容、醫療等各個行業提供大模型技術,降低打造 AI 應用的門檻。API 呼叫已經形成商業模式。

在消費者市場,據不完全統計,包括 2022 年推出的 Glow、“海螺AI”以及一款定位沉浸式 AI 內容平臺的應用星野在內,MiniMax 至少已經推出了 4 款 AI 原生應用。據稱,星野月活已經達到千萬級別,星野的使用者可以透過購買不同的“會員許可權卡”來解鎖相應次數的對話額度。單看星野,已經跑通“有模型、有產品、有使用者、有商業化”的閉環。

大模型初創公司到底該怎麼做?業內眾說紛紜,有的認為應該專注基礎大模型,有的只做純應用。目前看來,MiniMax 的答案是要把木桶的各塊板子搭長,既要掌握底層技術也要做產品。閆俊傑不久前接受採訪時給出了判斷,資源排在前列的中國大模型創業公司很難在資源佔有量上領先對手一個量級,“拐點只可能來自技術、產品或者是商業化效率的領先。”除了技術上如何達到 GPT-4, MiniMax 今年另一個目標就是產品上如何將使用者規模翻十倍,單個產品能突破千萬 DAU。

相關文章