百萬tokens僅需8毛,不蒸餾造出世界一流大模型,豆包全新1.5Pro不走捷徑

机器之心發表於2025-01-23

馬上就要進入蛇年了,國內的 AI 廠商們卻完全沒有閒下來的意思,正在春節前扎堆釋出各自的新一代大模型。

本週一,豆包剛剛上線了全新的實時語音功能,可說是在中文語音對話方面做到了斷崖式領先,為終端使用者帶來了智商與情商雙高的實時語音助手和聊天夥伴。

第二天,月之暗面與 DeepSeek 都各自推出了可比肩滿血版 o1 的推理模型,吸引了中外無數眼球。

而再一天後,也就是昨天,豆包大模型又迎來了一次重大的版本更新:豆包大模型 1.5Pro 版本。看完該版本模型的更新詳情與技術部落格後,我們的第一感覺是:開發者有福了!

圖片
具體來講,此次豆包大模型 1.5Pro 版本包括了基礎模型 Doubao-1.5-pro (又包括 32k 和 256k 上下文長度)、新版豆包視覺理解模型 Doubao-1.5-vision-pro、全新豆包實時語音模型 Doubao-1.5-realtime-voice-pro。與此同時,輕量級模型 Doubao-1.5-lite(32k 上下文長度)具有極致響應速度,效果與時延均達到全球一流水平。

整體比較的話,1.5Pro 版本不僅比前代模型更強了,而且強了很多 —— 不僅基礎能力得到顯著增強,其多模態能力也得到了全面提升,在多項公開評測基準上都達到了全球領先。事實上,本週一豆包釋出的實時語音功能就是基於該版本實時語音模型開發的。
圖片
Doubao-1.5-pro 在多項基準上都超過了其它 SOTA 模型

更重要的是,Doubao-1.5-pro 的提升擁有紮實的基礎 —— 其在訓練過程中沒有使用任何其它模型生成的資料。也就是說,Doubao-1.5-pro 是完全基於自主資料生產體系訓練的模型,沒有透過蒸餾其它模型來「走捷徑」

在開發者尤為關注的使用成本方面,豆包大模型一開始就堅持「訓練-推理」一體設計,以便在模型效能和推理成本之間取得最優的平衡。

此次更新更是進一步提升了豆包大模型的價效比:32k 上下文長度的 Doubao-1.5-pro 處理 1000 token 僅需 0.0008 元,換算下來,處理 100 萬 token 僅需 8 毛錢!輸出 1000 token 也只需 0.002 元。256k 上下文長度的模型的定價會更高一點,但它也能支援更加複雜的任務。
圖片
更注重速度的 Doubao-1.5-lite 還更便宜,推理輸入單價為 0.0003 元/千 tokens,推理輸出單價為 0.0006 元/千 tokens。

如此低的費率讓豆包大模型非常適合作為日常 AI 應用與智慧體的底座。並且有媒體爆料稱,即便 Doubao-1.5 系列模型的定價已經如此之低,也仍有非常不錯的盈利空間:在火山引擎上以 API 形式提供 Doubao-1.5-pro 擁有高達 50% 的毛利率。

不僅如此,火山方舟也進一步最佳化了基於豆包大模型開發和部署應用的流程,讓開發者可以更輕鬆地將創意變成具體的產品和服務。

目前,Doubao-1.5-pro 已在豆包 APP 灰度上線,同時,開發者也可在火山引擎直接呼叫 API 。

  • 火山引擎產品頁面(也可免費體驗):https://www.volcengine.com/product/doubao
  • 技術部落格地址:https://team.doubao.com/zh/special/doubao_1_5_pro

豆包 1.5Pro 實測效果卓越
輕鬆拿捏推理 & 全模態任務

在上線之後,機器之心馬上對「新鮮出爐」的豆包大模型 1.5Pro 版本來了一波實測。首先來個簡單的邏輯推理題:「如果昨天是明天的話就好了,那麼今天就是週五了。請問:實際上,句中的今天可能是周幾?」Doubao-1.5-pro-32k 輕鬆地分析出了該問題的兩種可能情況。
圖片
再考它一道經典的「真話者與說謊者」題,大模型只有具備了強大的問題解構與重構以及逆向思維能力,才有可能找到破解的關鍵點。Doubao-1.5-pro-32k 做到了遊刃有餘。
圖片
接下來測試 Doubao-1.5-vision-pro,看看這個視覺理解能力全球領先的多模態大模型能否經受住我們的考驗。首先,我們扔給模型一張梗圖,從結果看起來,Doubao-1.5-vision-pro 顯然 get 到了梗圖中表達的「深意」。
圖片
再讓它做一道數學題,出自 2024 年高考全國甲卷理科數學試題,Doubao-1.5-vision-pro 僅用 30 秒就給出了正確答案和詳細的解題思路。
圖片
簡單測試下來,我們最大的感受是:豆包大模型 1.5Pro 版本不僅正確率高,而且速度還非常快,足以滿足日常生活工作的各種需求。

如前所述,該版本模型全模態能力中的語音互動,我們已經提前在豆包 App 上體驗過了。據介紹,基於 Doubao-1.5-realtime-voice-pro 打造的實時語音通話功能,其表現力迎來了質的飛躍,並在擬人化、情緒理解、情感表達等多樣化場景中給了所有人不小的震撼,真正做到了會哭會笑,還能說方言唱歌。百萬tokens僅需8毛,不蒸餾造出世界一流大模型,豆包全新1.5Pro不走捷徑
Doubao-1.5-pro 背後的技術
從 MoE 到高效後訓練

Doubao-1.5-pro 的卓越表現究竟來自何處?簡單來說:稀疏 MoE 架構以及從預訓練到後訓練和推理階段的層層創新。

稀疏 MoE 結構天然具有低成本、低算力需求、效率高的優勢,可以在保持模型效能的同時,以更少的算力投入獲得更高的產出。這成為 Doubao-1.5-pro 選擇此結構的重要原因。

在預訓練階段,豆包大模型團隊完成了一項重要成果:從稀疏度 Scaling Law 出發,確定效能和效率比較平衡的稀疏比例,讓小引數量啟用的模型同樣能夠達到當前世界一流大模型的效能

具體來講,基於模型結構和訓練演算法最佳化,Doubao-MoE 和 Doubao-Dense 在使用完全相同的 9T tokens 部分訓練資料情況下,MoE 模型的效能略優於 Dense 模型,並且 MoE 模型的啟用引數量僅為 Dense 模型整體引數量的 1/7,完成了「小打大」。作為對比,此前業界最高可以實現不到 3 倍的效能槓桿,而 Doubao-MoE 將這一水平提高了一大截,效能槓桿拉高到了 7 倍
圖片
Doubao-MoE 與 Doubao-Dense 的訓練損失曲線對比

不僅如此,得益於更優的預訓練資料質量和訓練超參,Doubao-MoE 的效能同樣可以超越總引數遠大於它的超大規模稠密預訓練模型,比如 LLaMA-3.1-405B,其訓練資料為 15T tokens。小引數模型能有這樣不俗的表現,再次驗證了 MoE 結構的成效。同時,MoE 模型完整訓練後的效能比 9T tokens 資料的中間版本有了更大提升。
圖片
Doubao-MoE、Doubao-Dense 與 LLaMA-3.1-405B 的效能對比

另外,演算法團隊在預訓練模型的基礎上,設計了一系列模型引數動態調整演算法,可以根據不同應用對模型效能的需求,從模型深度、寬度、MoE 專家數、啟用專家數、隱藏 token 推理等維度來選擇擴增和縮小模型引數,靈活性和適配性拉滿,最大程度達成模型能力與推理成本的最優平衡

在後訓練階段,為了持續且精準地最佳化資料質量,豆包大模型團隊精心設計了一套高度自主的資料生產體系,深度融合了高效標註與模型自提升技術,更難得的是沒有使用任何第三方模型生成的資料,從而在源頭上確保了資料的獨立性和可靠性。這種不以 AI 訓練 AI 的做法走出了一條不同於業界大多數玩家的道路 —— 不對任何其他模型做資料蒸餾

透過將知識從規模更大、效能更強的 LLM 遷移到規模較小的 LLM,資料蒸餾技術能夠以較少的人工標註、算力資源獲得相當的效能。在近日中國科學院深圳先進技術研究院、北大等機構聯合發表的論文《大語言模型的蒸餾量化》中,研究者提到除了 Claude、Doubao 和 Gemini 之外,當前知名的開閉源 LLM 均表現出了較高的蒸餾水平,而這既可能導致模型穩健性下降,還會導致模型趨於同質化,降低多樣性。
圖片
根據身份一致性評估,豆包大模型具有極低的蒸餾水平,圖源:《Distillation Quantification for Large Language Models》

此外,豆包大模型團隊還分別在 SFT(監督微調)、Reward Model(獎勵模型)和 RL(強化學習)階段進行了技術創新與最佳化,立足不同的視角充分發揮出真實資料的最大優勢。具體來說:

  • 在 SFT 階段,利用演算法驅動的訓練資料最佳化系統來提升訓練資料多樣化,利用模型自演進技術來提升資料標註的多樣性和難度,雙管齊下,形成效能提升的良性迴圈。
  • 在 Reward Model 階段,建立起涵蓋提示詞分佈最佳化、響應篩選、多輪迭代和主動學習的完整資料生產管道,並基於此實現了 Verifier 和 Reward Model 的深度融合,均衡提升了模型在數學、程式設計、知識和對話等多領域的能力。
  • 在 RL 階段,攻克價值函式訓練難點,實現 token-wise 穩定建模,高難度任務的效能提升了 10 個絕對點。利用對比學習方法,有效提升 LLM 的表現並顯著緩解 Reward hacking 問題。最終在資料、演算法、模型層面全面實現 Scaling,實現算力到智力的有效轉換。

在推理階段,Doubao-1.5-pro 在 Prefill/Decode 與 Attention/FFN 構成的四個計算象限表現出顯著不同的計算與訪存特性,這要得益於針對不同象限來高效結合異構硬體與不同的低精度最佳化策略,實現低延遲與吞吐量提升並舉、總成本降低的同時兼顧 TTFT 和 TPOT 的最最佳化目標

四位一體對模型計算瓶頸、通訊和訪存瓶頸進行了有針對性的最佳化,比如 Prefill 階段的主要瓶頸是在計算上,於是豆包大模型團隊的做法是在多種計算訪存比高的裝置上做 chunk-PP Prefill Serving,如此一來便將線上系統的張量核利用率提升到了 60%。而在 Decode 階段,計算瓶頸就不明顯了,反而對通訊和訪存能力有更高的要求,於是在這裡使用了計算訪存比較低的裝置,從而獲得了更高的 ROI。另外,他們還在 Decode 階段採用了低成本的取樣和 Speculative Decoding(推斷式解碼)策略,降低了 TPOT 指標。

這種 Prefill 與 Decode 分離的策略可實現兩個階段計算叢集的靈活配比和動態擴縮,進而奠定了豆包大模型高價效比的基礎。

此外,火山引擎還自研了伺服器叢集方案,從而可以靈活支援低成本晶片,相比行業方案大幅降低了硬體成本。與此同時,他們透過定製化網路卡和自主研發的網路協議,大大提升了小包通訊效率。而在運算元層面,計算與通訊的重疊保證了高效與穩定的多機分散式推理。
圖片
可以說,從 MoE 到高效的訓練與推理最佳化,Doubao-1.5-Pro 完成了一次紮紮實實的升級,從而既可以在實際體驗中向使用者提供卓越的效能,又能憑藉算力、記憶體、通訊等方面的優勢以更低的成本快速完成部署和執行,支撐起海量使用者參與的大規模產品(如社交平臺、電商推薦系統)的核心需求。並且,這種多贏局面讓我們看到了未來基礎大模型一個非常有潛力的發展方向。

全模態能力進一步升級

豆包大模型早就已經具備多模態能力。Doubao-1.5-Pro 則是在原來的基礎上實現了「全模態能力」的飛躍。

在視覺多模態方面,透過在多模態資料合成、動態解析度、多模態對齊、混合訓練上進行全面的技術升級,豆包大模型在視覺推理、文字文件識別、細粒度資訊理解、指令遵循方面的能力都得到了顯著增強。與此同時,模型的回覆模式也變得更加精簡和友好了。

現在,Doubao-1.5-pro 支援任意解析度和長寬比的圖片輸入了,並且是原生支援!也就是說,不管是高畫質大圖,還是模糊小圖,又或是那些極端長圖,該模型都能更清晰地識別其中內容。不僅如此,Doubao-1.5-pro 還能輕鬆地基於視覺輸入執行推理,並且在各類基準上的表現都相當亮眼。
圖片
Doubao-1.5-pro 在多項指標上優於 GPT-4o 和 Claude 3.5 Sonnet 等前沿閉源模型,也勝過不少開源模型

如此優異的表現,主要得歸功於位元組自研的支援動態解析度的 Doubao ViT,其僅憑 2.4B 的引數規模就達到了 SOTA,甚至超過了比之大 7 倍多的 EVA-CLIP-18B。
圖片
Doubao ViT 在多種視覺分類任務中的表現

在語音模態方面呢?豆包大模型團隊提出了新的端到端的 Speech2Speech 框架。該框架不僅原生地將語音和文字模態進行了深度融合,同時還實現了在語音對話中真正意義上的語音理解生成端到端,在語音對話效果上相比傳統的 ASR+LLM+TTS 的級聯方式有質的飛躍。該方法的卓越表現已經在本週一釋出的實時語音功能上得到了體現。

如此得到的 AI 模型不僅擁有高理解力(高智商),也擁有前所未有的語音高表現力與高控制力,以及模型整體在回覆內容和語音上的高情緒承接能力。

當然,為了造就 Doubao-1.5-pro 卓越的全模態能力,豆包大模型團隊也在資料方面做了諸多探索,包括引入多樣化的視覺指令資料、採用多樣化的資料合成管線、融合文字與語音 token、在多個訓練階段混合使用多模態資料與純文字資料進行訓練。

立足使用者真實需求
不忘探索技術前沿

在 AI 技術落地方面,豆包算得上是國內 AI 大模型的模範了。如今,無論是桌面、移動 APP 還是瀏覽器外掛,使用者都可以輕鬆體驗到基於豆包大模型的智慧工具。與此同時,藉助釦子平臺,使用者能夠根據需求定製智慧體並部署商業應用。而對於開發者來說,有豆包加持的火山引擎更是一個可以創造無限可能的平臺。

Doubao 1.5 的更新又進一步提升了前沿大模型的使用門檻,讓開發者和專業使用者能以更低的成本享受到最前沿的效能。並且豆包大模型還有不同的版本,可以滿足不同應用場景下使用者對效能與速度的不同需求。也無怪乎豆包大模型能收穫那麼多開發者使用者了。截至去年底,豆包大模型透過火山引擎的日均 token 呼叫量已經超 4 萬億,較 5 月釋出時增長 33 倍。可說是在國內 AI 大模型中真正做到了「遙遙領先」。
圖片
不僅如此,豆包大模型團隊的前沿探索依然在繼續,並且已經抓住了這股「測試時 scaling」熱潮。該團隊向我們透露,他們目前正在研發「Doubao 深度思考模式」並已經取得了一定的階段性成果:一個被命名為 Doubao-1.5-pro-AS1-Preview 的推理模型已經能在 AIME 基準上超過 o1-preview 以及 o1。
圖片
Doubao-1.5-pro-AS1-Preview 與 o1-preview 和 o1 在 AIME 上的評測結果

豆包還在官方部落格上展示了一個有趣的示例:宮廷玉液酒,ebay bar ebay 是啥意思。可以看到,Doubao-1.5-pro-AS1-Preview 不僅成功理解了這句話中暗含的諧音梗,同時還挖掘出了這個梗背後的背景資訊,展現了推理能力在不同領域的泛化能力。
圖片
據瞭解,Doubao 深度思考模式同樣也採用了業內廣泛使用的強化學習方法,並且這些方法還沒有完成挖掘出 Doubao-1.5-pro 在推理任務上的全部潛力 —— 持續的強化學習還能繼續帶來持續的能力提升。

看起來,在這場 AI 大模型的激烈競爭中,豆包大模型已經站穩了腳跟。對於已經到來的 2025 年,即許多人口中的「智慧體之年」,豆包大模型已經在各個維度上為今年 AI 應用的爆發做好了準備,它將在這場革命中佔據越來越強的主導地位。

效能卓越又價格實惠,開發者朋友們,速速戳連結,免費試了才知道有多香:https://www.volcengine.com/product/doubao

相關文章