豆包大模型披露2024技術進展，亮相7個月綜合能力全面對齊GPT-4o

新闻助手發表於2024-12-30

原文網址 : https://www.jiqizhixin.com/articles/2024-12-30-11

12月30日，位元組豆包大模型對外披露2024全領域技術進展。距5月15日首次亮相僅7個月，豆包大模型在通用語言、影片生成、語音對話、視覺理解等方面模型能力均已跨入國際第一梯隊。豆包大模型團隊表示，“從孩童般學語，到懵懂看世界，到為創作者繪出想象中的奇幻夢境，一切依然處於最早期。”

截至2024年12月，最新版豆包通用模型Doubao-pro-1215，綜合能力較5月提升32%，已全面對齊GPT-4o，在數學、專業知識等部分複雜場景任務中，效果表現甚至更好。透過海量資料最佳化、提升模型稀疏度、引入強化學習、系統性工程最佳化等方式，團隊大幅提升了Doubao-Pro理解精度和生成質量，並實現了效能與效率的平衡，推理服務價格僅為GPT-4o的八分之一。

Doubao-pro在主流評測集上能力全面對齊GPT-4o

影像與影片能力方面，團隊於9月推出兩款豆包影片生成模型PixelDance與Seaweed，主打複雜提示詞精準理解、鏡頭一致、多互動主體和鏡頭靈活控制。豆包文生圖模型不斷迭代，還推出了通用影像編輯能力，讓“一句話P圖”和“一鍵海報生成”成為現實。此外，12月釋出的豆包視覺理解模型Doubao-vision，可融合視覺與語言多感官深度思考和創作，目前模型能力在十多個主流資料集上比肩Gemini 2.0與GPT-4o。

豆包大模型披露2024技術進展，亮相7個月綜合能力全面對齊GPT-4o

Doubao-vision在主流評測集上能力比肩Gemini 2.0、GPT-4o

語音大模型賦予機器“聽”與“說”的能力，豆包大模型團隊今年推出了全新的語音識別模型Seed-ASR和語音生成基座模型Seed-TTS，透過引入多樣、廣泛的資料，融合推理鏈，賦予模型極強的泛化性。據悉，豆包語音模型可聽懂20種以上方言夾雜的對話，也能邊聽邊思考，並在會話中表達情感，保留吞音、口音等人類習慣，甚至在互動中可隨時被打斷。

較語音更進一步，豆包大模型已擁有高品質的“唱作”能力，從詞曲編輯、演奏生成到人聲演唱，“一個AI也可以是一個樂隊”已經成為現實。其背後依託的音樂生成模型框架Seed-Music，結合了語言模型與擴散模型的優勢，實現了音樂生成的通用框架，擁有極高的編輯可控性。

團隊還首次對外披露了豆包大模型300萬字視窗的長文字能力，可一次輕鬆閱讀上百篇學術報告，每百萬tokens處理延遲僅需15秒。這一上下文視窗長度和時延水平達到目前業界極限。背靠STRING等上下文關聯資料演算法和模型加速最佳化，團隊大幅提升了LLM利用海量外部知識的能力，並透過稀疏化及分散式方案將時延降到十秒級。

程式碼能力方面，豆包程式碼大模型Doubao-coder程式設計能力達到專業級，深度支援超16種程式語言、11類真實應用場景，可滿足前後端開發、機器學習等全棧程式設計開發需求。

成立極短時間內，豆包大模型團隊還對AI基礎研究深入佈局。過去幾個月，團隊57篇論文中選ICLR、CVPR、NeurIPS等頂會，研究成果包括下載量超百萬的開源專案及GitHub萬星爆款。

豆包大模型披露2024技術進展，亮相7個月綜合能力全面對齊GPT-4o

豆包大模型團隊披露2024研究關鍵詞

同時，豆包大模型團隊與近20所高校深入合作，支援超過40位頂尖學者參與關鍵AI技術攻堅，並與清華AIR、北大分別成立聯合實驗室。為儲備最具潛力的研究人才，豆包大模型團隊啟動了“Top Seed人才計劃”，在全球範圍招募頂尖博士畢業生加入，共同挑戰世界級AI課題。

根據披露，豆包大模型相關技術能力目前支撐了包括豆包、即夢、豆包MarsCode等50多個C端應用場景，其中，豆包APP已成為國內最受歡迎的AI產品。透過火山引擎，豆包大模型服務了30多個行業，日均tokens呼叫量超4萬億，較5月釋出時增長33倍。

能力對齊、長文字、Claude 3，這次聊聊大模型重點技術路徑
2024-03-15
大模型
面向程式碼語言模型的安全性研究全新進展，南大&NTU聯合釋出全面綜述
2024-11-19
模型
綜述 | 農業大模型：關鍵技術、應用分析與發展方向
2024-06-29
大模型
豆包大模型披露評測成績，較上一代“雲雀”提升19%
2024-05-24
大模型
這個團隊做了OpenAI沒Open的技術，開源OpenRLHF讓對齊大模型超簡單
2024-06-06
OpenAI大模型
技術分享| 快對講綜合排程系統
2022-07-27
人類偏好就是尺！SPPO對齊技術讓大語言模型左右互搏、自我博弈
2024-05-13
模型
Spark學習進度7-綜合案例
2021-01-10
Spark
人工智慧技術發展綜述
2020-11-16
人工智慧
2020年度綜合大盤點：火爆IT業的7大Java技術，每一項都是大寫的“牛逼”！
2020-12-21
Java
全面打破GPT-4壟斷、DeepSeek打下訓練成本...2024年大模型領域進展全覆盤
2025-01-02
GPT大模型
先進技術助力智造發展思謀科技亮相2023世界智慧製造大會
2023-12-18
大模型價格進入“釐”時代，豆包大模型定價每千tokens僅0.8釐
2024-05-15
大模型
大模型RAG技術
2024-06-27
大模型
綜合RLHF、DPO、KTO優勢，統一對齊框架UNA來了
2024-10-09
框架
11月NEO技術社群開發進展彙總
2018-12-19
哪個模型擅長呼叫工具？這個7B模型躋身工具呼叫綜合榜單第一
2024-10-24
模型
全面對比：天工大模型 vs 紫東太初大模型
2024-07-17
大模型
誰才是最強的？清華給海內外知名大模型做了場綜合能力評測
2024-04-19
大模型
勾畫綜合智慧能源新佈局，同方股份亮相2023供熱展
2023-05-14
前端綜合能力系列之EditorConfig
2018-04-13
前端
萬字綜述大模型高效推理：無問芯穹與清華、上交最新聯合研究全面解析大模型推理最佳化
2024-06-14
大模型
復旦主導，中美等8個國家25家單位44名學者聯合釋出大模型安全技術綜述
2025-02-20
大模型
7:陣列綜合-10
2020-12-04
陣列
騰訊遊戲安全亮相GDC2024，向全球開發者展現反作弊技術
2024-03-28
遊戲
面向軟體工程的AI智慧體最新進展，復旦、南洋理工、UIUC聯合釋出全面綜述
2024-09-13
軟體工程AI智慧體UI
微博推薦實時大模型的技術演進
2023-04-24
大模型
阿里巴巴大資料技術關鍵進展及展望
2019-11-06
阿里大資料
使用資料增強技術提升模型泛化能力
2019-01-17
模型
前端綜合能力系列之git與gitflow
2018-04-20
前端Git
人類自身都對不齊，怎麼對齊AI？新研究全面審視偏好在AI對齊中的作用
2024-10-22
AI
商湯絕影系列原生態大模型亮相2024北京車展：智慧汽車加速駛入AGI時代
2024-04-25
大模型
肖sir__ 第一個月綜合面試題
2024-03-21
面試題
OTN技術的進展及演進趨勢
2022-06-06
乘風破浪的PTM：兩年來預訓練模型的技術進展
2020-10-10
模型
火山引擎釋出豆包大模型文旅解決方案
2024-08-15
大模型
只需幾個演示就能對齊大模型，楊笛一團隊提出的DITTO竟如此高效
2024-06-16
大模型
一文看盡LLM對齊技術：RLHF、RLAIF、PPO、DPO……
2024-08-05
AI

豆包大模型披露2024技術進展，亮相7個月綜合能力全面對齊GPT-4o

相關文章