豆包說要「普惠」,於是大模型處理圖片按「釐」計價了

机器之心發表於2024-12-23
這段時間,OpenAI 宣告連續 12 輪轟炸,讓 2024 年底的大模型領域熱鬧起來了。

但堅持每個凌晨看直播的話會發現,越到後面的釋出越平淡,內心的波動也越少了。

今年的大模型就捲到這裡了嗎?並沒有,國產大模型又捲起來了,還給 OpenAI 來了一記「重拳」。

就在前幾天,2024 冬季火山引擎 FORCE 原動力大會上,位元組跳動的豆包大模型家族,來了一場爆發式上新。

最受關注的是豆包大模型家族的新成員 —— 豆包・視覺理解模型。顧名思義,它讓豆包有了「看懂」世界的能力。更重要的是,這款新模型一千個 token 的輸入價格僅 3 釐錢,也就是說花一塊錢就能處理 284 張 720P 的圖片,比行業價格便宜了 85%。

價格官宣的那一刻,或許眾多企業使用者在心裡默唸了一句:太好了,是豆包,我們有救了。

至於這款模型的理解能力有多強,請看 VCR:豆包說要「普惠」,於是大模型處理圖片按「釐」計價了
與此同時,三位成員豆包通用模型 Pro、豆包・音樂生成模型、豆包・文生圖模型宣佈升級,一起釋出的還有豆包・3D 模型。
圖片
回想年中的時候,豆包還是國產大模型中的「新秀」。短短半年多,竟然已經紅透了半邊天,成為了眾多使用者首選的生產力工具。

七個月的時間,能發生什麼?對於 OpenAI 來說,可能只是一項新功能從「期貨」到「全量上線」的準備時長。

但對於豆包大模型,這段時間已經足以拿下日均 tokens 使用量超 4 萬億的優秀成績,比最初發布的那天增長了 33 倍。
圖片
經過此次升級後,豆包大模型家族的實力又壯大了一波。

據智源研究院 12 月 19 日釋出的國內外100餘個開源和商業閉源的大模型綜合及專項評測結果,「大語言模型評測能力榜單」中,豆包通用模型 pro 在重點考察中文能力的主觀評測中排名第一,「多模態模型評測榜單」中,豆包·視覺理解模型在視覺語言模型中排名第二,僅次於 GPT-4o,是得分最高的國產大模型。「FlagEval 大模型角鬥場榜單」中,豆包通用模型 pro 在大語言模型榜單中位居第一梯隊,評分排名第二,僅次於 OpenAI 的 o1-mini,是得分最高的國產大模型。

不得不說,國產 AI 進化的速度是真的驚人。

會讀論文、看梗圖
豆包的「秒懂」能力強得可怕

回望 2024 年的大模型技術發展,除了文字能力的繼續提升外,從單模態過渡到多模態也是基礎模型的演進趨勢之一。

一個關鍵方向是,增加對視覺模態輸入的支援。這就像是給 LLM 裝上了「眼睛」和「大腦」,使其能夠理解影像並進行相應的自然語言生成。

在不斷進化的豆包大模型中,我們也看到了驚人的「秒懂」能力。

具體來說,豆包・視覺理解模型具備精準的指令理解能力,能夠精準提取影像文字資訊,因此可應用於更復雜、更廣泛的視覺問答任務,比如描述圖片中的內容以及對圖片中包含的內容進行提問。另一方面,該模型可完成深度的圖片理解與推理,在表格影像、數學問題、程式碼影像等複雜推理場景下都能發揮所長。

豆包・視覺理解模型接入豆包 App 和 PC 端產品已經有段時間了,機器之心也測試了一番,實際體驗很不錯。

在此之前,人們公認體驗比較好的是 GPT-4o 模型,但這次測試下來,豆包・視覺理解模型毫不遜色。

首先能感受到,豆包的內容識別能力很強,比如對於視覺內容中的知識、文化背景、狀態、數量、文字等資訊都識別得很準確,特別是能理解中國傳統文化知識。

比如問一個生活化的問題。站在超市貨架前,每個人都有過難以抉擇的時刻。但顯然,大模型比我們更懂傳統食物:
圖片
當然,它不只是擅長識別現實中的物品,即使圖片只有光影、輪廓、位置這些特徵,也能一眼辨別:
圖片
其次,豆包對於視覺內容資訊的推理能力也很強,包括數學、邏輯、程式碼等。

就拿難懂的論文架構圖來說吧,在沒有給出任何論文背景資訊的前提下,豆包不僅能看懂、講透,特別是針對整體流程的解讀,將階段 1 和階段 2 的因果邏輯表達得非常清楚,還能如數列出背景知識:

圖片
圖片
圖片
假如同事交接給你一些程式碼,別焦慮,叫上豆包一起看能效率加倍:
圖片
圖片
圖片
圖片
再說到視覺描述能力,它也非常擅長「看圖說話」,完全可以用來編寫社交媒體文案,或者任何你需要啟發靈感的創作任務:
圖片
還有一個很巧妙的用途 —— 幫助 2G 衝浪的「老年人」看懂新梗:
圖片
圖片
多模態能力的突破,讓今年的大模型應用給使用者帶來了諸多驚喜。此次視覺理解能力的增強,也將是豆包大模型開啟更多落地場景的關鍵一步。當模型能夠將影像和文字資訊相結合,我們就能夠獲得更自然、直觀的互動體驗。例如,在產品推薦、教育輔助或虛擬助手場景中,使用者可以透過圖片與模型互動,獲得更豐富的反饋。此外,結合視覺和文字資訊,模型對輸入的洞察水準也會更上一層樓。例如,在新聞分析或知識圖譜構建中,模型能夠關聯文字和圖片,提供更完整的背景和見解。

加上以「釐」為單位的定價,這些應用場景的解鎖速度會比想象中更快。秉承「讓每家企業都用得起好模型」的原則,豆包一發力,實實在在是把視覺理解模型的應用成本打下來了,將以更低成本推動 AI 技術普惠和應用發展。
圖片
三大主力模型升級
影片模型下月上線

在新成員誕生的同時,豆包大模型家族的三位重要成員也迎來了本年度的最後一次重大升級。

首先是大語言模型 —— 豆包通用模型 Pro。對比今年 5 月最初公開發布的版本,這款模型在綜合能力上已經提升了 32%,與 GPT-4o 持平,但價格僅是其八分之一。
圖片
此外,豆包通用模型 Pro 在指令遵循、程式碼、專業知識、數學層面全面對齊了 GPT-4o 水平。其中指令遵循能力提升 9%,程式碼能力提升 58%,GPQA 專業知識方面能力提升 54%,數學能力提升 43%,推理能力提升 13%。
圖片
然後是語音,豆包・音樂模型的生成水平已經從「高光片段」躍升到「完整樂章」。

現在,使用者只需要簡單描述或上傳一張圖片,就能生成一首長達 3 分鐘的包含旋律、歌詞和演唱的高質量音樂作品,包括前奏、主歌、副歌、間奏、過渡段等複雜結構。並且,豆包・音樂模型提供了區域性修改功能,在針對部分歌詞修改後仍能在原有旋律的節奏框架內適配。豆包說要「普惠」,於是大模型處理圖片按「釐」計價了
體驗地址:https://www.haimian.com/create (APP 端:海綿音樂)

從原來的 1 分鐘,升級為現在的 3 分鐘,豆包・音樂模型克服了挑戰,在較長的時間跨度內容保持了音樂元素的連貫性。

最後,在視覺層面,豆包・文生圖模型本次也迎來了新一波升級,在通用性、可控性、高質量三方面取得了新突破。具體來說,豆包・文生圖模型 2.1 新增了「一鍵海報」和「一鍵 P 圖」能力,目前已接入即夢 AI 和豆包 App。

一鍵海報的關鍵點在於「寫字」。在實際體驗中,我們可以感受到,豆包・文生圖模型對文字細節的指令遵循能力很強,特別是非常擅長「寫漢字」:

Prompt:生成一張卡通土撥鼠的圖片 衣服上的文字圖案是 “機器之心”
圖片
圖片
背後的技術源自豆包・文生圖模型原生的文字渲染能力,豆包大模型團隊透過打通 LLM 和 DiT 架構和構建高質量文字渲染資料,大幅提升了模型在文字生成方面的準確率,尤其是結構複雜、字元數量較多的漢字場景。

一鍵 P 圖功能的實現,則基於豆包大模型團隊近期在影像編輯技術上取得的重大突破:SeedEdit。

近年來,基於擴散模型的影像生成技術進展飛速,然而,影像編輯技術還難以滿足人們對於生成內容可控性的需求,關鍵挑戰在於實現「維持原始影像」和「生成新影像」之間的最優平衡。

SeedEdit 框架在不引入新引數的前提下,將影像生成擴散模型轉為影像編輯模型,也是國內首個產品化的通用影像編輯模型。無需描邊塗抹,使用者只需要給出簡單的自然語言指示,就能換背景、轉風格,或者在指定區域進行元素的增刪和替換。

Prompt:驢打滾變成拿破崙
圖片
相比於傳統塗抹選中的方法,這種編輯方式更加精準,不會誤傷無關區域。還有一點好處是,這種編輯技術能夠一次性完成多項編輯任務,效率大大提升。

關於最近非常火熱的 3D 賽道,豆包家族也新增了一位新成員:豆包・3D 生成模型。將這款模型與火山引擎數字孿生平臺 veOmniverse 結合使用,可以高效完成智慧訓練、資料合成和數字資產製作,成為一套支援 AIGC 創作的物理世界模擬模擬器。

如影片所示,透過疊加一句一句的文字 Prompt,就能搭建起一個工廠車間場景:豆包說要「普惠」,於是大模型處理圖片按「釐」計價了
後來居上,一飛沖天
「豆包」憑藉的是什麼?

自 2024 年 5 月釋出至今,只用了七個月,豆包大模型就成為了國產大模型中當之無愧的頂流。

後來者如何居上?在豆包家族做大做強的道路上,為其提供底層支撐的火山引擎雲服務平臺的價值不可忽視。

一直以來,位元組跳動的豆包大模型都透過火山引擎對外提供服務,「更強模型、更低價格、更易落地」,這三個關鍵詞成為了其別於眾多大模型服務平臺的特質。

除了不斷升級的模型能力之外,火山引擎還解決了「成本太高」和「落地太難」兩項大模型應用挑戰。目前,這個平臺提供從雲端計算、技術引擎、智慧應用到行業解決方案的全棧服務。
圖片
模型層面,豆包大模型家族已經有十幾位成員,覆蓋了常見應用場景。
圖片
特別地,火山引擎為大模型落地提供了一系列覆蓋全流程的工具,包括一站式大模型服務平臺火山方舟、大模型應用開發平臺釦子、企業專屬 AI 應用創新平臺 HiAgent。這些工具,在本次大會上也都同步升級。

火山引擎這次一口氣推出了 Prompt 優解、大模型記憶應用等產品,持續保障企業級 AI 應用的落地。Prompt 優解是全新一代提示詞工具,透過自動 + 互動的方式,解決了人工編寫 Prompt 難度高、耗時寫、重新適配的問題。大模型記憶應用基於知識庫 RAG 技術和上下文快取技術,能夠幫助企業使用者打造靈活的大模型記憶方案,並推出 prefix cache 和 session cache API,降低延遲和成本。

釦子也在這次大會上升級到了 1.5 版本,還公佈了開發者生態方面的亮眼成績:目前平臺已有超過 100 萬的活躍開發者,共釋出過 200 萬個智慧體。包括最新發布的豆包多模態模型們,使用者們都能第一時間在釦子平臺透過外掛的方式體驗。

在最新發布的 HiAgent 1.5 版本中,火山引擎提供了 100 多個行業應用模板,提供給企業使用者一鍵複製,實現低程式碼構建智慧體。同步釋出的 GraphRAG 則透過連線知識圖譜為大模型提供知識及關係資訊,以此增強回答質量、支援多跳問題回答。再透過 Reranker,進一步提升回答的準確性和完整性。如此一來,企業就能構建專家級別的 AI 應用。

在雲服務層面,基於當前企業使用大模型推理對計算效率的新要求,火山引擎已經完成了從 Cloud Native 到 AI Cloud Native 的轉型,打造以 AI 負載為中心的基礎架構新正規化。

GPU 在並行處理能力和高吞吐量方面更適合大規模推理使用,然而,傳統 GPU 加 CPU 的異構計算中,GPU 從儲存載入資料進行處理都必須由 CPU 控制。近年來的一個趨勢是計算從 CPU 轉移到 GPU,GPU 計算在整個系統的比例越來越大,因此過去的 I/O 流程成為巨大的效率瓶頸,某種程度上造成了 GPU 資源的浪費。

基於 AI 雲原生的理念,火山引擎這次推出了新一代計算、網路、儲存和和安全產品。在計算層面,新一代的火山引擎 GPU 例項,透過 vRDMA 網路,支援大規模平行計算和 P/D 分離推理架構,顯著提升訓練和推理效率,降低成本。儲存上,新推出的 EIC 彈性極速快取,能夠實現 GPU 直連,使大模型推理時延降低至 1/50;成本降低 20%。安全層面,火山將推出 PCC 私密雲服務,構建大模型的可信應用體系。基於 PCC,企業能夠實現使用者資料在雲上推理的端到端加密,而且效能很好,推理時延比明文模式的差異在 5% 以內。

「今年是大模型高速發展的一年。當你看到一列高速行駛的列車,最重要的事就是確保自己要登上這趟列車。透過 AI 雲原生和豆包大模型家族,火山引擎希望幫助企業做好 AI 創新,駛向更美好的未來。」火山引擎總裁譚待表示。

面向 2025,我們期待什麼?

這一年,從技術研發的角度,豆包大模型團隊在研究者和從業者圈子中影響力的增長是有目共睹的。2024 年,團隊釋出了一系列「出圈」成果,包括近期的影像編輯模型 SeedEdit、程式碼評估資料集 FullStack Bench、新型神經網路架構 FAN 等。在突破前沿命題之外,這些成果也對豆包大模型產品層面的進化起到了關鍵的推動作用。

正是基於技術驅動下的產品迅速迭代,讓豆包坐穩了國產大模型頂流的寶座。大模型技術爆發兩年後,不管是個人使用者還是企業使用者都能感知到,豆包大模型在應用層的優勢已經非常明顯。

根據大會 One More Thing 環節的透露,本文開頭 VCR 中所展示的端到端實時語音功能,以及具備更長影片生成能力的豆包・影片生成模型 1.5 也會在不久後上線。

站在 2024 年的末尾,無論是相關從業者還是大眾都會好奇:2025 年的大模型會變成什麼樣?

我們看到、聽到了很多關於大模型前進方向的預判,比如 Scaling Law 即將撞牆,預訓練已經走到盡頭等等。

但這些並不意味著大模型的能力已經到達天花板,推理 Scaling Law 來了,AI 的智慧水平可能會在短時間內躍升到一個新的高度。同時在影像生成、影片生成等多模態任務上,大模型仍有相當充足的發展空間。在未來的 12 個月,大模型進化的曲線可能會非常陡峭。

新的一年,豆包大模型還有哪些驚喜?值得每一個人期待。

相關文章