提前免費!百度連發兩款模型,我們實測:能聽歌看電影,還會蛐蛐人

机器之心發表於2025-03-16

AI 競爭進入白熱化階段。這次,輪到百度給自家大模型上強度。

剛剛,百度一口氣官宣了兩款大模型,分別是文心大模型 X1 和文心大模型 4.5

那麼,這兩款大模型有啥區別呢?

這麼說吧,文心 X1 是一款深度思考模型,具備更強的理解、規劃、反思、進化能力,並支援多模態,尤其是多工具呼叫,更是它的一大特色。

而文心 4.5 號稱新一代原生多模態基礎大模型,最擅長的就是多模態理解,語言能力也更精進。

相比於之前版本,文心 4.5 不僅在理解、生成、邏輯、記憶能力方面上了一個臺階,還在去幻覺、邏輯推理、程式碼能力上有了全面提升。

目前,這兩款模型已在文心一言官網、百度搜尋、文小言 APP 等產品上線。(體驗網址:https://yiyan.baidu.com/)

最關鍵的是,它們全都免費!

image.png

要知道,前段時間百度還對外宣佈,文心一言將從 2025 年 4 月 1 日 0 時起開始全面免費。

沒想到,這次百度直接將這個時間點提前了整整半個月。

同時,這兩款模型的 API 價格也已出爐。

開發者現可在百度智慧雲千帆大模型平臺上直接呼叫文心大模型 4.5 API,輸入價格低至 0.004 元 / 千 tokens,輸出價格低至 0.016 元 / 千 tokens;文心大模型 X1 也即將在千帆平臺上線,輸入價格低至 0.002 元 / 千 tokens,輸出價格低至 0.008 元 / 千 tokens。

image.png

百度之所以能把文心 X1 模型的 API 價格打下來,是因為他們透過飛槳和文心聯合最佳化,實現從壓縮、推理、服務部署的全鏈路極致調優,大幅降低文心 X1 推理成本。

具體來說,模型壓縮方面,透過分塊 Hadamard 量化、面向長序列的注意力機制量化等實現深度壓縮;推理引擎方面,透過低精度高效能運算元最佳化、動態自適應投機解碼、神經網路編譯器實現推理加速。系統層面,透過框架和晶片協同最佳化、分離式部署架構、高效資源排程實現系統級最佳化。

一手評測

俗話說得好,是騾子是馬,還得拉出來遛遛。

接下來,我們將從多模態理解、文字創作、邏輯推理以及工具呼叫等多個維度,對這倆大模型來一波真刀真槍的實戰。

文心 X1:會腦筋急轉彎,還能調動多個工具

作為百度最新深度思考模型,文心 X1 有三大絕活:嘴毒(敢銳評)、腦子好使(推理能力強),而且善用工具(多工具呼叫)。

相較於之前版本,文心 X1 顯得叛逆得多。它不願做「端水大師」,遇事總是直言不諱,有觀點有態度。

比如我們讓它用貼吧的口吻,銳評一下小紅書、知乎、微博和貼吧。

它一上來就毫不客氣,怒噴小紅書是《人類高質量裝 X 指南》,知乎整天標榜精英範兒,微博熱搜天天吵得像菜市場,貼吧則是人均鍵盤俠。

image.png

之所以說文心 X1 腦子好使,是因為它的邏輯推理能力有了顯著提升,甚至還「懂」腦筋急轉彎的奇葩腦回路。

比如「狐狸為什麼容易摔跤」,它既能從科學的角度進行解釋,還能識別出背後的諧音梗。

image.png

要說文心 X1 最大的特色,便是能呼叫多種工具。

我們只需在聊天框開啟「聯網搜尋」和「呼叫工具」兩個按鈕,就能一下子綜合高階搜尋、文件問答、圖片理解、AI 繪圖、程式碼直譯器、百度學術檢索、商業資訊查詢等工具。

舉個例子。

我們上傳一張甜品的照片,然後讓它介紹製作工序,並生成一份 PDF 檔案。

8b650c31966d2d423fffee641362de7c.jpeg

文心 X1 接連呼叫了圖片理解、聯網搜尋和程式碼直譯器三個工具。

image.png

最終它真的生成了一份草莓藍莓煎餅塔詳細工序的 PDF 文件。

image.png

文心 X1 的完整回答

image.png

文心 X1 生成的 PDF 檔名及內容

文心 4.5:學會了聽歌、看電影

如果說文心 X1 更聰明的話,那麼文心 4.5 就是更全能。

作為百度自主研發的新一代原生多模態基礎大模型,文心 4.5 不僅能看懂梗圖,還能識別音影片。

前段時間 Grok3 釋出時,馬斯克激動地在 X 上發了張梗圖,對著谷歌、OpenAI 和 Meta 就是一頓貼臉開大。

image (46).png

我們就將這張梗圖丟給文心 4.5,輸入 Prompt:這張圖片暗含著什麼意思?

它敏銳捕捉到了圖片背後的幽默和諷刺含義:四隻企鵝代表了大洋彼岸的四家科技巨頭,其中三隻企鵝向 Grok 企鵝敬禮,暗示了 Grok 在某一階段處於領先優勢。

圖片

對於大模型來說,識別梗圖早就不是什麼新鮮事了,文心 4.5 最拿手的還得是音影片的理解分析。

當我們聽到一首喜歡的音樂,但就是死活想不起來歌名時,我們只需錄一小段音訊,投餵給文心 4.5,它就能給出這首歌的一切。提前免費!百度連發兩款模型,我們實測:能聽歌看電影,還會蛐蛐人

image.png

同理,我們還可以上傳一段不超過 20M 的影片片段,讓它挖出背後各種八卦。

比如電影《聞香識女人》中這段經典的舞蹈,文心 4.5 不僅識別出影片名字、女主飾演者,甚至連背景音樂都扒出來了。

image.png

弱智吧,江湖人稱「青龍山皇家療養院」,大模型智商高不高,就看能不能 hold 得住這些神題。

弱智.png

比如:為什麼只有電信詐騙,沒有聯通詐騙呢?

文心 4.5 從術語的通用性聊到了歷史淵源,又從法律定義聊到了社會認知,把這個略顯無厘頭的問題解釋得清清楚楚、明明白白。

image.png

此外,文心 4.5 在搜尋方面也有了更大的進步。

就拿最近大火的網路熱梗「饢言文」來說,它找到了 8 條參考信源,除了百家號外,還包括新京報網、騰訊網等其他來源。

而且,文心 4.5 經過分析總結給出回答後,還在末尾附上了相關影片以供參考。

image.png

核心技術大揭秘

經過實測,我們可以看出百度最新發布的兩個模型已經出現了質的飛躍。

多項技術加持的文心 X1

最近一段時間,AI 圈焦點無疑是關於「Scaling Law 是否撞牆?」的討論,這個曾經被視作大模型發展的第一性原理,如今卻遭遇了巨大挑戰。

面對大模型效能提升的邊際效益遞減問題,測試時計算(Test-Time Compute)、強化學習等策略成為一種有效的應對方式。

百度在強化學習方面也下足了功夫,釋出的推理模型文心 X1 創新性地應用了遞進式強化學習訓練方法。採用這種方法可以全面提升模型在創作、搜尋、工具呼叫、推理等場景的綜合應用能力。

比如上文我們體驗的「輸入一張圖片,要求文心 X1 根據提示輸出 PDF 格式的檔案」,就離不開這種訓練方式。

現階段,推理模型幾乎都採用了一種稱為思維鏈(Chain of Thought,CoT)的技術,與傳統的直接從輸入到輸出的對映不同,思維鏈透過顯式展示中間推理過程,幫助模型更好地理解和解決複雜問題。

更進一步的,文心 X1 具備 “長思維鏈”,採用了思維鏈和行動鏈耦合的端到端訓練方式。思維鏈使得模型在解決問題時,一步一步寫下思考過程,就像我們做數學題時,需要寫下解題步驟一樣。而行動鏈是模型在思考過程中決定採取的行動,比如搜尋資訊、呼叫工具等。

在端到端訓練中,文心 X1 不是隻學習思考或者只學習行動,而是把思考和行動結合起來,透過這種方式,模型可以根據每次行動的結果反饋,調整自己的思考和行動策略,最終顯著提升在複雜任務中的表現。

最後,文心 X1 還採用了多元統一的獎勵系統,這個系統就像一個「超級裁判」,用來評價模型做得好不好。這個「裁判」在評估過程中結合了多種不同的獎勵機制,能夠從多個角度給模型反饋。這樣的話,模型在訓練過程中就能得到更準確、更可靠的指導,為模型訓練提供更加魯棒的反饋。

文心 4.5 用到的「法寶」

至於文心 4.5,背後的技術也不容小覷。

首先是 FlashMask 動態注意力掩碼。FlashMask 是由百度飛槳團隊在論文《FlashMask: Efficient and Rich Mask Extension of FlashAttention》中提出的一種創新的注意力掩碼最佳化技術,旨在解決 Transformer 類大模型中注意力掩碼計算的冗餘和儲存開銷問題。FlashMask 透過列式稀疏掩碼錶示方法,將傳統的二維稠密掩碼矩陣轉換為一維的行索引區間表示,從而顯著降低了儲存複雜度,從 O (N^2) 降低到 O (N)。極致的加速了大模型訓練效率,尤其是長序列場景下的訓練效率。

相關論文已入選頂會 ICLR 2025 。

論文地址:https://arxiv.org/abs/2410.01359

其次就是多模態異構專家擴充套件技術。該技術是一種結合多模態資料處理與混合專家模型(MoE)的創新架構,旨在透過針對不同模態特點構建的異構專家模組,解決多模態融合中的梯度不均衡問題,提升模型的多模態融合能力。多模態異構專家擴充套件技術在多個應用場景中展現了顯著優勢,例如多模態問答任務,這種技術能夠更高效地處理複雜的多模態資料。

文心 4.5 還採用了時空維度表徵壓縮技術,這是一種把圖片和影片裡的關鍵資訊進行濃縮的方法。在不丟失重要細節的情況下,在時空維度對圖片和影片的語義表徵進行高效壓縮,讓這些資料變得更小、更高效。這樣一來,訓練多模態模型(也就是同時處理文字、圖片、影片等多種資料的模型)時就能更快、更省資源。

前文我們已經提到,文心 4.5 幻覺問題得到了極大的提升,而這離不開百度採用的基於知識點的大規模資料構建技術。知識分級取樣優先把重要的、核心的知識挑出來,接著把挑出來的知識點進行壓縮,去掉多餘的部分,把相關的知識融合在一起。對於那些比較少見、不太好找的知識點,專門合成一些相關內容,確保這些重要的小眾知識也不會被遺漏。這樣一來,模型幻覺大大降低。

此外,文心 4.5 還用到了基於自反饋的 Post-training 技術。這是一種透過多種評估方式不斷最佳化模型的後訓練方法。簡單來說,它讓模型在訓練過程中不斷反思自己的表現,根據不同的評價標準調整自己,從而讓模型變得更穩定、更可靠。這種技術還能顯著提升預訓練模型理解人類意圖的能力,讓模型的回答更符合人類的期望。

那麼文心 4.5 與其他模型對比結果如何呢?

下圖展示了文心 4.5 與 GPT-4o 在多模態效能上的對比。可以看出,文心 4.5 在大多數測試基準上的表現優於 GPT-4o,尤其是在 OCRBench、MathVista、DocVQA 和 MVBench 上,兩者差距較為明顯。GPT-4o 僅在 MMMU 上的表現相對較好,但在其他基準上的表現不如文心 4.5。在平均值上,文心 4.5 的得分略高於 GPT-4o,顯示出文心 4.5 在整體效能上的優勢。

圖片

下圖比較了四個不同模型(文心 4.5、DeepSeek-V3-Chat、GPT-4o 和 GPT-4.5)在文字測試基準上的效能對比。結果顯示文心 4.5 在大多數測試基準上的表現優於其他模型,尤其是在 C-Eval、CMMLU、CMath 和 CLUEWSC 等基準上。

圖片

RAG 相關技術

RAG 檢索增強生成(Retrieval Augmented Generation),已經成為當前最火熱的 LLM 應用方案, 是衡量大模型優劣的重要維度。

現在大模型在各種任務上雖然很強大,但也有缺點,比如:幻覺現象導致 LLM 有時會「瞎編」一些不存在的資訊;還有大模型掌握的資訊並不是最新知識,知識系統更新很慢;此外,生成的內容缺乏透明度等一系列問題,導致大模型在實際應用中並不是很理想。

RAG 透過檢索最新的、相關的知識,解決了上述問題,讓生成的內容更可靠、更準確。

百度研發的「理解 - 檢索 - 生成」協同最佳化檢索增強技術,提升了大模型技術及應用的效果,能夠生成準確率更高、時效性更好的答案。而且,百度在 RAG 技術上具備中文深度理解、多模態檢索、垂直領域定製化以及實時資料整合能力等優勢,在中文網際網路、企業服務、政務醫療等場景中更具實用性和競爭力。

此外,在國內外主流大模型的 RAG 能力實測中,百度文心一言綜合表現最佳。

雖然傳統的 RAG 已經基本解決了大模型在文字生成層面的幻覺問題,但在多模態領域,尤其是圖片生成領域,傳統 RAG 已經遠遠不夠用了。

比如,我們經常看到生成的圖片出現明顯的邏輯錯誤等問題。即使結果符合要求,但看上去也是一股 AI 味,這些問題嚴重影響了 AI 生成影像的實用性和可信度。

正如百度創始人、董事長兼執行長李彥宏在百度世界 2024 大會上所提出的:「文字層面的 RAG 已經做得很好,基本讓大模型消除了幻覺;但在影像等多模態方面,和 RAG 的結合還不夠,這也是百度希望重點突破的方向。」

在這種情況下,百度自研了一種檢索增強的文生圖技術 iRAG(image based RAG),旨在解決傳統文生圖系統中常見的幻覺問題,提升生成影像的準確性和實用性。

在擁有億級的圖片資源和強大的基礎模型能力,百度 iRAG 將這些優勢相結合,避免了傳統文生圖系統中一眼假的問題,生成的影像不僅超真實,還具備極高的準確性和可靠性。

結語

這次,百度一口氣上線了兩款大模型,總算揚眉吐氣了一回。

近十年來,百度一向捨得在研發上砸錢。截至目前,百度已累計投入超過 1800 億元。

如今來看,真金白銀沒有白花。

相關文章