IDC最新報告,7大維度11家大模型廠商比拼,唯一全優是誰?

机器之心發表於2024-06-14

如果考試題太簡單,學渣也能拿一百昏。在 AI 圈,我們應該拿怎樣的「試卷」來檢驗一直處於流量 C 位的大模型的真實水平?是高考題嗎?當然不是!

也有些人認為,在各種 Benchmark 榜單上,誰排第一誰最強。

其實並非如此,有時候,越「權威」的榜單就越容易被策略性刷榜。

因此,模型的「強」不能只是在某個 Benchmark 上排名第一,而是要在多個維度上都很能打。

近日,全球領先的國際資料公司(IDC) 最新發布的大模型實測報告《中國大模型市場主流產品評估,2024》從基礎能力到應用能力 7 大維度對 11 家大模型廠商的 16 款市場主流產品進行實測。

報告顯示,百度文心大模型整體競爭力位於領先水平,產品能力處於第一梯隊,是唯一一家在 7 大維度上均為優勢廠商的企業。文心一言、文心一格在問答理解類、推理類、創作表達類、數學類、程式碼類等基礎能力,toC 通用場景類、toB 特定行業類等應用能力等 7 大維度均具備領先優勢。其他評測廠商中,阿里獲 6 項優勢維度,OpenAI GPT-4 和商湯分獲 5 項。

圖片

IDC《中國大模型市場主流產品評估,2024》

要知道這份實測報告不同於以往的評測榜單:

首先,IDC 成立了專門的產品測試團隊、邀請外部專家團隊,在稽核委員會的監督下,保證了評估結果的真實度。

其次,測試的全面性。在 IDC 列出的廠商裡,有很多我們熟悉的公司,國外廠商如 OpenAI;國內廠商包括阿里、商湯、科大訊飛、百川、智譜、崑崙萬維等 11 家大模型廠商的 16 款產品參與了本次評估。從這可以看出,IDC 集結的這批模型中,可謂是高手雲集,想要在這當中拔得頭籌,沒有兩把刷子是不可能佔據一席之地的。

除了涵蓋眾多廠商,IDC 測試題目也涵蓋方方面面,分為基礎能力和應用能力兩個大類共 7 個維度:基礎能力包括問答理解類、推理類、創作表達類、數學類、程式碼類;應用能力主要包含 toC 通用場景類和 toB 特定行業類,每一類單獨計分。

圖片

IDC 題目型別

7 項維度,主流大模型全面大比武

過去一年,說 AI 領域是「百模大戰」一點也不為過。特別是國內,從科技巨頭到創業公司都推出了自己的大模型產品。

此次 IDC,就對業內知名的主流基礎大模型產品進行了評比。

從 IDC 報告的結果來看,百度文心一言 4.0、文心一格以及 OpenAI 、阿里、商湯、科大訊飛釋出的大模型產品位於第一梯隊;緊隨其後的是百川、智譜、崑崙萬維位於第二梯隊;聯匯、雲知聲、雲從科技暫列第三梯隊。

圖片

細分來看,在 IDC 評測的 7 個維度上,百度文心大模型在每一項指標上都被列為優勢廠商,沒有短板,可以說是一位全能選手。其他廠商的大模型均未拿到全優,在一個或多個方面存在短板。阿里獲得 6 項優勢維度排名第二,OpenAI GPT-4 和商湯獲得 5 項優勢排名第三。舉例來說,排名靠前的 OpenAI 以及阿里在數學類題目上不及百度,商湯在 toC 通用場景類題目上落選。

從實際的模型效果和迭代速度來看,文心大模型在文件 / 長文能力、檢索增強、創作智慧體等技術和產品創新上比較可圈可點。

拆解基礎能力

圖片

IDC 諮詢釋出的基礎大模型產品實測結果

百度、GPT-4、阿里、商湯在問答理解類被列為優勢廠商。這類題目主要考察模型理解和回答人類問題的能力,IDC 從常識、專業知識、多語言、多模態、角色扮演 + 多輪對話、安全陷阱進行考察。

在安全陷阱這個細分維度,只有百度文心大模型入選。我們推測,這是因為百度在大模型安全問題上進行了全面的研究,確保服務安全。一直以來圍繞大模型討論最多的就是安全和隱私,IDC 的結果表明當前安全陷阱問題僅有少數產品能夠識別地較好,需要進一步的最佳化。

如今大模型的發展方向朝著多模態前進,不但要求大模型在文字上表現良好,在影像、語音等多個方面也要拿出成績。百度在多模態和角色扮演 + 多輪對話上也表現優異。

推理類題目主要考察大模型基於已知資訊推出新結論的思維方式。百度在歸納推理、類比推理兩項指標上入選優勢廠商。歸納和類比推理通常涉及抽象和高階思維能力,這就需要模型在進行推理時,應能處理並整合來自不同源的資訊,包括直接資料和推斷出的隱含資訊,從而確保模型推理的準確性。

隨著生成式 AI 的快速發展,創作表達成為大模型一較高下的賽道。一篇文章只寫了開頭不知該如何續寫、不會起標題…… 這時大模型都能幫你完成。我們以文字風格遷移為例, 這項任務要求模型必須準確理解原始文字的內容和意圖,這是風格轉換的基礎。模型需要識別和理解不同的寫作風格,這要求模型能夠區分例如學術文字、商業報告、新聞報導或口語等不同型別的語言風格。模型在理解原文內容和目標風格的基礎上,生成的文字需要保持一致性和連貫性等等。這些都對大模型背後的技術提出了很高的要求。

這一維度的比較結果表明百度在內容創作、生成質量和速度等方面展現出優勢,這將在數字內容市場中具有更強的競爭力。

從 IDC 的測試來看,國產大模型在問題解答、推理和創作表達上的成熟度在逐步升高。但在數學和程式碼這兩個基礎能力維度上得分率整體較低。

一直以來,大模型被劃分為數學上的「差等生」。在數學任務上,大模型不僅需要邏輯推理能力,還需要對問題有很好的解析和理解、抽象出各個問題的邏輯關係,最後給出準確的答案。IDC 報告顯示,百度大模型在數學類任務上體現出較強的體系化思維、邏輯思維和抽象思維能力。

程式碼能力是評估大模型理解、邏輯、推理、生成等綜合能力的體現,其已成為程式設計師輔助程式設計的必備助手。在程式碼類所有 6 個細分維度中,百度均入圍優勢廠商,在程式碼生成、程式設計翻譯、程式碼補全、程式碼糾錯等多個方面表現優異。

應用能力評估

除了基礎能力,IDC 還對大模型的應用能力進行了全方位測評,主要包括兩個方面:面向普通使用者服務 ToC,以及面向企業使用者服務 ToB。

在 ToC 類場景下,入選的廠商非常少,但百度在這兩項指標上均入選。評測結果顯示,百度文心大模型、GPT-4 等在搜尋、寫郵件、文生表圖等辦公場景下具備優勢,此外文心大模型在衣食住行、生活服務、閒聊創意等生活助手場景中被選為優勢廠商。

在 toB 特定行業類任務上,文心大模型已經在金融、法律、科研等多個行業落地。GPT-4 在工業、零售電商等落地較好。

技術是通用大模型立身之本

許多人都是從 2022 年底 ChatGPT 釋出之後才聽過大模型一詞。

但其實 ChatGPT 這類大模型產品的爆火背後是 NLP 領域多年技術積累的結果,而這個過程中國科技公司如百度等也從未缺席。

例如,百度早在 2019 年 3 月,就釋出了文心大模型 1.0 版,現已升級到文心大模型 4.0 版,實現了基礎模型的全面升級,在理解、生成、邏輯和記憶能力上都有著顯著提升。

這些提升靠什麼做到的?主要是百度在晶片、框架、模型和應用上的全棧佈局,尤其是飛槳深度學習平臺和文心大模型的聯合最佳化。

具體來說,在訓練方面,百度採用塊狀稀疏掩碼注意力計算、超長序列分片並行、靈活批次虛擬流水並行、平行計算與通訊深度聯合最佳化等技術,提高模型整體訓練效率和效能;在推理部署方面,百度創新了 INT4 無損量化加速、注意力機制協同最佳化、精調模型集約化部署、異構多芯混部推理等技術,在模型精度、推理效能、部署成本等方面均取得了較好成果。

相比 2023 年文心一言釋出時,文心大模型訓練效率提升到當時的 5.1 倍,推理效能提升到 105 倍。

反映到使用者資料上,2024 百度 Create AI 開發者大會的最新資料顯示,文心一言累計使用者規模已達 2 億,日均呼叫量也達到了 2 億。

增效降本的實際應用

大模型不僅掀起了一場 AI 技術變革,還在一定程度上重塑了我們的生產和生活方式,提高了生產力。

在大模型應用落地過程中,效果、效率和成本都很重要,我們需要從實際應用的場景需求出發,選擇最適合的模型。從研發側來說,需要持續不斷進行高效、低成本的模型生產;在應用側,則需要充分發揮按需排程的原則,利用任務需求的不同設計多模型的組合推理機制。

在 IDC 評測報告中,我們可以看到百度文心大模型在 toC 和 toB 應用場景中均有出色表現。這源於百度在大模型應用落地中的兩個關鍵考量:一方面是高效低成本的模型生產;另一方面是多模型推理。

高效低成本模型生產方面,百度研製了大小模型協同的訓練機制,可以有效進行知識繼承,高效生產高質量小模型,也可以利用小模型實現對比增強,幫助大模型的訓練。同時,建設了種子模型矩陣,資料提質與增強機制,以及從預訓練、精調對齊、模型壓縮到推理部署的配套工具鏈。高效低成本模型生產機制,助力應用速度更快、成本更低、效果更好。

多模型推理方面,百度研發了基於反饋學習的端到端多模型推理技術,構建了智慧路由模型,進行端到端反饋學習,充分發揮不同模型處理不同任務的能力,達到效果、效率和成本的最佳平衡。

基於上述兩方面的設計,文心大模型已經發展出基礎模型應用、智慧體模式應用、多模態應用等多種創新應用模式,真正地把大模型能力轉化成了生產力的提升。

例如在行業落地上,百度智慧雲推出千帆大模型平臺,以一站式企業級大模型開發及服務執行平臺服務大眾。2024 年 5 月底,百度宣佈文心大模型的兩款主力模型 ERNIE Speed、ERNIE Lite 免費。截至目前,包括國家電網、浦發銀行、中國航天、吉利、長安汽車、泰康保險、TCL、上海辭書出版社、榮耀、三星、蔚來汽車、南方電網、山東港、汽車之家、畢馬威等都成為百度文心大模型的使用者和合作夥伴。文心大模型已經擁有中國最廣泛的產業落地規模。

結語

除了 IDC 這份報告,我們也關注到文心大模型和文心一言在近期多個評測的不俗表現。

不久之前,清華的《SuperBench 大模型綜合能力評測報告》共評測了 14 個海內外具有代表性的模型,結果顯示文心一言 4.0 表現亮眼,作為國內頭部模型,與國際一流模型水平接近。

沙利文釋出的《2024 年中國大模型能力評測》報告顯示百度文心一言穩居國產大模型首位,拿下了數理科學、語言能力、道德責任、行業能力及綜合能力等五大評測維度的四項第一。

回顧從 2012 年開始的深度學習革命,百度就一直看重 AI 技術的發展與應用。一直到這波大模型浪潮,百度率先推出國產大模型產品,並不斷迭代技術、推進落地應用。而經過一年半的「百模大戰」,大模型進入了拼落地應用的階段。這個過程中,百度大模型的生成質量、生成速度與使用成本也許會成為這場戰爭的勝負手。

相關文章