時隔一天,百川大模型拿下國產第一,AI助手「百小應」上線

机器之心發表於2024-05-24
目標大模型「超級應用」。

最近幾天,國內 AI 創業公司正在連續重新整理大模型的能力上限。

5 月 22 日,百川智慧釋出最新一代基座大模型 Baichuan 4,同時推出了首款 AI 助手「百小應」。

相較 1 月份釋出的 Baichuan 3,新一代模型在各項能力上均有大幅提升,其中通用能力提升超過 10%,數學和程式碼能力分別提升 14% 和 9%,在國內權威大模型評測機構 SuperCLUE 的評測中,Baichuan-4 大模型能力排名國內第一,超越了 SenseChat V5。

「在通往 AGI 的路上,我們需要超級模型 + 超級應用的雙輪驅動。這是百川自去年成立時確立的基本理念,」百川智慧創始人、CEO 王小川表示。「模型能力與超級應用都非常重要。這次的釋出,是我們在這條道路上的進步。」

圖片

本次更新的 Baichun 4 大模型首次帶來了多模態能力。百川表示,新模型在各大評測基準上表現優異,領先 Gemini Pro、Claude3-sonnet 等多模態模型。

儘管帶來了多模態能力,但接下來的技術發展規劃中,自然語言仍然是重點。王小川表示,大模型的核心是語言智慧,推理能力仍然需要突破,多模態沒有智力,只是對世界的復現。

「今天的大模型自洽性都不夠,模型思考缺乏嚴謹性。有足夠好的邏輯是更加重要的事。我不認為模型的長文字是唯一的事情,現在 AI 公司在長文字上競爭,但長文字只是做大的必要條件,不是充分條件。我認為模型本身未來更要強調內在的自洽性和推理能力,這兩件事並不是靠長視窗去解決的,」王小川表示。

在 Baichuan 4 強大能力的基礎上,百川智慧將搜尋技術與大模型深度融合,推出懂搜尋、會提問的 AI 助手「百小應」。

圖片

百小應不僅可以隨時回答使用者提出的各種問題,速讀檔案、整理資料、輔助創作等,還具備多輪搜尋、定向搜尋等搜尋能力,能更精準地理解使用者需求,為使用者提供專業、豐富的知識和資源。此外還會在使用者問題的基礎上透過一系列提問來幫助使用者明確自身需求,給出更精準的答案。

百小應現在已經在 Web 端、iOS 和安卓應用商店同步上線,連結:https://ying.baichuan-ai.com/chat

此外,百川智慧還宣佈開放 Baichuan 4、Baichuan3-Turbo、Baichuan3-Turbo-128k、Assistant API 四款 API,所有開發者、企業使用者均可登入百川智慧開發者中心選擇並接入相應 API,便捷高效地體驗百川智慧新一代模型的強大能力。(開發者體驗中心:https://platform.baichuan-ai.com/playground)

圖片

新模型能力國內第一

多項能力超越國外主流模型

作為百川智慧釋出的最新一代基座大模型,Baichuan 4 在國內權威大模型評測機構 SuperCLUE 的評測中,模型能力國內第一,相較上一代大模型 Baichuan 3 提升顯著。

圖片

不僅如此,與國外主流大模型對比,Baichuan4 在知識百科、長文字、生成創作等文科類中文任務上明顯優於國外大模型。

圖片

Baichuan 4 能在較短的時間內取得突破,源於其在訓練過程中引入了諸多業界領先的技術最佳化手段。例如,其在預訓練階段採用了基於 Model-based+Human-based 的協同資料篩選最佳化方法,以及對長文字建模位置編碼科學的 Scaling Law,有效提升了模型對資料的利用。

在對齊階段,新模型重點最佳化了模型 Reasoning、Planning、Instruct following 能力,透過 loss 驅動的資料選取與訓練,多階段爬坡,多模型引數融合等方式有效提升了模型的關鍵指標和穩定性。同時突破 RLHF 和 RLAIF 融合的 RLxF 強化學習對齊技術,大幅提升模型的指令遵循等能力。

此外,Baichuan 4 還具備行業領先的多模態能力,在 MMMU、MMBench-EN、CMMMU、MMBench-CN、MathVista 等評測基準上表現優異,大幅領先 Gemini Pro、Claude3-sonnet 等多模態模型。

圖片

首款 AI 助手百小應

懂搜尋、會提問

「百小應」是百川智慧成立之後推出的首款 AI 應用。百川智慧認為,不同於資訊時代工具屬性的產品,大模型創造的是新物種,讓 AI 從工具變為夥伴。雖然受限於模型能力,當下的 AI 應用還無法完全做到如同人一樣,能夠使用工具、會思考、有情感等,但隨著模型能力的持續提升,相關應用一定會逐步具備完整能力。

為了讓使用者能夠擁有更優質的智慧體驗,百小應很好地融合了 Baichan 4 行業領先的通用能力與百川智慧前沿的搜尋技術,具備多步搜尋、智慧定向搜尋等能力,將百小應打造成一款懂搜尋、會提問的 AI 助手。

百川著重展示了百小應互動中的多輪搜尋能力。針對使用者提出的問題,百小應可以逐步解析,深入探究,解鎖問題的核心答案。相比單輪搜尋,在市場調查、產業分析等複雜場景下,多輪搜尋能夠有效地獲取更專業、更有深度的資訊。定向搜尋則能讓百小應精準定位問題領域,直接訪問權威站點,快速、準確地找到相關資訊。

在搜尋結果呈現方面,百小應同樣與其他在單次搜尋後「簡單總結網頁資訊」的應用不同,會將搜尋結果作為觀點、論據直接應用到問答結果中。與此同時,其結果的結構化也非常優秀,能夠將搜尋結果以表格等結構化形式呈現,最佳化資訊佈局,便於使用者快速定位、解讀所需資訊,可以為行業分析、調研工作提供助力。此外,百小應還在搜尋結果中增加了來源參考,使用者只需點選引用角標即可快速校驗搜尋結果。

不僅如此,針對一部分使用者無法明確表述出自身需求,或者問題過於籠統、抽象的情況,百小應還會透過反問的方式,多輪互動定位需求,構建個性化解決方案,給出更精準的答案。

除了強大的搜尋和提問功能以外,使用者還能在百小應中上傳 PDF、word 文件,或者直接輸入網頁連結(URL),閱讀並分析書籍、報告、學術論文等長篇內容,僅用一分鐘便能讀完上市公司財報。在 Baichuan 4 多模態能力的支援下,使用者在提問的同時還可以同步上傳圖片,對圖片內容進行解讀,或者將圖片作為補充材料,獲取更精準的回答;並且,它還支援使用者透過語音的方式進行互動。

百小應的名稱源自「一呼百應」,icon 中的橙色區別於科技領域常用的冷色調,寓意有溫度的人工智慧,icon 中的形象由水滴和對話氣泡組合而成,水滴象徵百川入海的無盡智慧,對話氣泡象徵溝通交流。

圖片

MaaS 1000 萬免費

token、AaaS 免費試用

百川智慧認為,企業客戶需要的並不是大模型,而是生產力、生產效率的提升,擁有 MaaS+ AaaS(Agent as a service)雙重能力,企業才能構建出智慧化的最佳方案。

秉持這一理念,百川智慧推出了全新的 MaaS+AaaS 服務。MaaS 版塊由基座模型組成,分為旗艦版和專業版。旗艦版將全量開放 Baichuan 4 的各項能力,Baichuan 4 不僅擁有國內第一的中文能力,並且具備行業領先的金融知識和問答能力,在 SuperCLUE 的金融知識百科能力上 Baichuan 3 就已取得了 A + 的最高評級。

專業版包含 Baichuan3-Turbo 和 Baichuan3-Turbo-128K 兩款模型,在價格方面相比旗艦版 Baichuan 4 更實惠,且均針對企業用的高頻場景進行了針對性最佳化,綜合測試相比 GPT3.5 整體效果提升 8.9%。百川智慧表示,即日起,MaaS 的新使用者可以獲得 1000 萬免費 token。

Assitants API 是百川智慧在 Baichuan 4 基礎上針對 Agent 構建推出的 API 介面,不僅支援 Code interpreter、RAG 內建工具,還支援自定義工具呼叫,方便企業接入各種豐富複雜的 API。評測結果顯示其工具呼叫能力接近 Open AI Assistants API,本次釋出的 Assitants API 現已正式開啟公測,感興趣的使用者均可申請免費試用。

未來,百川智慧將推出零程式碼 Agent 建立平臺產品,讓業務人員透過自然語言的方式,也能建立 Agent,更好地賦能企業智慧化發展。

不過除此之外,百川似乎並不熱衷於投身目前競爭激烈的大模型 API 價格戰。

「中國商業環境裡 to B 的市場規模比 to C 小 10 倍,to B 收的是人民幣,花的是美金。到最後大廠都會卷這件事,只是沒想到大家卷得這麼狠,價格已經打到零了。這肯定是大廠射程範圍內的,而我們肯定要做差異化,」王小川表示。

面向消費端的百小應,是百川智慧投身超級應用的重要一步。

相關文章