國產大模型新高度！訊飛星火4.0釋出：整體超越GPT-4 Turbo，8個國際權威測試集測評第一

机器之心發表於2024-06-28

原文網址 : https://www.jiqizhixin.com/articles/2024-06-28-9

大模型GPT

國內大模型的能力，又來到了一個新高度！

6月27日，科大訊飛正式對外發布訊飛星火大模型V4.0，以及在醫療、教育、商業等多個領域的人工智慧應用。

隨著新版本的釋出，訊飛星火V4.0七大核心能力全面升級，在8個國際主流測試集中排名第一，整體超越GPT-4 Turbo，領先國內大模型。

劉慶峰稱，當前，星火APP下載量已經達到了1.31億，湧現出一批使用者喜愛的應用助手。在星火大模型的加持下，部分場景下的智慧硬體銷量同比增長70%+，月均使用時次數超過4000萬。

另外，星火V4.0大模型是基於全國首個國產萬卡算力叢集「飛星一號」訓練而成，意味著完全自主可控。

整體超越GPT-4 Turbo 七大底層核心能力再次升級

今年1月底，星火大模型 V3.5在語言理解、數學能力方面超過了GPT-4 Turbo，但程式碼、多模態等其他能力依然與後者存在一些差距。

如今，5個月過去了，星火大模型V4.0再次進化，不僅在文字生成、語言理解、知識問答、邏輯推理和數學五大能力方面完成了對GPT-4 Turbo的整體超越，並進一步縮小了在程式碼、多模態能力方面的差距，尤其是多模態能力達到了後者97%的水平。

不僅如此，在國內外涵蓋理解 &推理、綜合考試、數學&科學以及程式碼任務的12項中英文主流測試集中，星火大模型V4.0在8項測試集中排名第一。

在主流測試集之外，最近新鮮出爐的中高考題目更能檢驗大語言模型的綜合成色。

在這一領域的考核中，星火大模型V4.0的表現尤為出色。以2024北京中考為例，星火大模型V4.0取得了主客觀題得分率的雙雙第一，可以說是合格甚至中等水平的考生了。

除了底座七大核心能力的全面提升，此次星火大模型 V4.0 在指令跟隨、文字、多模態、推理能力等多個方面還進行了針對性的效能最佳化和功能創新。

首先，星火大模型V4.0加強了複雜指令跟隨和長文字處理能力，並業界首發一項新功能——長文字內容溯源。

具體來講，在長文件要素抽取、長文件總結摘要、長文件問答和長文件文字生成等任務中，星火大模型 V4.0 的整體表現與GPT-4 Turbo相當。同時，內容溯源功能又進一步減少了長文件知識問答任務中的幻覺，使得答案的準確率更高。

在多模態方面，星火圖文識別能力持續升級，尤其在科研、金融、醫療、司法和辦公等專業領域的圖文識別能力獲得極大提升，超越了OpenAI上個月釋出的最新旗艦模型 GPT-4o。這意味著星火大模型V4.0未來在這些垂直應用領域會有更大的應用潛力。

星火大模型V4.0在面向教育複雜場景的圖文識別任務中也更加遊刃有餘，在印刷體和手寫體的複雜公式識別中均顯著超越了GPT-4o。

同樣地，在基於邏輯關係的多模理解方面，星火大模型V4.0可以給出較以往邏輯更嚴謹、思路更清晰的回答。

最後，星火大模型V4.0能夠搞定更加複雜的邏輯推理、空間推理問題。

以空間推理為例，“Bob在客廳裡。他拿著一個杯子走到廚房。他把球放進杯子裡，然後拿著杯子走到臥室。他把杯子倒過來，然後走到花園。他把杯子放在花園裡，然後走到車庫。問題：球在什麼地方？”訊飛星火可以基於空間和常識推斷出球在臥室的地面上，這些能力的進步對於以後的具身智慧、家庭機器人都具有意義。

可以說，一系列底層核心能力的升級，秀出了國產大語言模型全面超越國外競品的實力，併為基於大模型的應用落地打下了堅實的能力基礎。

星火語音大模型釋出74個語種方言“自由對話” 破解強干擾場景下語音識別難題

語音能力一直是科大訊飛的絕對優勢。6月24日，科大訊飛憑藉“多語種智慧語音關鍵技術及產業化”專案榮獲2023年度國家科學技術進步獎一等獎。

早在2024年1月30日，訊飛在星火大模型V3.5更新中，就已首次對外發布星火語音大模型，首批37個主流語種語音識別效果超過OpenAI Whisper V3。在星火V4.0的釋出會上，科大訊飛宣佈其語音模型能力再次重磅升級，除了37個主流語種，還增加對37種方言的識別。使用者可以實現37個語種+37個方言共74種語言免切-自由交流。

現場，演示人直接用上海話、粵語、合肥話、四川方言、日語以及法語等語言直接跟大模型溝通，大模型都能在快速準確識別出來。

國產大模型新高度！訊飛星火4.0釋出：整體超越GPT-4 Turbo，8個國際權威測試集測評第一

^{現場方言識別演示}

另外，訊飛還重點展示了其超複雜場景語音轉寫的能力。三位人員現場實測了在噪音場景下，同時混疊著說話，正常人耳已難以聽清，只見訊飛星火的多模態能力不但實現了三人重疊語音的角色分離，還能實時轉寫出每個人說的話。

憑藉智慧語音的升級，訊飛進一步在汽車場景深耕。劉慶峰還展示了升級後的星火智慧座艙。

醫療大模型「訊飛曉醫」每個人的AI健康助手

由於醫學場景的特殊性，專業性極高、容錯率極低，面向C端的健康知識問答一直是一個難點。

去年10月，訊飛曾經在星火V3的釋出中簡單介紹過自己醫療大模型應用「訊飛曉醫」以及面向B端的應用「智醫助理」，「訊飛曉醫」面向C端開放，可以提供體檢報告分析等功能，「智醫助理」可以提供預問診等能力。

這次星火V4.0釋出，訊飛針對醫療大模型和應用做了進一步升級介紹。現場劉慶峰分享的資料顯示，在海量知識問答、複雜語言理解、專業文書生成、診斷治療推薦、多輪互動以及多模態互動等方面，訊飛星火醫療核心能力全面超過GPT-4 Turbo和GPT-4o。

在應用端，自發布後，面向醫生端的「智醫助理」實現了輔助診斷8.2億次，147萬次修正診斷，幫助發現7267萬不合理處方數。

面向個人端的App「訊飛曉醫」則可以為普通使用者免費提供病歷、體檢報告、檢查報告的解讀，也可以對醫藥知識進行對話。透過集合各類健康資訊，App可以為使用者個人提供一個個人數字健康空間，記錄疾病史、用藥史以及生活習慣等，可以在看病前幫助使用者分析病症原因，用藥時為使用者提供個性判斷、藥物禁忌、檢查後提供變化情況分析以及記錄等。

現場演示的：掃碼上傳病歷單和體檢報告單，分析和解讀。

釋出智慧批閱機教育大模型再次升級

訊飛星火V4.0對教育大模型進行升級，並對外發布星火智慧批閱機以及進一步升級訊飛AI學習機兩款硬體。

智慧批閱機面向老師群體，將試卷放到批閱機上，批閱機可以實現自動掃描、在原卷子上進行列印批改，並且掃描後的資料自動上傳，生成學生個性的學情分析以及班級共性分析，還可以據此給學生布置個性作業。較人工批改，智慧批閱機在閱卷場景上效率從90分鐘/班提升到5分鐘/班。

此外，訊飛還繼續升級了教育硬體「AI學習機」。利用升級後的「AI學習機」，使用者只需要拍攝試卷、選擇試題，AI就會幫助使用者答疑輔導，進行智慧對話式講解。

^{推出「個人空間」}^{打造懂你的AI助手}

「智慧體」的火爆已經成為2024年應用爆發的重要跡象。

自OpenAI先後推出GPTs以及GPT Store以來，人們可以基於大模型量身打造自己的AI智慧助理。很多人都對它們的到來抱有極大期待，認為會迎來AI的「iPhone時刻」。其他廠商也隨之跟進推出類似的AI智慧體服務，比如微軟推出了自己的Copilot GPTs服務。

然而，事情的發展不盡如人意，GPTs很快陷入了瓶頸。幾天前，微軟宣佈砍掉了維持僅3個月的Copilot GPTs服務。細究原因，GPTs很大程度上在應用場景和商業落地方面沒有跟上來，後續也就失去了進一步發展的動力。

因此，近半年來，國內頭部大模型廠商都在智慧體上快速發力，並在應用層面下足了功夫。

本次訊飛星火V4.0版本同樣重點推出了「智慧體」方面的更新。在訊飛星火Desk以及星火App中，「智慧體」已經成為和Chatbot同樣的一級入口。點開「智慧體中心」，訊飛的智慧體商店覆蓋了生產力工具、學習、程式設計、營銷等多個領域的智慧體。

根據釋出會披露的資訊，目前，星火APP/Desk將首批上線14個智慧體，面向特定場景打造專屬助手。

使用者既可以在這裡選擇自己的AI英語老師，也可以選擇一個定製好的AI律師來幫自己擬一份合同，還可以隨意挑選擅長Python、C++等語言的AI程式設計師來幫自己實現程式設計。

比如，捏一個嚴格的「雅思老師」。點選智慧體建立後，用一句話概括我們需要的「雅思老師」——需要幫我制定三個月的學習計劃，覆蓋聽說讀寫，並且針對每個部分教學。

點選生成後，後臺會根據需求自動擴充這個智慧體的其他方面，同時你可以隨時進行除錯。

除錯完成後，就可以向「AI雅思老師」學習了。

不過，與GPT Store相比，科大訊飛將「智慧體」功能看成是實現使用者個性化的一部分。使用者可以根據自身需要去選擇和定義自己需要的智慧助手。

而在實現「個性化」上，訊飛星火V4.0還對外發布釋出“個人空間”，為使用者提供專屬私域知識庫，透過上傳個人文件，讓大模型進行更精確的知識問答和內容生成；並且透過人設標籤、日程管理、資訊訂閱、建立發音人，為使用者提供更加個性化和趣味化的服務。

使用者可以在個人空間持續上傳自己的資料檔案，AI會根據所上傳的資料進行問答，並且提供內容溯源，在提高個性化的基礎上減少模型幻覺。

透過讓使用者更高程度的定義「Chatbot」，從個人知識增強、到選擇人設標籤、建立發音人，再到開放智慧體定義，科大訊飛將大模型「Chatbot」的資料、工作流以及表現形式各方面都實現了定義自主化。

個性化大模型到了一個新階段，星火大模型V4.0將「每個人的個性化智慧助手」這件事從「個性化」和「智慧」兩方面都向前邁進一步。

寫在最後

在2024大模型落地元年，要想一直保持領先地位，搶先並全方位佈局至為關鍵。

數天前，科大訊飛《多語種智慧語音關鍵技術及產業化》專案獲國家科學技術進步獎一等獎。這也許就是對科大訊飛多年來AI技術成就的肯定之一。要知道，這是深度學習革命以來，過去十年人工智慧領域首個國家科學技術進步獎一等獎。

可以說，從 1月底的V3.5到今天的V4.0，訊飛星火大模型不僅在底層能力方面走得更穩，更在應用落地上開足了馬力。

一方面在不斷提升底層核心語言能力，持續趕超全球頂級大模型，並打磨升級自身優勢模型能力比如語音能力；另一方面在應用和商業化方面投入更多精力，從現實場景需求出發進行全面佈局，透過打造垂類大模型、私人定製智慧體以及端側智慧硬體等多種方式，加速大模型在B端和C端的落地，讓更多企業、普通使用者切身體驗到大模型帶來的價值。

國產大模型新高度！訊飛星火4.0釋出：整體超越GPT-4 Turbo，8個國際權威測試集測評第一

整體超越GPT-4 Turbo 七大底層核心能力再次升級

醫療大模型「訊飛曉醫」 每個人的AI健康助手

釋出智慧批閱機 教育大模型再次升級

推出「個人空間」 打造懂你的AI助手

寫在最後

相關文章

醫療大模型「訊飛曉醫」每個人的AI健康助手

釋出智慧批閱機教育大模型再次升級

^{推出「個人空間」}^{打造懂你的AI助手}