為什麼要做長文字、長圖文、長語音的大模型？深度解讀訊飛星火V3.5春季上新

机器之心發表於2024-04-26

原文網址 : https://www.jiqizhixin.com/articles/2024-04-26-7

訊飛的持續高投入，換來了大模型能力的迅速提升。

4 月 26 日，科大訊飛釋出訊飛星火大模型 V3.5 的功能上新，其中一個重點就是面向使用者各種場景中高效獲取資訊需求，釋出首個長文字、長圖文、長語音的大模型，能夠支援文件、圖文資料、會議錄音等各種資訊來源的快速理解和學習，還能夠結合各種行業場景知識給出專業、準確回答。

效果到底如何？

今年人形機器人發展火熱，我們將一份長達 70 多頁的人形機器人報告，丟給了訊飛星火。只見星火很快上傳解析了檔案，我們先讓星火總結這份報告的重點資訊，星火條理清晰的給出了答案。

然後又讓它給出報告中特斯拉機器人的概括提煉，訊飛星火也結合報告中特斯拉機器人的資訊從技術迭代、核心技術和部件、學習能力等進行了總結提煉。

整體看下來，訊飛星火已經能作為一個知識助手，幫助我們在海量的資訊中快速的獲取知識，大幅提升我們獲取資訊的能力，並且效果也很不錯。

值得關注的是，據七麥資料顯示，訊飛星火 APP 在安卓端的下載量已經超過 9600 萬次，在國內工具類通用大模型 APP 中排名第一。持續用技術進步解決真實剛需下，訊飛星火也在獲得越來越多使用者的認可。

為何要做長文字、長圖文、長語音大模型？

知識高效獲取一直都是職場、學生和科研人士的痛點問題。不同於行業單 “卷” 長文字，科大訊飛此次推出了首個長文字、長圖文、長語音的大模型，背後是如何考慮的？

科大訊飛分析發現，在知識獲取和學習的過程中，廣大使用者能拿到的資料往往不僅是現成的文字，還有隨手可見的報刊書籍內容、各種研討會的 PPT 內容，老師黑板上的板書、同學的筆記，以及各種會議錄音、訪談，各種網上的釋出會、培訓教育影片等，能不能把這些文字、圖片、語音等都上傳到訊飛星火中，快速獲取知識？

正是這一考慮，科大訊飛推出首個支援長文字、長圖文、長語音的大模型，希望以此來解決使用者真實場景中多元資訊的獲取需求，提供高效便捷的知識管理體驗。為什麼要做長文字、長圖文、長語音的大模型？深度解讀訊飛星火V3.5春季上新

場景問題之外，使用者高效獲取知識的痛點還有效率問題和專業度問題。

比如面對上百萬甚至上千萬文字，長文字大模型消耗的運算資源非常大，業界大模型往往處理一半或者更少就無法處理了，長文字功能的落地，需要解決高效處理。

為了解決這一問題，科大訊飛用業內領先的訊飛星火 V3.5 提升對長文字的理解、學習、回答能力，在此基礎上使用稀疏剪枝技術，裁剪出小模型來處理長文字任務，同時使用了大模型知識蒸餾技術，極大提升了小模型的通用能力。從而推出業界最優的 130 億引數的大模型，在效果損失僅 3% 以內的情況下，使得星火在文件上傳解析處理、問答首響時間以及文字生成效率方面都獲得了極大的效率提升。

在長文字能力上，訊飛星火具備長文件資訊抽取、長文件知識問答、長文件總結、長文件文字生成等能力，總體已經達到 GPT-4 Turbo 4 月最新長文字版本的 97% 水平，而在銀行、保險、汽車、電力等多個垂直領域的知識問答任務上，訊飛星火大模型長文字總體水平已經超過 GPT-4 Turbo。

在長圖文能力上，科大訊飛面向複雜的圖文場景推出星火圖文識別大模型，以星火通用大模型為基座，結合視覺編碼器和多粒度圖文任務等構成。

從效果來看，它能夠直接處理非常複雜的版面分析，已經覆蓋 31 個典型場景，比如書刊、學術論文、專利、報紙、海報、PPT 等，同時能自動識別標註出 18 類不同的版面要素，比如頁首、頁尾、標題、段落、表格、公式、印章、手寫等；融合篇章上下文語義進行文字識別，識別更精準；面向教育、金融、醫療、科研等專業領域深度最佳化，能自動實現更多領域的專業符號識別。

根據國際公開的權威英文測試集來看，訊飛星火的圖文識別效果超過微軟和谷歌。從典型應用場景來看，效果在科研、金融以及企業產品技術文件等識別效果都處於業界領先地位。為什麼要做長文字、長圖文、長語音的大模型？深度解讀訊飛星火V3.5春季上新

此外，面對廣泛的音影片中資訊高效獲取需求，科大訊飛也推出長語音功能，將多年儲備的語音識別和翻譯技術結合起來，可以實現會議錄音、學習影片等的一鍵研讀，這個對於音影片場景的高效資訊獲取非常有用。

透過此次上新的長文字、長圖文、長語音功能，我們在日常的學習、工作中，無論是長文字素材，隨手拍的圖文資訊，亦或是會議錄音，高效知識獲取都可以透過一個大模型搞定。

AI 能 “情感共鳴”，還能一句話聲音復刻

年初訊飛星火 V3.5 釋出會上，科大訊飛推出了超擬人對話功能，AI 的聲音更自然更真實，擬人度達到了 83%，廣受使用者歡迎。結合體驗看，無論是語音可懂度、流暢度還是表現力，訊飛星火效果都超過 OpenAI、微軟。

此次科大訊飛釋出多情感超擬人合成，進一步提升了情緒表達的可感知度，對高興、抱歉、安慰、撒嬌、困惑等情緒表達的可感知度達到 85% 以上，AI 語音更加生動、真實。

它是如何做到的呢？概括來說，通用大模型 + 語音大模型，讓語音合成更逼真。首先，基於星火通用大模型的能力，來預測文字中的口語化現象、情感、停頓等細節資訊，這對於傳達說話者的真實感受非常重要；然後，星火語音大模型學習人類的口語化表達方式後，對通用大模型預測的口語化資訊進行還原，從而極大提高了合成的擬人化效果。

目前，昊鉑 HT 2024 款車型行業率先搭載科大訊飛超擬人合成技術，已在 4 月 25 日正式全球上市。超擬人在車載、家電等行業的應用將會出現越來越多的落地成果。為什麼要做長文字、長圖文、長語音的大模型？深度解讀訊飛星火V3.5春季上新

除了超擬人對話，科大訊飛還推出 “一句話聲音復刻” 功能，使用者只用在訊飛星火 APP 中跟讀一句話，就可以復刻你的聲音。

基於大模型在通用任務上的出色表現，在學習海量的人聲資料之後，現在大模型能夠實現在很少的聲音資料情況之下，就能模仿出和原人聲極為相近的聲音效果。

以前想要模擬一個人的聲音，需要這個人錄製很長時間，隨著技術的不斷進步，從需要錄製一週、到錄製一天，再到現在基於大模型加持之下，只需要錄製一句話，就能復刻出你的聲音。比如模仿小朋友的聲音，每天給爺爺奶奶讀書讀報；在我們出差的時候，模仿我們的聲音給孩子講故事。大家可以在訊飛星火 APP 上體驗。

做真正解決實際剛需的大模型

國內大模型市場經過一年發展，已呈現出各自的差異化落地路線，比如位元組豆包主打娛樂，而訊飛星火則更加註重實際剛需場景，這一點從其技術落地就可以看出。結合本次升級，科大訊飛董事長劉慶峰重點介紹了訊飛星火在招投標、合同、教育、科研等場景下的應用。

比如日常生活中，我們在租房、裝修或者商務合作中經常會遇到各種各樣的合同，看不懂不想看存在風險怎麼辦？科大訊飛推出星火合同助手，它可以對我們的合同進行風險稽核、合同比對，摘要總結以及合同生成，迅速識別潛在風險漏洞，它像個 “AI 法務” 一樣幫你更好的應對合同場景。

在教育場景，大模型進一步升級了訊飛 AI 學習機產品，不僅對作文的批改、對理科的批改更加精準，也讓智慧化輔學更有針對性更高效，還升級了百科問答功能，更好解答孩子的十萬個為什麼。智慧黑板中也升級了實錄功能和星火教師助手，後者融入長文字能力後，可以把優質教輔內容融入，教師在備課的過程中就可以直接融入教輔教參中的內容，進一步豐富備課資源，提升備課效率。

此外，在科研場景，此前星火科研助手目前已在中國科學院、三亞崖州灣科技城、北京郵電大學、哈爾濱工業大學等機構高校鋪開應用。多模態能力升級下，訊飛星火科研助手也進一步提升了論文問答、綜述生成、實驗解讀等的效果，可以解析的學術資料更加豐富，進一步賦能高校和科研院所的科研工作。

面向使用者場景之外，這一次科大訊飛也面向企業場景中知識管理與高效獲取需求，推出智慧體平臺，敏捷觸達大模型企業落地的最後一公里。

企業構建智慧體的關鍵環節可以概括為任務理解、任務規劃、任務執行。劉慶峰介紹，針對使用者的輸入，首先，基於訊飛星火大模型聰明的底座能力，會自動實現使用者輸入的精準理解和任務規劃。其次，解析完了相關的任務和對應的工具之後，訊飛星火也構建形成了包括天氣、航班、企查查等成體系的外部資訊來源的對接；

同時，星火智慧體平臺還透過互認證的機制，實現了往往是獨立的、隔離的 OA 系統、CRM 系統以及 ERP 系統的打通，完成相應操作；最後，透過私域知識融入機制，智慧體平臺很容易實現企業所屬行業以及企業私域知識的融入。此外，星火智慧體平臺還可以透過拖拽方式即可實現的新智慧體的建立和多智慧體的協作。為什麼要做長文字、長圖文、長語音的大模型？深度解讀訊飛星火V3.5春季上新可以看到，訊飛星火這次升級更務實，都是為了解決使用者真實場景下的剛需。劉慶峰也透露，科大訊飛將在 6 月 27 日釋出訊飛星火大模型 V4.0，進一步實現對 GPT-4 Turbo 的對標。

深度長文：NLP的巨人肩膀（上）
2018-12-10
支援 gRPC 長連結，深度解讀 Nacos 2.0 架構設計及新模型
2020-12-30
RPC架構模型
7000長文：一文讀懂Agent，大模型的下一站
2024-11-15
大模型
黃碩：百度飛槳文心大模型在語音文字稽核中的應用
2022-06-17
大模型
長大後你想成為什麼樣的人
2020-11-23
深度長文整理-Redis進階
2020-09-19
Redis
echarts圖表X軸文字過長解決解決方案：根據文字長度自動旋轉
2021-01-28
Echarts
國產大模型群雄逐“滬”，訊飛星火如何閃耀WAIC？
2024-07-04
大模型AI
ACL 2018 | 騰訊AI Lab解讀多篇入選長文
2018-07-16
AI
mplus資料分析：增長模型潛增長模型與增長混合模型再解釋
2022-03-09
模型
語音助手Antenna（長期更新）
2024-10-03
又長又細，萬字長文帶你解讀Redisson分散式鎖的原始碼
2021-02-25
Redis分散式原始碼
兩萬字長文深度解密DeepSeek-R1、Kimi 1.5，強推理模型憑什麼火出圈？
2025-02-21
解密模型
資料庫，主鍵為何不宜太長長長長長長長長？
2019-09-30
資料庫
長音訊要變天了？
2021-02-01
音訊
有什麼可以切割長圖的軟體嗎？支援自動將長圖進行切割
2021-12-03
Flutter路由管理程式碼這麼長長長長長，阿里工程師怎麼高效解決？（實用）
2018-12-14
Flutter路由阿里工程師
解讀 | 為什麼要做“密評”？（中科三方）
2021-06-23
訊飛星火大模型與New Bing實測對比
2023-05-07
大模型
萬字長文深度剖析物件導向的javascript
2020-12-02
物件JavaScript
長文解讀：Flink在唯品會的實踐應用！
2018-08-14
騰訊AI Lab深度解讀文字生成技術相關論文
2018-10-29
AI
探索Kimi智慧助手：如何用超長文字解鎖高效資訊處理新境界
2024-04-22
抖音：《2024抖音讀書生態資料包告》抖音上名著經典相關影片總時長增長48%
2024-04-23
帶屏智慧音響如何成為2019年新的增長點？
2019-02-25
萬字長文深度剖析 RocketMQ 設計原理
2022-05-13
MQ
[提問交流]為什麼不新增圖片視訊和音樂的模型呢?
2019-05-11
模型
[譯] Javascript 中最長的關鍵字序列長什麼樣子？
2019-03-18
JavaScript
為什麼資料庫列的字元長度為191？ - Grouparoo
2021-05-19
資料庫字元
HashMap的table長度為什麼是2的n次
2024-04-04
HashMap
7000字長文 | 資料分析師能力模型
2022-06-16
模型
excel太長了怎麼截圖 excel如何滾動截長圖
2022-05-21
Excel
萬字長文看懂「美圖雲修」AI修圖解決方案
2021-08-11
AI圖解
孩子長大了能給父母帶來什麼？
2021-05-19
智譜釋出端到端多模態模型 GLM-Realtime，2 分鐘記憶能力；訊飛星火同傳語音大模型釋出，5 秒時延
2025-01-16
大模型
萬字長文深度解讀亞信安慧AntDB-T資料庫鎖——效能和穩定性的保障
2024-01-26
資料庫
商品標題這麼長長長長長，阿里工程師如何解決？
2018-12-08
阿里工程師
深度UPLIFT模型在騰訊金融使用者增長場景中的應用
2023-03-24
模型

為什麼要做長文字、長圖文、長語音的大模型？深度解讀訊飛星火V3.5春季上新

相關文章