為什麼要做長文字、長圖文、長語音的大模型?深度解讀訊飛星火V3.5春季上新

机器之心發表於2024-04-26

訊飛的持續高投入,換來了大模型能力的迅速提升。

4 月 26 日,科大訊飛釋出訊飛星火大模型 V3.5 的功能上新,其中一個重點就是面向使用者各種場景中高效獲取資訊需求,釋出首個長文字、長圖文、長語音的大模型,能夠支援文件、圖文資料、會議錄音等各種資訊來源的快速理解和學習,還能夠結合各種行業場景知識給出專業、準確回答。

效果到底如何?

今年人形機器人發展火熱,我們將一份長達 70 多頁的人形機器人報告,丟給了訊飛星火。只見星火很快上傳解析了檔案,我們先讓星火總結這份報告的重點資訊,星火條理清晰的給出了答案。

圖片

然後又讓它給出報告中特斯拉機器人的概括提煉,訊飛星火也結合報告中特斯拉機器人的資訊從技術迭代、核心技術和部件、學習能力等進行了總結提煉。

圖片

整體看下來,訊飛星火已經能作為一個知識助手,幫助我們在海量的資訊中快速的獲取知識,大幅提升我們獲取資訊的能力,並且效果也很不錯。

值得關注的是,據七麥資料顯示,訊飛星火 APP 在安卓端的下載量已經超過 9600 萬次,在國內工具類通用大模型 APP 中排名第一。持續用技術進步解決真實剛需下,訊飛星火也在獲得越來越多使用者的認可。

為何要做長文字、長圖文、長語音大模型?

知識高效獲取一直都是職場、學生和科研人士的痛點問題。不同於行業單 “卷” 長文字,科大訊飛此次推出了首個長文字、長圖文、長語音的大模型,背後是如何考慮的?

科大訊飛分析發現,在知識獲取和學習的過程中,廣大使用者能拿到的資料往往不僅是現成的文字,還有隨手可見的報刊書籍內容、各種研討會的 PPT 內容,老師黑板上的板書、同學的筆記,以及各種會議錄音、訪談,各種網上的釋出會、培訓教育影片等,能不能把這些文字、圖片、語音等都上傳到訊飛星火中,快速獲取知識?

正是這一考慮,科大訊飛推出首個支援長文字、長圖文、長語音的大模型,希望以此來解決使用者真實場景中多元資訊的獲取需求,提供高效便捷的知識管理體驗。為什麼要做長文字、長圖文、長語音的大模型?深度解讀訊飛星火V3.5春季上新

場景問題之外,使用者高效獲取知識的痛點還有效率問題和專業度問題。

比如面對上百萬甚至上千萬文字,長文字大模型消耗的運算資源非常大,業界大模型往往處理一半或者更少就無法處理了,長文字功能的落地,需要解決高效處理。

為了解決這一問題,科大訊飛用業內領先的訊飛星火 V3.5 提升對長文字的理解、學習、回答能力,在此基礎上使用稀疏剪枝技術,裁剪出小模型來處理長文字任務,同時使用了大模型知識蒸餾技術,極大提升了小模型的通用能力。從而推出業界最優的 130 億引數的大模型,在效果損失僅 3% 以內的情況下,使得星火在文件上傳解析處理、問答首響時間以及文字生成效率方面都獲得了極大的效率提升。

圖片

在長文字能力上,訊飛星火具備長文件資訊抽取、長文件知識問答、長文件總結、長文件文字生成等能力,總體已經達到 GPT-4 Turbo 4 月最新長文字版本的 97% 水平,而在銀行、保險、汽車、電力等多個垂直領域的知識問答任務上,訊飛星火大模型長文字總體水平已經超過 GPT-4 Turbo。

在長圖文能力上,科大訊飛面向複雜的圖文場景推出星火圖文識別大模型,以星火通用大模型為基座,結合視覺編碼器和多粒度圖文任務等構成。

圖片

從效果來看,它能夠直接處理非常複雜的版面分析,已經覆蓋 31 個典型場景,比如書刊、學術論文、專利、報紙、海報、PPT 等,同時能自動識別標註出 18 類不同的版面要素,比如頁首、頁尾、標題、段落、表格、公式、印章、手寫等;融合篇章上下文語義進行文字識別,識別更精準;面向教育、金融、醫療、科研等專業領域深度最佳化,能自動實現更多領域的專業符號識別。

圖片

根據國際公開的權威英文測試集來看,訊飛星火的圖文識別效果超過微軟和谷歌。從典型應用場景來看,效果在科研、金融以及企業產品技術文件等識別效果都處於業界領先地位。為什麼要做長文字、長圖文、長語音的大模型?深度解讀訊飛星火V3.5春季上新

此外,面對廣泛的音影片中資訊高效獲取需求,科大訊飛也推出長語音功能,將多年儲備的語音識別和翻譯技術結合起來,可以實現會議錄音、學習影片等的一鍵研讀,這個對於音影片場景的高效資訊獲取非常有用。

透過此次上新的長文字、長圖文、長語音功能,我們在日常的學習、工作中,無論是長文字素材,隨手拍的圖文資訊,亦或是會議錄音,高效知識獲取都可以透過一個大模型搞定。

AI 能 “情感共鳴”,還能一句話聲音復刻

年初訊飛星火 V3.5 釋出會上,科大訊飛推出了超擬人對話功能,AI 的聲音更自然更真實,擬人度達到了 83%,廣受使用者歡迎。結合體驗看,無論是語音可懂度、流暢度還是表現力,訊飛星火效果都超過 OpenAI、微軟。

圖片

此次科大訊飛釋出多情感超擬人合成,進一步提升了情緒表達的可感知度,對高興、抱歉、安慰、撒嬌、困惑等情緒表達的可感知度達到 85% 以上,AI 語音更加生動、真實。

它是如何做到的呢?概括來說,通用大模型 + 語音大模型,讓語音合成更逼真。首先,基於星火通用大模型的能力,來預測文字中的口語化現象、情感、停頓等細節資訊,這對於傳達說話者的真實感受非常重要;然後,星火語音大模型學習人類的口語化表達方式後,對通用大模型預測的口語化資訊進行還原,從而極大提高了合成的擬人化效果。

目前,昊鉑 HT 2024 款車型行業率先搭載科大訊飛超擬人合成技術,已在 4 月 25 日正式全球上市。超擬人在車載、家電等行業的應用將會出現越來越多的落地成果。為什麼要做長文字、長圖文、長語音的大模型?深度解讀訊飛星火V3.5春季上新

除了超擬人對話,科大訊飛還推出 “一句話聲音復刻” 功能,使用者只用在訊飛星火 APP 中跟讀一句話,就可以復刻你的聲音。

基於大模型在通用任務上的出色表現,在學習海量的人聲資料之後,現在大模型能夠實現在很少的聲音資料情況之下,就能模仿出和原人聲極為相近的聲音效果。

以前想要模擬一個人的聲音,需要這個人錄製很長時間,隨著技術的不斷進步,從需要錄製一週、到錄製一天,再到現在基於大模型加持之下,只需要錄製一句話,就能復刻出你的聲音。比如模仿小朋友的聲音,每天給爺爺奶奶讀書讀報;在我們出差的時候,模仿我們的聲音給孩子講故事。大家可以在訊飛星火 APP 上體驗。

做真正解決實際剛需的大模型

國內大模型市場經過一年發展,已呈現出各自的差異化落地路線,比如位元組豆包主打娛樂,而訊飛星火則更加註重實際剛需場景,這一點從其技術落地就可以看出。結合本次升級,科大訊飛董事長劉慶峰重點介紹了訊飛星火在招投標、合同、教育、科研等場景下的應用。

圖片

比如日常生活中,我們在租房、裝修或者商務合作中經常會遇到各種各樣的合同,看不懂不想看存在風險怎麼辦?科大訊飛推出星火合同助手,它可以對我們的合同進行風險稽核、合同比對,摘要總結以及合同生成,迅速識別潛在風險漏洞,它像個 “AI 法務” 一樣幫你更好的應對合同場景。

圖片

在教育場景,大模型進一步升級了訊飛 AI 學習機產品,不僅對作文的批改、對理科的批改更加精準,也讓智慧化輔學更有針對性更高效,還升級了百科問答功能,更好解答孩子的十萬個為什麼。智慧黑板中也升級了實錄功能和星火教師助手,後者融入長文字能力後,可以把優質教輔內容融入,教師在備課的過程中就可以直接融入教輔教參中的內容,進一步豐富備課資源,提升備課效率。

此外,在科研場景,此前星火科研助手目前已在中國科學院、三亞崖州灣科技城、北京郵電大學、哈爾濱工業大學等機構高校鋪開應用。多模態能力升級下,訊飛星火科研助手也進一步提升了論文問答、綜述生成、實驗解讀等的效果,可以解析的學術資料更加豐富,進一步賦能高校和科研院所的科研工作。

面向使用者場景之外,這一次科大訊飛也面向企業場景中知識管理與高效獲取需求,推出智慧體平臺,敏捷觸達大模型企業落地的最後一公里。

圖片

企業構建智慧體的關鍵環節可以概括為任務理解、任務規劃、任務執行。劉慶峰介紹,針對使用者的輸入,首先,基於訊飛星火大模型聰明的底座能力,會自動實現使用者輸入的精準理解和任務規劃。其次,解析完了相關的任務和對應的工具之後,訊飛星火也構建形成了包括天氣、航班、企查查等成體系的外部資訊來源的對接;

同時,星火智慧體平臺還透過互認證的機制,實現了往往是獨立的、隔離的 OA 系統、CRM 系統以及 ERP 系統的打通,完成相應操作;最後,透過私域知識融入機制,智慧體平臺很容易實現企業所屬行業以及企業私域知識的融入。此外,星火智慧體平臺還可以透過拖拽方式即可實現的新智慧體的建立和多智慧體的協作。為什麼要做長文字、長圖文、長語音的大模型?深度解讀訊飛星火V3.5春季上新可以看到,訊飛星火這次升級更務實,都是為了解決使用者真實場景下的剛需。劉慶峰也透露,科大訊飛將在 6 月 27 日釋出訊飛星火大模型 V4.0,進一步實現對 GPT-4 Turbo 的對標。

相關文章