源1.0大模型登頂中文語言能力評測基準CUGE榜首
北京 2022年6月9日 /美通社/ -- 近日,浪潮"源1.0"大模型登頂中文語言能力理解和生成評測基準CUGE總榜榜首,並獲得語言理解(篇章級)、語言生成、對話互動、多語言、數學推理等5項評測最佳成績。這是繼源1.0攬獲權威中文語言評測基準CLUE榜單的零樣本學習和小樣本學習兩類總榜冠軍後,再次在評測中展現強大實力。
CUGE(Chinese Language Understanding and Generation Evaluation)智源指數是由清華大學、北京大學、北京智源研究院等高校機構共同建立的中文機器語言能力評測基準,該基準針對當前自然語言處理和人工智慧發展新正規化,面向具有"通用語言能力"的預訓練模型,全面系統、多層次、多維度地評測大模型能力。
源 1.0領跑多類綜合語言場景
在語言理解(篇章級)評測中,源1.0僅用時11分鐘,便完成數千篇閱讀理解回答4000多個問題,以86.9高分的成績位居榜首,展現出頂尖的語言理解能力。基於源1.0大模型強大的閱讀理解能力及高速處理大量樣本的特點,未來將加速勞動密集型文字處理等行業變革,如應用於智慧客服根據使用者提供的資訊在產品文件中快速找到解決方案及智慧司法、智慧招聘系統等。
在語言生成評測中,源1.0僅用時70秒,就完成近800條摘要內容的生成,登頂該項榜單。源大模型強大的文字生成能力可提升智慧問答與對話、新聞摘要、報告生成等場景中AI智慧化水平,如從長篇幅的新聞資訊等文字中提取出簡明扼要的文字描述,便於及時、高效的獲取有價值的資訊及智慧文案、協助寫作等場景。
在多語言機器翻譯評測中,基於源1.0大模型蒸餾出來的翻譯模型在完成近4000千對中英文互譯後,登頂榜首,領先第二名15%。翻譯模型在基於源1.0大模型閱讀的海量高質量資料集基礎上,採用維基百科、書籍、聯合國檔案及字幕組等近80G高質量資料集進行強化訓練,因此翻譯不僅專業準確,同時更符合中文表述。未來可廣泛應用於新聞、哲學、小說等日常的語言翻譯場景中。
在對話互動評測中,基於源1.0大模型蒸餾出來的對話模型回答了電影、音樂、旅行3個領域共近萬個主題對話,成績位居榜首,領先第二名成績30%,展現了極強的智慧對話能力。在繼承源1.0大模型能力的基礎上,對話模型採用了2660萬條醫療、法律、保險等不同行業,歷史、電影、娛樂等不同場景的對話語料資料進行強化訓練,在知識問答、高頻閒聊等開放式任務上表現突出,此前已獲得業界權威測評WebQA開放問答資料集榜單冠軍。
當前,智慧對話普遍存在內容乏味、主題不連貫等問題,往往幾輪對話後,回答便空洞重複,大大降低使用者體驗。知識驅動的對話模型直接連線到廣泛的知識庫,大大增加對話內容的豐富度,在一定知識背景下也不會偏題,更趨向於人類之間的交談。不久前,源開發者社群的一位開發者基於源的對話模型建立了一位能與人類玩劇本殺的AI虛擬玩家,一位人類玩家與AI虛擬玩家聊天到深夜凌晨仍興趣盎然。以知識驅動的對話模型,可廣泛應用於各類虛擬人、智慧助手、智慧客服等場景,並極大提升對話的智慧水平和使用者體驗。
源 1.0 在數學推理鋒芒初露
當前業界各類大模型在自然語言處理領域展示出了強大的能力,但在數學領域卻還存在盲區。數學對邏輯和推理能力有極強的要求,Open AI開發出多種方法訓練GPT-3的數學推理能力,但在挑戰小學數學應用題時,GPT-3也尚未及格,數學推理能力甚至低於9-12歲兒童。
為更好評測大模型邏輯推理能力,CUGE專門設立了數學推理能力榜單,主要考察模型數值計算能力,即考察對應用情景和任務的理解抽象能力以及數值計算能力,類似於小學數學應用題。數學推理能力榜單資料庫內的數學題來自線上教育網站提供的小學數學應用題。
在CUGE數學推理評測中,源1.0大模型完成1000道小學數學應用題,以76.9的高分大幅領先高居榜首。
為應對大模型在數學推理方面的挑戰,浪潮為源1.0開發了一套相似啟發式資料增強的方案,給每一個要求解的數學問題從資料庫中檢索並匹配一個相似的題目並與原題目進行拼接,透過類比學習,啟發大模型能夠根據兩道相似問題更好地學習如何給出解題表示式,進而學會每一類題目的解法,類似於人類在學習過程中會透過連續學習同一型別的題目來提高對這一型別題目的理解能力;同時,浪潮在源1.0改進了演算法掩碼策略,使得模型在學習過程中只關注於連續的相似的題目,不受同一個輸入序列中不相關題目的影響,這樣模型可以更專注於學習同一型別的題目,極大地提升瞭解題準確度,全方面培養一個數學學霸。
源 1.0 開源開放計劃收效顯著
目前,浪潮"源1.0"已經將模型API、高質量資料集、模型訓練程式碼、推理程式碼和應用程式碼等等工具和能力開源開放,超過300家行業使用者和開發者,透過"源1.0"提供的資料和API顯著提升了金融、網際網路、醫療和自動駕駛等行業應用的精度。浪潮源1.0將持續助力行業使用者和開發者,攜手推動技術創新、場景融合、應用開發,共同促進大模型的健康發展與產業落地,加速AI產業化和產業AI化發展。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70004007/viewspace-2899753/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- ChineseGLUE:為中文NLP模型定製的自然語言理解基準模型
- Go 語言基準測試入門Go
- Facebook 自然語言處理新突破:新模型能力趕超人類 & 超難 NLP 新基準自然語言處理模型
- 如何評估大語言模型模型
- NeurIPS 2024 | 真實世界複雜任務,全新基準GTA助力大模型工具呼叫能力評測大模型
- “千言資料集:文字相似度”權威評測,網易易智榮登榜首
- 大語言模型湧現欺騙能力模型
- RFC6020 - YANG語言標準中文
- 一文解碼語言模型:語言模型的原理、實戰與評估模型
- 自動化、可復現,基於大語言模型群體智慧的多維評估基準Decentralized Arena來了模型Zed
- Findings | 中文預訓練語言模型回顧模型
- 開源醫療大模型排行榜: 健康領域大模型基準測試大模型
- 蘋果OpenELM:開源小語言模型蘋果模型
- Go語言基準測試(benchmark)三部曲之一:基礎篇Go
- XLM — 基於BERT的跨語言模型模型
- 長上下文語言模型評估體系探析模型
- 評分卡模型的評分標準模型
- 實時語音互動中文基準首期測評出爐;美取消 SB-1047 法案,大模型廠商大難不死丨 RTE 開發者日報大模型開發者日報
- 豆包大模型團隊釋出全新Detail Image Caption評估基準,提升VLM Caption評測可靠性大模型AIAPT
- 開源大語言模型作為 LangChain 智慧體模型LangChain智慧體
- 目標檢測模型的評價標準-AP與mAP模型
- 小愛同學語音模型評測 - 董沐模型
- Go語言基準測試(benchmark)三部曲之三:提高篇Go
- 新型蛋白質大語言模型即將登陸Google Cloud模型GoCloud
- 語言大模型大模型
- 大語言模型模型
- Java跌落神壇!Python正式登頂世界第一程式語言JavaPython
- Laravel - 中文語言包Laravel
- 媲美OpenAI事實性基準,這個中文評測集讓o1-preview剛剛及格OpenAIView
- 基於 AI 大模型的精準測試分享AI大模型
- nlp中的傳統語言模型與神經語言模型模型
- 線上文字翻譯能力新增14個直譯模型,打造以中文為軸心語言的翻譯系統模型
- 覆蓋40種語言:谷歌釋出多語言、多工NLP新基準XTREME谷歌REM
- 聊一聊評分模型校準模型
- 大模型不只是語言能力,還是對廣闊世界的理解大模型
- 準確率達60.8%,浙大基於Transformer的化學逆合成預測模型,登Nature子刊ORM模型
- RedMonk:2021年6月程式語言 JavaScript居榜首JavaScript
- ICML 2024| 大語言模型助力基於CLIP的分佈外檢測任務模型