首個千億中文語言模型的使命，不止於規模與刷榜成績

迴圈智慧發表於2021-04-28

原文網址 : https://www.jiqizhixin.com/articles/2021-04-28-6

此前公佈超大規模預訓練語言模型的開發計劃時，我們強調，它是面向產業落地應用的，而非純粹的學術研究專案。

兩者的區別是什麼？

首先，為學術研究而生的大規模預訓練模型，往往以人工收集構造的相對通用化的資料集作為基準，以較理想化的設定來進行實驗（比如類別均衡的多分類問題），這些都跟模型最終的實際落地應用有明顯出入。因此，我們必須從開始打造它的第一天起，就考慮大模型將來怎麼在企業級應用中落地。

其次，以單純學術研究為目標的大模型，到了重新整理榜單最好成績這一步，就拿了研究專案的高光時刻，並不需要參與後面漫漫無期的落地應用過程。但對我們而言，只能高興一天時間。還是同一批人，不是把孩子生出來就行了，還要負責養大，培養孩子做出最大的貢獻。

餘承東釋出由迴圈智慧和華為雲聯合開發的盤古NLP模型

迴圈智慧（Recurrent AI）聯合創始人楊植麟是“大模型”的佈道者，也是深入業務前線的公司產品負責人，因此非常關注前沿AI技術的落地策略。他認為，“超大規模模型是價值最大化的基礎，但重新整理CLUE榜單成績只是模型能力的初步驗證，盤古NLP大模型更大的價值是帶來AI落地的效率革命和應用場景擴充套件。”

三大技術創新，專攻大模型落地難題

在盤古NLP大模型研發過程中，迴圈智慧的 NLP Moonshot 團隊拆解了GPT-3等大模型很難在商業場景中得到應用的三大原因：1）大模型在應對複雜商用場景的小樣本學習能力弱；2）難以結合微調擴充套件業務場景；3）難以融入不同領域的知識。然後，一一進行擊破。

第一，盤古NLP大模型在小樣本學習任務上超越GPT-3，解決後者難應對複雜商用場景的少樣本學習問題。比如在企業客戶的心聲分析和員工執行力分析應用場景中，使用盤古NLP大模型生產語義標籤時，實測得到目標結果所需的樣本量僅為GPT-3模型的十分之一，即AI生產效率可提升十倍。

第二，盤古團隊在預訓練階段加入了基於 prompt 的任務，大幅降低微調難度，解決以往大模型難為不同行業場景進行微調的問題。在下游資料充足時，微調難度的降低使得模型可以隨著資料變多而持續最佳化；在下游資料稀缺時，微調難度的降低使得模型的少樣本學習效果得到顯著提升。比如，在企業藉助溝通內容判斷客戶購買意向，以找出更多目標客戶從而提升轉化率的場景中，實測盤古NLP大模型相比GPT-3可提升 27% 的成單轉化率。

第三，除了能像GPT-3等僅基於端到端生成的方式以外，盤古NLP大模型還可以透過少樣本學習對意圖進行識別，轉化為知識庫和資料庫查詢，解決以往大模型難融入行業知識和資料的問題。比如在金融服務場景中，盤古NLP大模型能更好地為實時溝通輔助系統提供底層能力，幫助服務人員更快掌握專業知識和溝通經，更快提升業務水平。

三種企業應用，增強“人”的能力

在高附加值的產品銷售與服務過程中，如保險、房產、教育、財富管理等行業，企業需要藉助人與人之間的溝透過程，讓銷售人員與客戶建立更緊密的聯結，提供更專業的服務。但由於銷售人員的素質和能力提升緩慢，同時企業缺乏對目標客戶的瞭解，導致客戶體驗不佳，業績也難獲增長。

“企業的員工在與消費者溝通交流時，代表的是企業自身形象。因此，提升員工的業務水平和表現，是企業重塑消費者體驗的重要環節。”迴圈智慧CEO陳麒聰表示。

基於盤古NLP大模型等核心技術，企業可以獲得更強的人員產能提升、精準銷售和新一代合規質檢解決方案，從而更快地提升銷售人員能力、更快地找到目標客戶以及降低合規風險。

人員產能提升 Expert↑：藉助深入業務流程的優秀實踐挖掘、溝通實時輔助和執行監督報表產品組合，幫助企業將優秀銷售人員的實踐經驗傳遞給每一名普通銷售。在與客戶溝通中實時輔助銷售人員，提升他們的表現，將他們為企業創造的價值最大化。

精準銷售 Target↑：迴圈智慧開創了基於溝通對話資料與成單結果的意向預測模型，透過演算法模型，可篩選存量線索中的高意向線索，或篩選對某產品更感興趣的客戶名單，幫助銷售人員更精準地找到目標客戶，提升銷售和服務效率。

新一代合規質檢 Compliance↑：不同於基於“關鍵詞+正則”的傳統方案，迴圈智慧提供高準確率和召回率的AI語義質檢方案，配合獨家的“違規率排序”功能，可助力質檢員多找出數倍違規對話，幫助企業大幅降低合規風險，提升服務質量。

超大規模語言模型是前沿NLP技術與落地應用的交匯點，隨著下一步通用API的開放，企業可以解鎖更多應用場景。

不止於刷榜，三大CV賽事奪冠演算法技術的“研”與“用”
2019-09-26
演算法
CosyVoice: 多語言大規模語音生成模型的全棧解決方案
2024-10-18
模型全棧
新型大語言模型的預訓練與後訓練正規化，谷歌的Gemma 2語言模型
2024-11-29
模型谷歌Gemma
新型大語言模型的預訓練與後訓練正規化，Meta的Llama 3.1語言模型
2024-11-30
模型
nlp中的傳統語言模型與神經語言模型
2018-11-03
模型
首個GPU高階語言，大規模並行就像寫Python，已獲8500 Star
2024-05-20
GPU並行Python
CVPR 2024｜FairCLIP：首個多模態醫療視覺語言大模型公平性研究
2024-04-08
AI視覺大模型
新型大語言模型的預訓練與後訓練正規化，蘋果的AFM基礎語言模型
2024-11-28
模型蘋果
Jeff Dean等人新作：換個角度審視語言模型，規模不夠發現不了
2022-06-17
模型
FBI-LLM低位元基礎大語言模型來了，首個完全從頭訓練的二值化語言模型
2024-07-28
模型
XLM — 基於BERT的跨語言模型
2019-08-23
模型
關於 vs code 中文語言包的 bug
2020-03-18
浙大PAT刷題-1004.成績排名
2024-05-24
一文解碼語言模型：語言模型的原理、實戰與評估
2023-11-13
模型
Findings | 中文預訓練語言模型回顧
2020-11-18
模型
語言模型：GPT與HuggingFace的應用
2023-12-08
模型GPT
用C語言編制查詢某班同學的平均成績
2020-09-25
C語言
探索自然語言處理：語言模型的發展與應用
2024-03-13
自然語言處理模型
年報首提“雲與計算”：華為的“新基建”成績如何？
2020-03-31
語言模型與神經網路
2024-08-25
模型神經網路
新型大語言模型的預訓練與後訓練正規化，阿里Qwen
2024-11-27
模型阿里
百度釋出全球首個大規模隱變數對話模型PLATO
2020-04-15
變數模型
pycharm怎麼改成中文 pycharm介面怎麼設定成中文語言
2022-03-01
PyCharm
ChineseGLUE：為中文NLP模型定製的自然語言理解基準
2019-10-23
模型
大語言模型能用作世界模擬器嗎?
2024-06-16
模型
PAT乙級1004 成績排名 (20分)（C語言版）及解析
2020-10-11
C語言
GPT-3：一個令人失望的語言模型
2020-09-30
GPT模型
Python或將成資料科學家首選語言
2021-09-11
Python資料科學
易觀分析：模擬器使用者規模達1.3億，出海成績優秀
2021-01-21
在本地跑一個大語言模型
2024-04-02
模型
中文分詞研究難點-詞語劃分和語言規範
2019-09-04
中文分詞
基於PyTorch的大語言模型微調指南：Torchtune完整教程與程式碼示例
2024-11-03
PyTorch模型
搭建人工智慧多模態大語言模型的通用方法
2024-12-08
人工智慧模型
大語言模型
2024-08-08
模型
語言大模型
2024-08-07
大模型
低程式碼與大語言模型的探索實踐
2024-02-24
模型
Go語言 | CSP併發模型與Goroutine的基本使用
2020-08-20
Go模型
技術創新研究所宣佈推出全球規模居首的阿拉伯語自然語言處理模型NOOR
2022-04-12
自然語言處理模型

首個千億中文語言模型的使命，不止於規模與刷榜成績

三大技術創新，專攻大模型落地難題

三種企業應用，增強“人”的能力

相關文章