微信推出自研NLP大規模語言模型WeLM,現已開放API推動應用落地

Editor發表於2022-10-13

大規模語言模型領域迎來新“選手”。近日,微信AI推出自研NLP大規模語言模型WeLM ,該模型是一個尺寸合理的中文模型,能夠在零樣本以及少樣本的情境下完成包多語言任務在內的多種NLP任務。

同時,微信AI團隊也提供了WeLM的體驗網頁和API介面,感興趣的使用者可前往https://welm.weixin.qq.com/docs/體驗和申請API介面,相關技術論文《WeLM: A Well-Read Pre-trained Language Model for Chinese》也已經釋出於論文預印本網站arXiv。

 

NLP大模型迎新選手,WeLM提供互動式網頁PlayGround和API介面


在近幾年自然語言處理(NLP)領域的發展浪潮中,OpenAI開發的自然語言處理模型GPT-3無疑風頭無兩,釋出之初便以1750億引數規模的預訓練模型所表現出來的零樣本與小樣本學習能力重新整理了人們的認知,也引爆了AI大模型研究的熱潮。

對業界來說,預訓練大模型降低了AI應用的門檻,距離“AI把人類從重複性勞動中解放出來”的宏偉目標越來越近,目前,基於GPT-3,全球開發者已經探索出包括程式設計、回覆郵件、UI設計、回答數學問題、法律語言轉化、總結中心思想、推理、文字處理等廣泛應用場景,並且,各國研究者在多語言/多工等角度的探索也正在譜寫大模型百家爭鳴的新篇章。

而在國內以中文為核心的大規模語言模型領域,微信AI推出的百億級別大規模語言模型WeLM,便是大模型百家爭鳴中的新選手。

據介紹,WeLM是一個百億級別的中文模型,能夠在零樣本以及少樣本的情境下完成包括對話-採訪、閱讀理解、翻譯、改寫、續寫、多語言閱讀理解在內的多種NLP任務,並具備記憶能力、自我糾正和檢查能力。並且,WeLM具有尺寸合理的優勢,在14項中文NLP任務上,WeLM的整體表現超出了所有同大小的模型,甚至能夠匹配比它大25倍的模型。

以被普遍認為是更困難的NLP任務的文字風格轉換(改寫)為例,儘管使用者給出的5個例子和最後需要生成的例子並沒有重合的風格轉換型別,但WeLM擁有出色的舉一反三能力,透過學習少量的文字轉換例子即可達到對任意型別的文字轉換。並且,WeLM在對話-採訪、閱讀理解、翻譯、續寫等多箇中文文字生成任務中有著同樣優異的表現。


微信推出自研NLP大規模語言模型WeLM,現已開放API推動應用落地

 

除了具備強大的中文理解和生成能力,WeLM還擁有處理跨多語言(中英日)任務的能力。以“微信 AI 推出の WeLM 是一個 language model that いろいろなtaskをperformができる”這句混合中日英三國語言的文字為例,WeLM的翻譯相較Google翻譯更為精準。


微信推出自研NLP大規模語言模型WeLM,現已開放API推動應用落地

 

而且,在進一步微調後,WeLM可以擁有更好的零樣本學習能力,可以根據場景擁有更好的表現。目前,WeLM已經部署應用於微信影片號的部分場景中,未來在進一步最佳化後還將應用於更多微信應用場景。

同時,為進一步推動WeLM成為真正能落地且實用的工具,微信AI團隊還發布了一個供使用者體驗的互動式網頁PlayGround,並開放了用於訪問WeLM的API介面。

 

微信推出自研NLP大規模語言模型WeLM,現已開放API推動應用落地

 

目前,使用者可透過https://welm.weixin.qq.com/docs/體驗WeLM的相關能力,並透過調整配置以實現更貼近的文字生成效果。對於想接入WeLM的開發者,也可透過https://welm.weixin.qq.com/docs/api/填寫問卷後獲得WeLM的API Token並呼叫相應介面,將WeLM部署在自己的應用上。

 

具有極強知識儲備,WeLM在14項中文NLP任務中表現亮眼


據介紹,在純Encoder(Bert)、純Decoder(GPT) 以及Encoder-Decode(T5) 結構等主流NLP模型路徑的選擇上,WeLM和GPT3、Google PaLM一樣,選擇了自迴歸模型的路線。同時,考慮到不同的使用者對於模型效果和推理延遲會有考量或者取捨(trade-off),微信AI的WeLM訓練了1.3B、2.7B以及10B三個版本的模型,滿足不同使用者的呼叫需求。

同時,在訓練資料上,微信AI團隊希望構建一個足夠豐富、足夠乾淨、足夠公平的資料集,為此研究團隊從Common Crawl下載了近兩年的中文網頁資料,和大量的書籍、新聞。為了增強專業能力,微信AI團隊還在資料集補充了知識密集的論壇資料和一些學術論文,蒐集完成後的全量資料10TB,其中包含了750G的英文資料,並保留了部分日韓文。

隨後,透過規則過濾和額外訓練的二分類fasttext模型,以及對測評相關資料的去除,資料集最終處理完的資料量為262B tokens。為了更好的平衡各個資料來源的比重,微信AI團隊也對資料進行不同比重的取樣,最終,整體資料集的Topic分佈相比 Common Crawl更加平滑。


微信推出自研NLP大規模語言模型WeLM,現已開放API推動應用落地


在與業界同級別的CPM、華為Pangu和百度Ernie3.0的對比測試中,WeLM表現出極強的知識儲備,在14項中文NLP任務上,WeLM 的整體表現超出了所有同大小的模型,甚至能夠匹配比它大25倍的模型。同時,在強大的中文理解和生成能力外,WeLM還有出色的多語言理解能力,使用者的輸入可以在中日英上絲滑切換。


微信推出自研NLP大規模語言模型WeLM,現已開放API推動應用落地

 

目前,WeLM的相關技術論文《WeLM: A Well-Read Pre-trained Language Model for Chinese》已經釋出於論文預印本網站arXiv,感興趣的使用者可前往https://arxiv.org/abs/2209.10372檢視更多技術細節。

 

在NLP領域,讓大模型成為真正能落地且實用的工具,是每一位NLP領域的研究者矢志不渝的方向。未來,微信AI也將針對WeLM進行進一步的微調最佳化,進一步提升其在新任務上的泛化效果,也歡迎更多開發者、使用者前來體驗WeLM並提出寶貴意見和建議,幫助該模型早日成為真正能落地且實用的工具,共同探索人工智慧的發展之路。

相關文章