讓預訓練語言模型讀懂數字:超對稱技術釋出 10 億引數 BigBang Transformer [乾元]金融大規模預訓練語言模型

亞馬遜雲開發者發表於2022-07-09

導讀:超對稱技術公司釋出10億引數金融預訓練語言模型BigBang Transformer[乾元]。BBT大模型基於時序-文字跨模態架構,融合訓練文字和時序兩種模態資料,下游任務準確率較T5同級別模型提升近10%,並大幅提高時序預測的R2 score。跨模態架構能讓語言模型識別時序資料的變化並通過人類語言來分析和闡述其發現。BBT模型可用於金融量化投資的因子挖掘,支撐多因子策略,以及廣泛的資料視覺化和物聯網的時序資料分析等。BBT模型的目標是實現具備人類級別分析能力的預訓練大模型,構建可在行業落地的通用人工智慧架構。

通用大模型的缺陷

OpenAI的GPT-3, Google 的LaMDA, PaLM等千億以上引數的語言模型和多模態大模型在寫作、文字生成圖片、對話等任務能接近乃至超越人類的智力水平。但是以上大模型有一些共同的缺陷:

① 大模型以通用的語料和資料進行預訓練,在通用場景上表現良好,但是在專業領域有明顯缺陷。所以GPT-3, 悟道,盤古等模型多用續寫小說,寫作詩歌,或者人機對話來展示大模型的能力。涉及到嚴肅的工作場景,則是隻見打雷不見下雨。至今未見基於大模型在行業上的已經規模化應用的產品,背後的原因尚需進一步挖掘。僅用通用語料,未用行業資料進行預訓練的大模型,其能力邊界在哪裡?如果超對稱團隊證明用行業資料訓練的模型準確度更好,是否說明現有大模型的總體設計需要重新調整,才能獲得大模型在不同行業的通用性?

② Dalle 2 等預訓練多模態模型在文字生成影像的應用取得驚人的效果,但是多模態模型在時序資料,表格文件資料等更實用更復雜的模態上進展不大,而這些模態佔據了實際工作的大量場景。除了可以處理語言、語音、影像這三種常見模態,能讀懂和分析資料也是人類智慧的一種突出能力,而且人類能夠並行處理語言,資料來獲得結論。大模型是否也能實現人類智慧對資料的分析能力,從而有效實現在工業場景的廣泛應用。

超對稱技術公司專注於開發演算法和資料產品為金融、媒體、生產製造等行業提供服務。超對稱公司針對金融投資領域的應用設計和訓練了一個大規模引數預訓練語言模型Big Bang Transformer乾元(BBT),目前釋出了Base 版本2.2億引數和Large 版本 10億引數。同超對稱團隊還針對金融行業的預訓練模型釋出了一套評測資料集BBT-FinCUGE,開源於Github。BBT模型參考T5的Encoder+Decoder結構,以融合處理NLU和NLG的下游任務。超對稱團隊整理了一套金融行業的資料集,建立了一個跨模態聯合訓練文字和時序資料的基於Transformer的架構。

大模型是通往Artificial General Intelligence (AGI) 的一條道路。超對稱公司認為具備資料分析能力是實現AGI的基礎之一。超對稱技術公司聯合復旦大學計算機學院肖仰華知識工場實驗室,浙江大學徐仁軍實驗室,南開大學和北師大人工智慧學院的老師,在基礎理論、架構、演算法實現三方面推動AGI底層演算法的研發,構建AGI在產業應用的底座。該項研究獲得甘肅高臺“東數西算”專案在算力基礎設施上的支援。

以Google 的T5框架為參考基準,BBT模型的實驗驗證了以下幾個結論:

  • 基於領域專業資料集預訓練的大模型,比T5同級別引數模型平均下游任務準確率可以提高接近10%。
  • 不同下游任務的語料資料集比例對下游任務的準確度有影響。
  • 基於下游任務類別提供Source Prompt的提示學習能大幅提高下游任務的準確度。
  • BBT的時序模型進行多元時序預測,比普通的Transformer獲得R2 score的大幅提升。
  • 聯合文字和時序資料資料進行訓練,模型能讀懂數字變化所對應的真實世界。

專注於融合訓練時序-文字跨模態的預訓練模型演算法架構

傳統的時序模型往往僅依賴時序本身的資訊完成各種任務,而忽略了時序資料對外部資訊的依賴。例如某一時刻股價、經濟指標等資料的波動並不完全由這一時刻前的資料決定。語言模型具有強大的表徵文字資訊的能力,將語言模型與時序模型結合,既可以使得世界資訊能夠以文字的形式支撐時序任務的完成,又可以通過時序資料中包含的資訊強化語言模型對資訊的理解能力。

為此超對稱團隊設計了基Transformer的時序-文字跨模態預訓練模型,這是業內最早的專注於聯合訓練時序-文字二模態的預訓練演算法架構之一。預訓練方式為通過T時刻前的文字資訊和時序資訊對T時刻的時序資料進行預測。時序資料和文字影像資料同時作為Embedding層輸入Encoder一個雙向的Transformer,輸出向量進入的Decoder有NLU,NLG,Time Series三類。

image.png

BBT模型設計了一個通用的將時間向量化輸入Embedding層的模組。多元時間序列受到空間維度與時間維度兩方面訊號脈衝的影響,其被啟用的時間、空間範圍是一個連續的頻譜,可大致分為低頻區域性脈衝、低頻全域性脈衝、高頻區域性脈衝和高頻全域性脈衝四方面分析這種影響。其中,“低頻”/“高頻”是指從時間檢視描述了影響的啟用範圍,而“全域性”/“區域性”從空間檢視描述了啟用範圍。

  • “低頻”即脈衝變化平穩,傾向於在較長時間內保持穩定;
  • “高頻”即脈衝變化劇烈;
  • “全域性”是指這種脈衝對所有時間序列產生類似的影響;
  • “區域性”是指脈衝隻影響單個的時間序列,或對不同的時間序列施加不同的影響。

基於此,超對稱提出一種通用的、模型無關的、可學習的向量時間表示元件DWT-ST2Vec,可適用於多種模型結構與下游任務。該元件可從時空兩個維度對序列的高頻、低頻分量進行分解,從而更加充分學習序列資訊。

image.png

學術和工業界覆蓋最完整、規模最大的金融投資類資料集

語料庫的質量、數量和多樣性直接影響語言模型預訓練的效果,現有的中文金融預訓練語言模型,例如FinBERT與英偉達釋出的FinMegatron,其預訓練語料在數量和多樣性上十分有限。

為了更好地推進中文金融自然語言處理(NLP)的發展,超對稱蒐集和爬取了幾乎所有公開的和其他手段可以獲得的中文金融語料資料,包括過去20年所有主流媒體平臺釋出的財經政治經濟新聞,所有上市公司公告和財報,上千萬份研究院和諮詢機構歷史上釋出的所有研究報告,百萬本金融經濟政治等社會科學類書籍,40多個政府部位網站和地方政府網站的公告和文件,社交媒體平臺使用者發帖,從中清洗和整理了大規模中文金融語料庫BBTCorpus,涵蓋五大類別共300多GB,800億Token的高質量多樣化語料資料,是目前市面上覆蓋最完整,規模最大的金融投資類資料集,具體的規模分佈如表1所示。

image.png
表1:BBTCorpus語料大小分佈,其中上市公司公告與研究報告的原始檔案為PDF格式。

創新的預訓練方法可大幅提高語言模型準確度:Similarity Sampling 和 Source Prompt

為了驗證領域語料預訓練的有效性,超對稱團隊使用在通用語料庫CLUECorpus-samll上進行預訓練的模型t5-v1_1-base-chinese-cluecorpussmall與超對稱團隊的模型進行對比,實驗結果如表2所示。

超對稱團隊針對具體問題對T5的預訓練方式做出了創新性的改進。

首先是針對預訓練語料取樣問題提出的語料來源相似度加權取樣演算法。由於超對稱團隊的語料庫十分龐大,以至於在模型預訓練的全過程中也只能取樣約百分之十的文字進行訓練,因此模型勢必要對不同來源的語料進行隨機取樣。如果對所有語料進行簡單隨機取樣,則事實上是對不同來源的語料按大小規模進行混合,即在模型進行預訓練的語料子集中,公告:研報:新聞:股吧:雪球的比例約為105:11:30:74:44。超對稱團隊提出,相對於單純的簡單隨機取樣,按照評測基準中的文字與不同來源的語料的相似度進行加權取樣是更加合理的選擇。經過加權平均取樣的語料庫子集訓練出的模型在評測基準上平均能取得0.7%的提升,實驗結果如表2所示。

這一創新點不僅適用於金融領域語言模型的預訓練工作,它的思想同樣可以推廣到其他具備多種異質語料來源的領域,例如生物醫藥、法律等領域。之後,在此基礎上,超對稱團隊進一步把模型規模擴充到十億引數的Large級別,實驗結果如表2所示。

image.png
表2:成績為模型在評測基準上的平均成績。T5-base代表t5-v1_1-base-chinese-cluecorpussmall。ss代表超對稱團隊的首個創新點語料來源相似度加權取樣演算法(Similarity weighted Sampling of corpus source)。base模型的引數量均為2.2億,large模型的引數量為10億。

超對稱團隊又針對異質語料混合的問題開創性的提出了來源提示方法(Source Prompt, SP),即在預訓練時,語料前放置一個代表其來源的提示。

對於語料:“據國家統計局訊息,2022年5月份,全國居民消費價格同比上漲2.1%。” 預訓練時在其前部放置來源提示:【新聞】 變為:“【新聞】據國家統計局訊息,2022年5月份,全國居民消費價格同比上漲2.1%。”, 之後正常進行MLM預訓練 。Source Prompt在Base 模型中在Similarity Sampling模型的基礎上提高3.21%。

image.png
表3:T5-base 和BBT不同模型在8個下游任務的表現。

通用的時間向量表示元件DWT-ST2Vec可以連線不同模型

BBT模型對時序資料進行處理的基本能力包括 :

  • 提供了一種通用的、與模型無關的、可學習的向量時間表示元件DWT-ST2Vec,能夠將時間作為Embedding輸入Encoder,與文字聯合學習。
  • 可以實現準確度更高的多元時間序列預測。
  • 可將時序資料按照“全域性-區域性”、“週期-趨勢” “低頻-高頻”進行分解。
  • 通過與文字的融合學習,大模型可以針對時序資料變化生成文字。

隨機選取40家國內上市公司,以開盤股價的時間序列為主要評測物件,以股票開盤以來長度為4000的序列資料為訓練集,以4000-4200的序列資料為測試集進行訓練,以測試集的MSE, RMSE, MAE, MAPE指標加總為評測指標。以Transformer為基線,訓練出的模型在評測基準上,在MSE, RMSE, MAE, MAPE上有平均0.5%-2%的提升。

image.png

image.png

BBT的時序-文字的跨模態架構能夠通過辨識股價變化,觸發NLU的能力,生成類似分析師和散戶投資者的評論。

輸入股價:

image.png

模型能基於所學習的海量新聞,寫出類似專業新聞記者一樣的評論,如:

image.png

image.png

也能像散戶投資者一樣談論市場趨勢:

image.png

image.png

BBT時序-文字跨模態架構,能實現讓模型來閱讀公司的財報和新聞來寫出一篇公司發展趨勢分析報告,也能讓模型學習品牌在電商平臺的多年銷售資料和產品特性,來預測產品未來銷售量進而寫出針對性市場營銷報告,或者讓模型學習製造業生產機器的監控資料,寫出非專業人員也能懂的運維故障報告。

BBT-KG:動態追因的事理圖譜

超對稱團隊構建了中國20萬一級市場公司和4500家A股上市公司的知識圖譜,用於知識增強的語言模型學習。BBT-KG與市面上的金融知識圖譜不同在於,超對稱團隊通過語言模型的能力,構建了動態的新聞事件和企業之間的關聯關係和事件之間的因果關係,從而讓模型具備能力判斷新發生的事件對公司和市場的影響,並對市場波動追因溯源。

image.png

image.png

應用BBT大模型構建量化投資新因子BBT模型助力多因子策略開發

超對稱團隊應用BBT模型計算個股的情緒指數,再監測相鄰時段的情緒變化,選取突出變化作為多空因子構建量化因子策略,最終收益遠超市場。超對稱團隊回溯情緒指數傑出的選股能力,發現模型能有效地學習金融財經類文字,並量化地反應市場的資訊,創造性地提供另類因子。除了計算市場情緒,BBT模型擁有的多維度能力也同樣可以運用在財經金融領域。

例如利用BBT的事件抽取能力,可以抽取出同類事件或新聞與量價資料做對照,以研究不同事件傳導到市場速度的快慢;BBT還可以通過超對稱團隊獨有的金融知識圖譜學習供應鏈中經濟個體間的相互關係,以機器學習的方法來消除因子間的共線性,為傳統線性迴歸多因子模型為傳統線性迴歸多因子模型帶來顛覆性創新。

除此之外,BBT的負面訊息識別能力還可以為信用風險評估體系增加實時輿情監控,新聞分類能力更是能幫助財務分析師和金融分析師快速處理大量資訊,以獲得更全面客觀的結論。

image.png

Benchmark 評測資料集:首箇中文金融NLP評測資料集

評測基準對自然語言處理(NLP)的發展起著重要的指導作用,而在中文金融NLP的研究與應用蓬勃發展的同時,業界缺少一個權威的評測基準。為了解決這個問題,超對稱團隊提出了BBT-FinCUGE,開源地址:

GitHub.com/ssymmetry/BBT-FinCUGE-Application

這是一箇中文金融自然語言理解和生成評測基準,具有以下特點:

① 專業性:所有資料集的篩選和標記工作都有金融專家的參與。
② 實用性:所有任務均由金融專家進行實用性評分,作為任務選擇和最終評分的依據。評測基準共包含以下八個資料集:

  • 論壇情緒分析FinFE

在股吧和雪球等股民論壇中,股民們每天會產出海量的評論文字,其中包含有感性的情感輸出和理性的漲跌預測等內容。針對這些文字,該資料集要求模型學習並預測文字的情緒指數(0、1、2,分別代表消極、中性和積極)。

  • 事件抽取FinQA

事件抽取是指自動從文字中識別事件的發生,抽取事件引數並整理成結構化資料的演算法,包括企業投融資、上市、收購等事件的檢測和引數抽取。(為了更好的橫向對比不同的模型,超對稱團隊將該資料集整理為閱讀理解問答QA的形式)。

  • 因果事件抽取FinCQA

與常規事件抽取不同,因果事件抽取專注於在文字中識別出具有因果關係的兩個事件及其事件引數,並將其整理為機構化資料。超對稱團隊的因果事件資料集包含對大宗商品領域的因果事件識別,識別的事件型別包括颱風/地震,供給增加/減少,需求增加/減少,價格上升/下降等可能為原因和結果事件及其對應關係和對應的產品、地區等引數(為了更好地橫向對比不同的模型,超對稱團隊將該資料集整理為閱讀理解問答QA的形式)。

  • 新聞文字摘要FinNA

中文金融新聞摘要生成任務。該資料集取自於新浪財經的大規模中文短新聞,包含了20000條真實的中文短文字資料和對應的摘要。

  • 關係抽取FinRE

一個人工精標註的財經金融領域的資料集。給定句子和其中的頭尾實體,要求模型預測頭尾實體之間的關係。該資料集由新浪財經新聞語料標註得到,其中命名實體為商業公司,在關係上設計了44個金融領域的關係類別(雙向),包含擁有、持股、競爭、收購、交易、合作、減持等財經金融領域的特有關係類別。

  • 負面訊息識別及主體判定FinNSP

本資料集包含兩個任務:

負面資訊判定:判定該文字是否包含金融實體的負面資訊。如果該文字不包含負面資訊,或者包含負面資訊但負面資訊未涉及到金融實體,則負面資訊判定結果為0。

負面主體判定:如果任務1中包含金融實體的負面資訊,繼續判斷負面資訊的主體物件是實體列表中的哪些實體。

  • 新聞分類FinNL

把金融新聞分類為一個或多個與其描述內容相關的類別。新聞取樣於新浪財經,目前共有公司(個股)、行業(板塊)、大盤、中國、國際、經濟、政策、期貨、債券、房地產、外匯、虛擬貨幣、新冠、能源等14個類別。

  • 事件主體抽取

本評測任務的主要目標是從真實的新聞語料中,抽取特定事件型別的主體。即給定一段文字T,和文字所屬的事件型別S,從文字T中抽取指定事件型別S的事件主體。即輸入:一段文字,事件型別S;輸出:事件主體。

開發者服務:向金融和非金融行業開發者開放API構建BBT大模型開發者生態

超對稱團隊面向金融和非金融行業的開發者開放11項API能力,建設BBT大模型開發者生態。第一批開放的API能力包括:知識圖譜、文章摘要、社交媒體情緒識別、新聞情緒識別、新聞分類標籤、命名實體識別、關係抽取、事件抽取、事件因果抽取、公告抽取、負面訊息和主體識別。

API文件:

https://www.ssymmetry.com/new...

金融和經濟領域的基石模型

BBT 1.0版本模型的目標是為金融投資建立統一的人工智慧演算法框架,基於transformer構建能融合訓練金融投資涉及的不同模態資料的架構。在統一架構的基礎上訓練大規模引數預訓練模型,隨著模型引數和訓練資料集繼續增大,超對稱團隊有希望開發出在金融領域接近人類智慧水平的模型。

作為金融領域的基石模型,BBT模型為所有金融投資、經濟分析、商業諮詢等場景的深度學習下游任務提供微調服務。金融投資領域有大量從業機構和人員,大廠有財力僱傭演算法工程師,小團隊卻用不起基本的文字抽取演算法。BBT模型作為金融領域的演算法基礎設施,讓所有從業者配備同級別的武器,讓全行業站在同一起跑線去競爭更優的投資策略,從而推動金融和經濟市場更高效的資訊和要素流動。

讓模型讀懂數字,是BBT模型專注開發的一種時序-文字跨模態架構的能力,這是人類追求的通用人工智慧的最核心能力之一。模型能在海量時序資料中識別出變化的模式和規律,並通過預訓練語言大模型將其與現實世界準確對應,從而在資料世界和人類語言世界建立起橋樑,將會給更廣泛的數字化技術帶來革命,包括商業資料分析、資料視覺化、資料庫技術等。BBT模型不僅可以應用於金融,在時序資料處理需求為主的生產製造、物聯網、智慧城市、網際網路大資料分析都有應用的潛力。

今天的分享就到這裡,謝謝大家。

相關文章