谷歌130億引數多語言模型mT5來襲,101種語言輕鬆遷移
Facebook剛剛開源多語種機器翻譯模型「M2M-100」,這邊谷歌也來了。谷歌宣佈,基於T5的mT5多語言模型正式開源,最大模型130億引數,與Facebook的M2M相比,引數少了,而且支援更多語種。
前幾天,Facebook發了一個百種語言互譯的模型M2M-100,這邊谷歌著急了,翻譯可是我的老本行啊。
剛剛,谷歌也放出了一個名為 mT5的模型,在一系列英語自然處理任務上制服了各種SOTA。
你發,我也發,你支援100種,我支援101種!(雖然多這一種沒有多大意義,但氣勢上不能輸)
mT5是谷歌 T5模型的多語種變體,訓練的資料集涵蓋了101種語言,包含3億至130億個引數,從引數量來看,的確是一個超大模型。
多語言模型是AI的橋樑,但難以避免「有毒」輸出世界上成體系的語言現在大概有7000種,縱然人工智慧在計算機視覺、語音識別等領域已經超越了人類,但只侷限在少數幾種語言。
想把通用的AI能力,遷移到一個小語種上,幾乎相當於從頭再來,有點得不償失。
所以 跨語種成為了AI能力遷移的重要橋樑。
多語言人工智慧模型設計的目標就是建立一個能夠理解世界上大部分語言的模型。
多語言人工智慧模型可以在相似的語言之間共享資訊,降低對資料和資源的依賴,並且允許少樣本或零樣本學習。隨著模型規模的擴大,往往需要更大的資料集。
C4是從公共網站獲得的大約750gb 的英文文字的集合,mC4是 C4的一個變體,C4資料集主要為英語任務設計,mC4蒐集了過去71個月的網頁資料,涵蓋了107種語言,這比 C4使用的源資料要多得多。
mC4中各種語言的網頁數量
有證據表明, 語言模型會放大資料集中存在的偏差。
雖然一些研究人員聲稱,目前的機器學習技術難以避免「有毒」的輸出,但是谷歌的研究人員一直在試圖減輕 mT5的偏見,比如過濾資料中含有偏激語言的頁面,使用 cld3檢測頁面的語言,將置信度低於70% 的頁面直接刪除。
mT5:使用250000詞彙,多語言資料取樣策略是關鍵
mT5的模型架構和訓練過程與T5十分相似,mT5基於T5中的一些技巧,比如使用GeGLU的非線性(Shazeer,2020年),在較大模型中縮放dmodel而不是dff來對T5進行改進,並且僅對未標記的資料進行預訓練而不會出現資訊丟失。
訓練多語言模型的最重要的一點是 如何從每種語言中取樣資料。
但是,這種選擇是零和博弈: 如果對低資源語言的取樣過於頻繁,則該模型可能會過擬合;如果對高資源語言的訓練不夠充分,則模型的通用性會受限。
因此,研究團隊採用Devlin和Arivazhagan等人使用的方法,並 根據機率p(L)∝ | L |^α,對資源較少的語言進行取樣。其中p(L)是在預訓練期間從給定語言中取樣的機率,| L |是該語言中樣本的數量,α是個超引數,谷歌經過實驗發現α取0.3的效果最好。
為了適應更多的語言,mT5將詞彙量增加到250,000個單詞。與T5一樣,使用SentencePiece和wordPiece來訓練模型。
那取樣之後有的字元沒覆蓋到怎麼辦?
研究團隊為了適應具有大字符集的語言(比如中文), 使用了0.99999的字元覆蓋率,但還啟用了SentencePiece的「位元組後退」功能,以確保可以唯一編碼任何字串。
為了讓結果更直觀,研究人員與現有的大規模多語言預訓練語言模型進行了簡要比較,主要是支援數十種語言的模型。
mT5專治各種SOTA,但基準測試未必能代表實力
截至2020年10月,實驗中最大 mT5模型擁有130億個引數,超過了所有測試基準,包括來自 XTREME 多語言基準測試的5個任務,涵蓋14種語言的 XNLI 衍生任務,分別有10種、7種和11種語言的 XQuAD、 MLQA 和 TyDi QA/閱讀理解基準測試,以及有7種語言的 PAWS-X 釋義識別。
實驗結果可以看到,在閱讀理解、機器問答等各項基準測試中mT5模型都優於之前的預訓練語言模型。
至於 基準測試能否充分反映模型在生產環境中的表現,就另當別論了。
對預訓練語言模型最直白的測試方法就是開放域問答,看訓練後的模型能否回答沒見過的新問題,目前來看,即使強如GPT-3,也經常答非所問。
但是谷歌的研究人員斷言,mT5是向功能強大的模型邁出的一步,而這些模型不需要複雜的建模技術。
總的來說,mT5展示出了跨語言表徵學習中的重要性,並表明了透過過濾、並行資料或其他一些調優技巧,實現跨語言能力遷移是可行的。
這個源自T5的模型,完全適用於多語言環境。
參考連結:
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2731096/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 輕鬆開發多語言程式 (轉)
- 利用大型語言模型輕鬆打造浪漫時刻模型
- Go語言輕鬆進階Go
- 在 Google Cloud 上輕鬆部署開放大語言模型GoCloud模型
- 視覺語言模型的高效遷移學習視覺模型遷移學習
- 覆蓋40種語言:谷歌釋出多語言、多工NLP新基準XTREME谷歌REM
- 500億引數,支援103種語言:谷歌推出「全球文字翻譯」模型谷歌模型
- 谷歌、OpenAI學者談AI:語言模型正在努力「攻克」數學谷歌OpenAI模型
- Facebook新研究:一個編碼器hold住93種語言!跨語言遷移無需修改
- java語言屬於哪種語言Java
- 線上語言編輯器(js,css,html等多種語言支援)JSCSSHTML
- 語言大模型大模型
- 大語言模型模型
- 集眾之長,一種包含多種語言模型的混合框架模型框架
- 谷歌釋出含 7 種語言的全新資料集:有效提升 BERT 等多語言模型任務精度高達 3 倍!谷歌模型
- 統一建模語言UML輕鬆入門之用例
- 國產系統級程式語言與編譯器,輕鬆與 C 語言進行互動編譯
- nlp中的傳統語言模型與神經語言模型模型
- 多種語言後端流行的框架後端框架
- 如何學會600多種程式語言
- 如何學會 600 多種程式語言
- 多語言ASR?沒有什麼聽不懂,15種語言我全都要
- 程式語言的變遷
- N元語言模型模型
- srilm建立語言模型模型
- 小語言模型指南模型
- 接下來該學哪種程式語言
- 輕鬆玩轉51微控制器C語言pdfC語言
- 自然語言處理中的遷移學習(下)自然語言處理遷移學習
- 自然語言處理中的遷移學習(上)自然語言處理遷移學習
- C語言:一種高效、易學的程式語言C語言
- Qt 多語言支援QT
- ModStart多語言支援
- 8 語言模型簡介模型
- 微調大語言模型模型
- 13 種程式語言名稱的來歷
- 輕量級標記語言
- 預訓練語言模型:還能走多遠?模型