谷歌BERT遭遇對手，微軟UniLM AI突破大量文字處理瓶頸

AIBigbull2050發表於2019-10-19

原文網址 : http://blog.itpub.net/69946223/viewspace-2660647/

導語：它已經掌握了28996個詞彙，但它還要學習更多。

智東西10月17日訊息，去年10月谷歌釋出的BERT模型已經在閱讀理解測試中全面超越人類，今天微軟的UniLM模型將這一領域的研究推向了新的高度。

據外媒報導，微軟近日推出的UniLM AI訓練模型通過改變傳統AI系統學習方式，成功實現單向預測，突破了自然語言處理中大量文字修改的瓶頸。

一、改變雙向預測方式

語言模型預訓練（Language model pretraining）是一種機器語言處理技術，它通過依據文字預測詞彙的方式，教會機器學習系統（machine learning systems）如何把文字情景化地表述出來。它代表了自然語言處理（natural language processing）領域的最新突破。

目前，像谷歌的BERT模型，是雙向預測，也就是根據左右兩側的詞彙來預測，因此不適合大量文字的處理。

▲谷歌BERT模型

為此，微軟科學家們研究出了UniLM（UNIfied pre-trained Language Model）這種新模型。該模型可以完成單向、序列到序列（sequence-to-sequence）和雙向預測任務，並且可以針對自然語言的理解和生成進行微調（fine-tuned）。

微軟表示它在各類常見的基礎測試中都要優於BERT，並且在自然語言處理的一些測試專案中取得了該領域的最新突破。

二、“變形金剛”的威力

▲UniLM模型概覽

UniLM模型是一個多層網路，其核心是由Transformer AI模型組成的，這些模型針對大量文字進行了共同的預訓練，並針對語言建模進行了優化。

跟其他AI系統學習預測方式不同的是，Transformer AI將每個輸出元素都連線到每個輸入元素。它們之間的權重是可以動態調整的。

微軟研究人員認為，經過預訓練的UniLM與BERT類似，可以進行微調以適應各種下游任務。但是與BERT不同，UniLM可以通過一種特殊方式（using different self-attention masks），彙總不同型別語言模型的上下文。

此外，Transformer網路可以共享從歷史訓練中學到的資料，不僅使學習到的文字表示更加通用，也降低了對單一任務的處理難度。

三、學海無涯

微軟研究人表示，UniLM通過學習英語維基百科（English Wikipedia）和開源BookCorpus的文章後，已經擁有高達28996的詞彙量。並且在預培訓後，UniLM的跨語言任務表現也非常好。

團隊人員表示，UniLM未來發展的空間還很大，例如在“網路規模（web-scale）”的文字語料庫上訓練較大的模型來突破當前方法的侷限性。

他們還希望讓UniLM在跨語言任務中取得更大突破。

結語：自然語言處理領域的重大突破

自然語言處理，是人工智慧界、電腦科學和語言學界所共同關注的重要問題，它對於實現人機間的資訊交流起著重要作用。

谷歌BERT和微軟的UniLM是這一領域的開拓者，後者通過單向預測突破了大量文字處理的難題，進而提升了此類AI在實際應用中的價值。

此次谷歌霸主地位被動搖，也勢必將在該領域引發更加精彩的AI大戰。

原文來源：Venturebeat

https://www.toutiao.com/i6748689606276809223/

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/69946223/viewspace-2660647/，如需轉載，請註明出處，否則將追究法律責任。

如何突破前端瓶頸？？？
2024-05-24
前端
AI系統有助突破醫藥研發瓶頸
2018-12-10
AI
Android高階開發突破瓶頸
2020-12-27
Android
開發技術瓶頸期，如何突破
2018-07-21
快時尚品牌遭遇瓶頸，如何自救是關鍵
2021-12-07
處理高併發 IO瓶頸解決紅包程式
2019-02-16
漫談前端效能突破 React 應用瓶頸
2018-08-14
前端React
GISer如何突破二次開發瓶頸
2021-12-07
前端如何快速進階，突破技術瓶頸？
2021-09-09
前端
突破效能瓶頸，實現流程自動化
2022-08-29
小家電發展遭遇瓶頸未來仍大有可為
2018-03-20
天天工作擰螺絲，怎麼突破瓶頸？
2020-04-04
如何突破技術發展瓶頸、成功轉型？
2018-04-12
軟體測試：瓶頸分析方法
2019-08-26
個推前端微服務化：突破傳統SPA瓶頸
2018-12-12
前端微服務
熱氛圍與冷應用之間瓶頸與突破
2020-11-17
突破發展瓶頸期，企業上管理系統軟體的必要性！
2020-06-24
突破資料瓶頸！交大研發電腦智慧體，讓 AI 替你熬夜做 PPT
2024-12-24
智慧體AI
FSNotes for mac文字處理軟體
2020-11-18
Mac
FSNotes for mac 文字處理軟體
2021-08-26
Mac
自動化遇到瓶頸，不知如何應對
2025-02-05
車聯網進入快車道，如何突破發展瓶頸？
2023-01-16
前端瓶頸如何打破？？？
2018-04-27
前端
遊戲出海指南：使用者收益拆分助力突破變現瓶頸
2019-10-16
遊戲
杉巖資料物件儲存替換IBM FileNet，突破效能瓶頸
2019-12-20
物件IBM
給弱人工智慧裝上“大腦”，應用瓶頸能否突破？
2019-06-27
人工智慧
伺服器IO瓶頸對MySQL效能的影響
2021-09-09
伺服器MySql
阿里安全摘下AI視覺“奧斯卡”雙料冠軍突破行為檢測技術瓶頸
2020-07-23
阿里AI視覺
軟體測試學習資源—瓶頸分析方法
2019-08-16
人到中年了的瓶頸
2018-04-14
做Java開發，遇到瓶頸是保持現狀還是尋求突破？
2018-11-02
Java
給中級程式設計師突破瓶頸的幾個建議，收藏~
2018-11-19
程式設計師
LikeLib與5G協作突破物聯網的發展瓶頸
2019-04-02
實力螃蟹橫著走：瑞昱SSD主控突破DRAM快取瓶頸
2019-06-22
快取
實錄丨戴瓊海：深度學習遭遇瓶頸，全腦觀測啟發下一代AI演算法
2020-09-18
深度學習AI演算法
在被線上大量日誌輸出導致效能瓶頸，執行緒Block的坑
2024-06-03
執行緒BloC
打破儲存效能瓶頸，杉巖資料為AI提速增效
2021-11-04
AI
nginx反向代理負載均衡帶你突破單臺伺服器的瓶頸
2020-10-29
Nginx負載伺服器

谷歌BERT遭遇對手，微軟UniLM AI突破大量文字處理瓶頸

相關文章