谷歌BERT遭遇對手,微軟UniLM AI突破大量文字處理瓶頸
導語:它已經掌握了28996個詞彙,但它還要學習更多。
智東西10月17日訊息,去年10月谷歌釋出的BERT模型已經在閱讀理解測試中全面超越人類,今天微軟的UniLM模型將這一領域的研究推向了新的高度。
據外媒報導,微軟近日推出的UniLM AI訓練模型透過改變傳統AI系統學習方式,成功實現單向預測,突破了自然語言處理中大量文字修改的瓶頸。
一、改變雙向預測方式
語言模型預訓練(Language model pretraining)是一種機器語言處理技術,它透過依據文字預測詞彙的方式,教會機器學習系統(machine learning systems)如何把文字情景化地表述出來。它代表了自然語言處理(natural language processing)領域的最新突破。
目前,像谷歌的BERT模型,是雙向預測,也就是根據左右兩側的詞彙來預測,因此不適合大量文字的處理。
▲谷歌BERT模型
為此,微軟科學家們研究出了UniLM(UNIfied pre-trained Language Model)這種新模型。該模型可以完成單向、序列到序列(sequence-to-sequence)和雙向預測任務,並且可以針對自然語言的理解和生成進行微調(fine-tuned)。
微軟表示它在各類常見的基礎測試中都要優於BERT,並且在自然語言處理的一些測試專案中取得了該領域的最新突破。
二、“變形金剛”的威力
▲UniLM模型概覽
UniLM模型是一個多層網路,其核心是由Transformer AI模型組成的,這些模型針對大量文字進行了共同的預訓練,並針對語言建模進行了最佳化。
跟其他AI系統學習預測方式不同的是,Transformer AI將每個輸出元素都連線到每個輸入元素。它們之間的權重是可以動態調整的。
微軟研究人員認為,經過預訓練的UniLM與BERT類似,可以進行微調以適應各種下游任務。但是與BERT不同,UniLM可以透過一種特殊方式(using different self-attention masks),彙總不同型別語言模型的上下文。
此外,Transformer網路可以共享從歷史訓練中學到的資料,不僅使學習到的文字表示更加通用,也降低了對單一任務的處理難度。
三、學海無涯
微軟研究人表示,UniLM透過學習英語維基百科(English Wikipedia)和開源BookCorpus的文章後,已經擁有高達28996的詞彙量。並且在預培訓後,UniLM的跨語言任務表現也非常好。
團隊人員表示,UniLM未來發展的空間還很大,例如在“網路規模(web-scale)”的文字語料庫上訓練較大的模型來突破當前方法的侷限性。
他們還希望讓UniLM在跨語言任務中取得更大突破。
結語:自然語言處理領域的重大突破
自然語言處理,是人工智慧界、電腦科學和語言學界所共同關注的重要問題,它對於實現人機間的資訊交流起著重要作用。
谷歌BERT和微軟的UniLM是這一領域的開拓者,後者透過單向預測突破了大量文字處理的難題,進而提升了此類AI在實際應用中的價值。
此次谷歌霸主地位被動搖,也勢必將在該領域引發更加精彩的AI大戰。
原文來源:Venturebeat
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2660647/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 如何突破前端瓶頸???前端
- AI系統有助突破醫藥研發瓶頸AI
- 智慧城市資金瓶頸亟待突破
- 開發技術瓶頸期,如何突破
- Android高階開發突破瓶頸Android
- 處理高併發 IO瓶頸解決紅包程式
- 前端如何快速進階,突破技術瓶頸?前端
- 漫談前端效能 突破 React 應用瓶頸前端React
- 突破效能瓶頸,實現流程自動化
- GISer如何突破二次開發瓶頸
- PHP程式設計師突破成長瓶頸PHP程式設計師
- 大量邏輯讀的瓶頸分析和優化優化
- 天天工作擰螺絲,怎麼突破瓶頸?
- 如何突破技術發展瓶頸、成功轉型?
- Hadoop遭遇瓶頸的七大危險訊號Hadoop
- 當網站的發展遭遇瓶頸該怎麼辦?網站
- 戳穿泡沫:對「資訊瓶頸」理論的批判性分析
- 個推前端微服務化:突破傳統SPA瓶頸前端微服務
- 熱氛圍與冷應用之間瓶頸與突破
- 資料庫效能監控瓶頸理論資料庫
- 遊戲出海指南:使用者收益拆分助力突破變現瓶頸遊戲
- 車聯網進入快車道,如何突破發展瓶頸?
- 阿里安全摘下AI視覺“奧斯卡”雙料冠軍 突破行為檢測技術瓶頸阿里AI視覺
- 給弱人工智慧裝上“大腦”,應用瓶頸能否突破?人工智慧
- 實力螃蟹橫著走:瑞昱SSD主控突破DRAM快取瓶頸快取
- PHP程式設計師突破成長瓶頸 - 附學習建議PHP程式設計師
- 前端瓶頸如何打破???前端
- 給中級程式設計師突破瓶頸的幾個建議,收藏~程式設計師
- 做Java開發,遇到瓶頸是保持現狀還是尋求突破?Java
- [轉]檢測SQLSERVER資料庫CPU瓶頸及記憶體瓶頸SQLServer資料庫記憶體
- 伺服器IO瓶頸對MySQL效能的影響伺服器MySql
- 嵌入式:微軟將推出第二代AI處理器應對海量資料處理微軟AI
- 遊戲出海報告:全球市場上漲6%迎復甦 但中國出海遭遇瓶頸遊戲
- 雷軍對話王自如直播:行業發展太快 手機將進入瓶頸期行業
- 在被線上大量日誌輸出導致效能瓶頸,執行緒Block的坑執行緒BloC
- 杉巖資料物件儲存替換IBM FileNet,突破效能瓶頸物件IBM
- LikeLib與5G協作 突破物聯網的發展瓶頸
- nginx反向代理負載均衡帶你突破單臺伺服器的瓶頸Nginx負載伺服器