谷歌BERT遭遇對手,微軟UniLM AI突破大量文字處理瓶頸

AIBigbull2050發表於2019-10-19

導語:它已經掌握了28996個詞彙,但它還要學習更多。

智東西10月17日訊息,去年10月谷歌釋出的BERT模型已經在閱讀理解測試中全面超越人類,今天微軟的UniLM模型將這一領域的研究推向了新的高度。

據外媒報導,微軟近日推出的UniLM AI訓練模型通過改變傳統AI系統學習方式,成功實現單向預測,突破了自然語言處理中大量文字修改的瓶頸。

一、改變雙向預測方式

語言模型預訓練(Language model pretraining)是一種機器語言處理技術,它通過依據文字預測詞彙的方式,教會機器學習系統(machine learning systems)如何把文字情景化地表述出來。它代表了自然語言處理(natural language processing)領域的最新突破。

目前,像谷歌的BERT模型,是雙向預測,也就是根據左右兩側的詞彙來預測,因此不適合大量文字的處理。

谷歌BERT遭遇對手,微軟UniLM AI突破大量文字處理瓶頸

▲谷歌BERT模型

為此,微軟科學家們研究出了UniLM(UNIfied pre-trained Language Model)這種新模型。該模型可以完成單向、序列到序列(sequence-to-sequence)和雙向預測任務,並且可以針對自然語言的理解和生成進行微調(fine-tuned)。

微軟表示它在各類常見的基礎測試中都要優於BERT,並且在自然語言處理的一些測試專案中取得了該領域的最新突破。

二、“變形金剛”的威力

谷歌BERT遭遇對手,微軟UniLM AI突破大量文字處理瓶頸

▲UniLM模型概覽

UniLM模型是一個多層網路,其核心是由Transformer AI模型組成的,這些模型針對大量文字進行了共同的預訓練,並針對語言建模進行了優化。

跟其他AI系統學習預測方式不同的是,Transformer AI將每個輸出元素都連線到每個輸入元素。它們之間的權重是可以動態調整的。

微軟研究人員認為,經過預訓練的UniLM與BERT類似,可以進行微調以適應各種下游任務。但是與BERT不同,UniLM可以通過一種特殊方式(using different self-attention masks),彙總不同型別語言模型的上下文。

此外,Transformer網路可以共享從歷史訓練中學到的資料,不僅使學習到的文字表示更加通用,也降低了對單一任務的處理難度。

三、學海無涯

微軟研究人表示,UniLM通過學習英語維基百科(English Wikipedia)和開源BookCorpus的文章後,已經擁有高達28996的詞彙量。並且在預培訓後,UniLM的跨語言任務表現也非常好。

團隊人員表示,UniLM未來發展的空間還很大,例如在“網路規模(web-scale)”的文字語料庫上訓練較大的模型來突破當前方法的侷限性。

他們還希望讓UniLM在跨語言任務中取得更大突破。

結語:自然語言處理領域的重大突破

自然語言處理,是人工智慧界、電腦科學和語言學界所共同關注的重要問題,它對於實現人機間的資訊交流起著重要作用。

谷歌BERT和微軟的UniLM是這一領域的開拓者,後者通過單向預測突破了大量文字處理的難題,進而提升了此類AI在實際應用中的價值。

此次谷歌霸主地位被動搖,也勢必將在該領域引發更加精彩的AI大戰。

原文來源:Venturebeat



https://www.toutiao.com/i6748689606276809223/



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2660647/,如需轉載,請註明出處,否則將追究法律責任。

相關文章