做人類語言謎題的破壁人:百度ERNIE 2.0的突破與創造

naojiti發表於2019-08-02

這兩天AI圈有一個廣受關注的新聞,百度釋出了持續學習的語義理解框架ERNIE 2.0,這個模型在1.0版本中文任務中全面超越BERT的基礎上,英文任務取得了全新突破,在共計16箇中英文任務上超越了BERT和XLNet, 取得了SOTA效果。

可能對於大部分AI技術的關注者與AI開發者來說,ERNIE 2.0最直接的價值在於業界又將獲得一個效果強勁的NLP模型,同時也是中國AI技術又一次令人興奮的成果。

成績之外,ERNIE 2.0背後蘊藏的產業價值同樣不容忽視。尤其是在目前國際貿易與科技背景下,ERNIE 2.0代表的無監督預訓練語言模型正處在非常關鍵的產業位置。

ERNIE 2.0與BERT、XLNet的巔峰對決背後,是一場全球NLP產業格局的變幻與交鋒。

NLP的提速換擋時代

讓我們先把時間向前倒回一點,看看BERT和ERNIE這對《芝麻街》的裡的朋友,為什麼變成了整個AI行業關注的明星。

NLP,即自然語言處理,是AI領域極其重要的一條技術路徑。它關乎於智慧體如何理解人類的語言與文字,並在理解基礎上人機智慧互動。這個領域的重要性顯而易見,而令業界興奮的是,去年年底到今天,NLP技術在全球範圍內掀起了一場“提速競賽”。

去年10月,谷歌釋出了被認為具備里程碑意義的NLP模型BERT。這種模型採用極大資料集上進行預訓練的模式,一舉重新整理了AI在大量NLP資料集的最高分數。甚至在機器閱讀理解等任務中,展現出了與人類不相上下的表現。

被AI業內人士稱為“殘暴到不留活路”的BERT,可以說將NLP提升到了新的軌道。另一個好訊息,是BERT並沒有就此進入一統江湖模式。今年3月,百度釋出了基於知識增強技術的NLP模型ERNIE,在多箇中文NLP任務中超越了BERT;今年6月,谷歌和CMU提出的NLP模型XLNet在20多項測試中排行第一,效能全面超越BERT;而Facebook不久前優化過的新BERT,又拿回了不少屬於自己的記錄。

故事至此,無監督預訓練語言NLP模型基本進入了“三國殺”時代,背後隱隱浮現著谷歌與百度,東西兩大AI巨頭的技術攀躍。

而從產業價值上看,基於大規模資料的無監督預訓練語言模型你追我趕,不斷重新整理記錄,給NLP技術應用到各行各業帶來了全新的機遇。作為NLP問題的基礎解法,這些模型讓機器閱讀理解、情緒識別、文字分類等任務都達到了新高度,語音助手、線上客服、智慧金融、對話機器人等廣泛領域都將從中受益。

或許我們可以將這10個月以來的NLP進化,理解為一場提速換擋。語言智慧領域,剛剛經歷了柴油換汽油的劇變,這是一個時代的劃頁。

在這個具有廣袤想象力的NLP時代,ERNIE 2.0來了。

ERNIE 2.0一劍東來,巴別塔之戰格局變幻

如上文所述,今天的NLP競速,是頂級高手間相互重新整理AI記錄的一場遊戲,頗有點紫禁之巔葉孤城大戰西門吹雪的味道。而這場競速,發生在人類語言智慧的巴別塔之巔。

而剛剛釋出的ERNIE 2.0實際上代表了這樣一件事:這場巔峰之戰中,百度奪得了賽事的主動權。

從3月釋出ERNIE 1.0,經過短短几個月時間,百度就完成了ERNIE的再升級,釋出了能夠持續學習的語義理解框架ERNIE 2.0,以及基於框架的ERNIE 2.0預訓練模型。

整體來看,ERNIE 2.0不僅完成了一次記錄重新整理表演,同時也解決了BERT長時間被產業界詬病的“大力出奇跡”問題。對算力和資料量的要求更少,讓無監督預處理語言模型更加貼近產業現實。總體來看,ERNIE 2.0閃耀NLP舞臺,有三大硬核能力:

1、更好的效果:ERNIE英文任務方面取得全新突破,在共計16箇中英文任務上超越了BERT和XLNet, 取得了SOTA效果。在英文任務上,ERNIE 2.0在自然語言理解資料集GLUE的7個任務上擊敗了BERT和XLNet;中文任務中,ERNIE 2.0在包括閱讀理解、情感分析、問答等不同型別的9個資料集上超越了BERT並重新整理了SOTA。可以說在NLP領域的關鍵問題中,推動了業界的前沿探索與突破。

2、更小的資料:無監督預訓練NLP模型,一直被業界認為是資料越多,效果越好,有種大力出奇跡的意味。然而ERNIE 2.0在充分藉助百度PaddlePaddle(飛槳)多機分散式訓練優勢的情況下,利用 79億tokens資料就完成了模型的訓練,約等於四分之一的XLNet資料。

3、更少的算力:無監督預訓練語言模型一大問題,在於算力消耗過大,訓練時間過長,從而導致產業化困難。ERNIE 2.0在這一點上也有出色表現,其僅僅使用64張V100 ,約八分之一XLNet硬體算力就實現了效果,而且為開發人員定製自己的NLP模型提供了方案。

在優秀的資料表現背後,或許我們還應該注意到更加巨集觀的產業問題:ERNIE 2.0代表的,是這場國際矚目的NLP競速裡,中國能量從未缺席。

AI不缺席:NLP之路上的中國能量

過去,我們總是認為中國在科技創新上是落後的,中國科技產業善於模仿和塑造應用,但在基礎研究與突破上往往缺席。然而ERNIE 2.0卻證明了,在AI之路上的關鍵技術、關鍵話題,中國AI可以第一時間參與進來,貢獻自己的力量。中國科技在AI時代不再缺席。

ERNIE 2.0與BERT、XLNet的競速發展中,可以看到三層中國能量正在產業中閃耀。百度AI正在帶給世界AI產業以驚喜。

1、中國智慧:BERT最為人詬病的一點,是它用龐大資料集砸入模型,產生了簡單粗暴有效的效果。但在演算法層面卻缺乏創新。而在ERNIE 2.0中,百度實現了可持續學習語義理解能量。通過支援增量引入詞彙(lexical)、語法 (syntactic) 、語義 (semantic) 等3個層次的自定義預訓練任務,能夠全面捕捉訓練語料中的詞法、語法、語義等潛在資訊。這些任務通過多工學習對模型進行訓練更新,每當引入新任務時,就可在學習該任務的同時,不遺忘之前學到過的資訊。

(ERNIE 2.0:可持續學習語義理解框架)

這意味著,ERNIE 2.0可以通過持續構建訓練包含詞法、句法、語義等預訓練任務,持續提升模型效果。也就是說,ERNIE 2.0通過語言學與AI科學的跨領域結合,完成了演算法邏輯上的大量創新,並驗證了可持續學習語義理解的任務表現。這給AI行業開啟了一條新的道路,為NLP領域開啟了新的發展軌跡。這條中國智慧的貢獻,恰好作用於AI界聚焦的前沿探索中,為全球AI技術提升貢獻了獨特力量。

2、中國位置:NLP的產業應用正在飛速發展,無監督預訓練語言模型被認為在各類NLP應用中處於骨幹網路的地位,是構成下一代NLP技術的底層。如果這個位置被BERT完全卡住,或者說被歐美公司完全卡住,那麼很容易又會出現底層科技卡脖子問題。另一方面,BERT等模型並不精於中文任務,長期下去NLP領域英文應用可能大幅度領先中文應用,影響產業程式。這都是我們不願意看到的。

ERNIE 2.0則證明,在這場底層技術角逐中,中國位置已經確立。中國科技在百度AI的全力以赴下,成為了領導者和探索者。

3、中國速度:去年評選全世界最受重視的AI新技術時,BERT和圖網路佔據前二。這不難看出全球科技產業對BERT的重視。然而幾個月過去,中國已經有了可以媲美甚至領先BERT的NLP模型。這也是AI時代中國速度的一個體現。

ERNIE 2.0可以作為一個橫軸,從中可以證明基礎演算法這個AI最核心領域,中國已經逐漸跟上了美國的速度,並且可以超越歐美頂級AI公司的演算法。反向輸出核心演算法,用中國速度領跑AI。百度的AI硬核實力,可以看出正在呈現不斷加速的特徵。今年穀歌大會上,已經被外界評論為演算法創新上的疲軟。然而百度卻接住了這個難題,逆勢而上。中國AI速度,正在百度拋向世界的一個個演算法中展現出來。

必須承認的是,今天的AI賽場上,中國能量已經不可忽視。這條路並非朝夕鋪就,而是經過無數中國AI人的努力凝結而成。比如在剛結束的ACL上,百度共有10篇論文被大會收錄,研究領域涵蓋了多個NLP領域的熱點話題與前沿方向,展現出了國際頂級水準的技術積澱。

而在學術與產業的不斷突破背後,是百度從2010年起就加速發展NLP事業,在AI技術尚未被世界熱捧的時候,就潛心NLP的前沿技術研究與產業應用。為業內培養了大量AI人才,成為國際頂級研究機構的百度NLP部門,在AI界素有“鐵軍”的美譽。目前,百度大腦語言與知識技術擁有最大的多元語義知識圖譜以及最好的中文語義表示模型,目前可提供30+項技術工具,囊括了文字稽核、機器翻譯、語言生成等多項能力,面向業界提供多樣、靈活、可定製的服務與場景解決方案。

由此可見,今天的成果,背後是十年磨一劍的技術探索與人才培養。一劍東來的百度,背後凝結了十年面壁圖破壁的NLP苦功。其實,每次中國AI閃耀於世界賽場的第一線,背後或多或少都藏著這樣的故事。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2652630/,如需轉載,請註明出處,否則將追究法律責任。

相關文章