在過去的 2018 年中,自然語言處理出現了很多令人激動的新想法與新工具。從概念觀點到實戰訓練,它們為 NLP 注入了新鮮的活力。
在這一年中,清華大學副教授劉知遠和他所在的清華自然語言處理實驗室同樣在這個領域做出了很多成果,他們關注如何結合深度神經網路與大型知識庫,並期望構建更多魯棒及可解釋性的自然語言理解系統。在這一篇文章中,機器之心採訪了劉知遠教授,他向我們介紹了 NLP 在過去一年的重要發展歷程,以及實驗室的重要研究成果與方向。
從 18 年走進 19 年
機器之心:在過去一年,您認為人工智慧或者機器學習領域方面有哪些比較重要的研究成果?
劉知遠:我認為去年最有里程碑意義的研究是 BERT,每個從事自然語言處理的研究者和開發者,甚至每個人工智慧研究者都會比較關注。它的地位可能和 CV 中的 ResNet 相似,都是充分利用更多資料自動學習預訓練模型,改進相關任務的效能。
參考文章:谷歌終於開源 BERT 程式碼:3 億引數量,機器之心全面解讀
機器之心:Transformer 在 2018 年有了更廣泛的應用,除了機器翻譯以外,它在語言模型和問答系統也都有所應用。您認為這是不是體現了一種趨勢?
劉知遠:我們可以把 Transformer 看做是以往神經網路的一個升級版,能夠一定程度上解決以往 CNN 和 RNN 對長程依賴建模的問題。並且提出完全利用 Attention 機制來進行句子表示學習,結構也比較清晰,目前在機器翻譯任務上取得了大幅提升。
在文字表示方面,深度神經網路主要存在兩種做法:一種是 RNN/GRU/LSTM 系列,將句子作為字元序列進行順序編碼處理;另一種如 CNN 就不再關注句子中詞之間的序列關係,而是通過諸如 Convolution(卷積)的機制,從區域性開始逐漸形成整個句子的表示。前一種做法更符合語言理解特點,而後一種做法則平行計算效能更好。
Transformer 現在有比較大的影響力,一個方面就是其每層都會利用 Attention(注意力)來捕捉全域性的資訊,能夠提升長程依賴的學習能力,這是 CNN 所不具備的。同時 Transformer 能在 GPU 上得到非常好的加速,可以從更多訓練資料學習更好的效果,這是 RNN 系列模型難以做到的。此外簡單利用自注意力機制可以方便層次化建模,這也是之後深層 Transformer 以及 BERT 等相關模型效果顯著的重要因素。
總的來說,Transformer 比較好地解決了 RNN 和 CNN 等傳統神經網路模型的缺陷,但更側重於模型的並行化,對於語言序列性質的考慮還比較簡單。當然,我認為未來這兩種做法還會有此消彼長的過程。可能再發展一兩年,我們又會在 Transformer 中把句子的序列性質著重考慮進來,讓效能進一步提高,這也是一個互相借鑑的過程。
機器之心:您在 18 年都有哪些比較重要的研究成果,能介紹一下嗎?
劉知遠:2018 年我們圍繞知識與語言開展了很多工作。我們認識到不同型別知識對語言理解的重要意義,是純資料驅動方法無法勝任的。所以,我們的總目標是構建知識指導的自然語言處理框架,近年來一直探索如何將世界知識、語言知識和行業知識用於自然語言理解,以及反過來如何利用深度學習技術從無結構文字中抽取各類知識。
2018 年,在世界知識方面,我們進一步探索了利用深度學習技術抽取實體關係的技術,推出了 OpenNRE 工具包,獲得了國內外的廣泛關注;我們也利用知識表示學習技術,將世界知識用於文字實體分類、資訊檢索的文字排序等任務,驗證了世界知識對於文字理解的積極意義。在語言知識方面,我們進一步探索瞭如何將用義原標註的詞彙知識庫 HowNet 融入到深度學習語言模型中;我們也探索了跨語言進行義原知識標註的可行性,有望加速多語言義原標註的效率。在行業知識方面,我們探索瞭如何將自然語言處理技術與法律知識相結合,提高法律領域的智慧化水平。
實際上,從無結構文字中抽取結構化知識形成大規模知識圖譜後,這些知識反過來可以融入深度學習模型中,幫助我們更好地實現對自然語言的理解。我認為這是深度學習模型與知識圖譜不斷互相正反饋的過程:如果有越來越大、越來越精確的知識圖譜,也會有越來越好、越來越魯棒的自然語言理解模型,它們是共同發展的。