清華劉知遠:教你用HowNet在深度學習時代搞事情(附論文下載)

資料派THU發表於2018-01-21

640?wx_fmt=png&wxfrom=5&wx_lazy=1

來源:知乎

作者:劉知遠

本文共3539字,建議閱讀11分鐘
本文為大家解讀什麼是HowNet,並且可以用HowNet在深度學習時代做些什麼。


2017年12月底,清華大學張鈸院士做了一場題為《AI科學突破的前夜,教授們應當看到什麼?》的精彩特邀報告。他認為,處理知識是人類所擅長的,而處理資料是計算機所擅長的,如果能夠將二者結合起來,一定能夠構建出比人類更加智慧的系統。因此他提出,AI未來的科學突破是建立一種同時基於知識和資料的AI系統。


我完全贊同張鈸老師的學術觀點。最近一年裡,我們在這方面也做了一些嘗試,將語言知識庫HowNet中的義原標註資訊融入面向NLP的深度學習模型中取得了一些有意思的結果,在這裡整理與大家分享一下。


什麼是HowNet


HowNet是董振東先生、董強先生父子畢三十年之功標註的大型語言知識庫,主要面向中文(也包括英文)的詞彙與概念[1]。HowNet秉承還原論思想,認為詞彙/詞義可以用更小的語義單位來描述。這種語義單位被稱為“義原”(Sememe,顧名思義就是原子語義,即最基本的、不宜再分割的最小語義單位。在不斷標註的過程中,HowNet逐漸構建出了一套精細的義原體系(約2000個義原)。HowNet基於該義原體系累計標註了數十萬詞彙/詞義的語義資訊。


例如“頂點”一詞在HowNet有兩個代表義項,分別標註義原資訊如下,其中每個“xx|yy”代表一個義原,“|”左邊為英文右邊為中文;義原之間還被標註了複雜的語義關係,如host、modifier、belong等,從而能夠精確地表示詞義的語義資訊。


頂點#1
DEF={Boundary|界限:host={entity|實體},modifier={GreaterThanNormal|高於正常:degree={most|最}}}
頂點#2
DEF={location|位置:belong={angular|角},modifier={dot|點}}


在NLP領域知識庫資源一直扮演著重要角色,在英語世界中最具知名度的是WordNet,採用同義詞集(synset)的形式標註詞彙/詞義的語義知識。HowNet採取了不同於WordNet的標註思路,可以說是我國學者為NLP做出的最獨具特色的傑出貢獻。HowNet在2000年前後引起了國內NLP學術界極大的研究熱情,在詞彙相似度計算、文字分類、資訊檢索等方面探索了HowNet的重要應用價值[2,3],與當時國際上對WordNet的應用探索相映成趣。


深度學習時代HowNet有什麼用


進入深度學習時代,人們發現通過大規模文字資料也能夠很好地學習詞彙的語義表示。例如以word2vec[4] 為代表的詞表示學習方法,用低維(一般數百維)、稠密、實值向量來表示每個詞彙/詞義的語義資訊,又稱為分散式表示(distributed representation,或embedding),利用大規模文字中的詞彙上下文資訊自動學習向量表示。我們可以用這些向量方便地計算詞彙/詞義相似度,能夠取得比傳統基於語言知識庫的方法還好的效果。也正因為如此,近年來無論是HowNet還是WordNet的學術關注度都有顯著下降,如以下兩圖所示。


0?wx_fmt=jpeg

中國期刊網(CNKI)統計HowNet學術關注度變化趨勢



0?wx_fmt=jpeg

Semantic Scholar統計WordNet相關論文變化趨勢



那麼是不是說,深度學習時代以WordNet、HowNet為代表的語言知識庫就毫無用處了呢?實際並非如此。實際上自word2vec剛提出一年後,我們 [5] 以及ACL 2015最佳學生論文 [6] 等工作,都發現將WordNet知識融入到詞表示學習過程中,能夠有效提升詞表示效果。


雖然目前大部分NLP深度學習模型尚沒有為語言知識庫留出位置,但正由於深度學習模型data-hungry、black-box等特性,正使其發展遭遇不可突破的瓶頸。回顧最開始提及的張鈸院士的觀點,我們堅信AI未來的科學突破是建立一種同時基於知識和資料的AI系統。看清楚了這個大形勢,針對NLP深度學習模型的關鍵問題就在於,利用什麼知識,怎樣利用知識。


在自然語言理解方面,HowNet更貼近語言本質特點。自然語言中的詞彙是典型的符號資訊,這些符號背後蘊藏豐富的語義資訊。可以說,詞彙是最小的語言使用單位,卻不是最小的語義單位。HowNet提出的義原標註體系,正是突破詞彙屏障,深入瞭解詞彙背後豐富語義資訊的重要通道。


在融入學習模型方面,HowNet具有無可比擬的優勢。在WordNet、同義詞詞林等知識庫中,每個詞的詞義是通過同義詞集(synset)和定義(gloss)來間接體現的,具體每個詞義到底什麼意義,缺少細粒度的精準刻畫,缺少顯式定量的資訊,無法更好為計算機所用。而HowNet通過一套統一的義原標註體系,能夠直接精準刻畫詞義的語義資訊;而每個義原含義明確固定,可被直接作為語義標籤融入機器學習模型。

也許是由於HowNet採用了收費授權的政策,並且主要面向中文世界,近年來HowNet知識庫有些淡出人們的視野。然而,對HowNet逐漸深入理解,以及最近我們在HowNet與深度學習模型融合的成功嘗試,讓我開始堅信,HowNet語言知識體系與思想必將在深度學習時代大放異彩。


我們的嘗試


最近我們分別探索了詞彙表示學習、新詞義原推薦、和詞典擴充套件等任務上,驗證了HowNet與深度學習模型融合的有效性


  • 融合義原知識的詞彙表示學習


0?wx_fmt=jpeg



論文:Yilin Niu, Ruobing Xie, Zhiyuan Liu, Maosong Sun. Improved Word Representation Learning with Sememes. In ACL, 2017.
下載:http://nlp.csai.tsinghua.edu.cn/~lzy/publications/acl2017_sememe.pdf 原始碼:https://github.com/thunlp/SE-WRL


我們考慮將詞義的義原知識融入詞彙表示學習模型中。早在2016年,我們組孫茂松教授就開展了這方面研究,相關工作以《借重於人工知識庫的詞和義項的向量表示:以 HowNet 為例》為題發表在全國計算語言學會議(CCL 2016)和《中文資訊學報》上 [7]。這次ACL 2017的工作是這方面的進一步嘗試。在該工作中,我們將HowNet的義原標註資訊具象化為如下圖所示的word-sense-sememe結構。需要注意的是,為了簡化模型,我們沒有考慮詞義的義原結構資訊,即我們將每個詞義的義原標註看做一個無序集合。


0?wx_fmt=jpeg

HowNet義原標註知識的word-sense-sememe結構示意圖


基於word2vec中的Skip-Gram模型,我們提出了SAT(sememe attention over target model)模型。與Skip-Gram模型只考慮上下文資訊相比,SAT模型同時考慮單詞的義原資訊,使用義原資訊輔助模型更好地“理解”單詞。具體做法是,根據上下文單詞來對中心詞做詞義消歧,使用attention機制計算上下文對該單詞各個詞義(sense)的權重,然後使用sense embedding的加權平均值表示單詞向量。在詞語相似度計算和類比推理兩個任務上的實驗結果表明,將義原資訊融入詞彙表示學習能夠有效提升詞向量效能。


0?wx_fmt=jpeg

SAT(Sememe Attention over Target Model)模型示意圖


  • 基於詞彙表示的新詞義原推薦



0?wx_fmt=jpeg


論文:Ruobing Xie, Xingchi Yuan, Zhiyuan Liu, Maosong Sun. Lexical Sememe Prediction via Word Embeddings and Matrix Factorization. In IJCAI, 2017.
下載:http://nlp.csai.tsinghua.edu.cn/~lzy/publications/ijcai2017_sememe.pdf 原始碼:https://github.com/thunlp/Sememe_prediction

 

在驗證了分散式表示學習與義原知識庫之間的互補關係後,我們進一步提出,是否可以利用詞彙表示學習模型,對新詞進行義原推薦,輔助知識庫標註工作。為了實現義原推薦,我們分別探索了矩陣分解和協同過濾等方法。


矩陣分解方法首先利用大規模文字資料學習單詞向量,然後用已有詞語的義原標註構建“單詞-義原”矩陣,通過矩陣分解建立與單詞向量匹配的義原向量。當給定新詞時,利用新詞在大規模文字資料得到的單詞向量推薦義原資訊。協同過濾方法則利用單詞向量自動尋找與給定新詞最相似的單詞,然後利用這些相似單詞的義原進行推薦。義原推薦的實驗結果表明,綜合利用矩陣分解和協同過濾兩種手段,可以有效進行新詞的義原推薦,並在一定程度上能夠發現HowNet知識庫的標註不一致現象。該技術將有利於提高HowNet語言知識庫的標註效率與質量。


  • 基於詞彙表示和義原知識的詞典擴充套件


0?wx_fmt=jpeg


論文:Xiangkai Zeng, Cheng Yang, Cunchao Tu, Zhiyuan Liu, Maosong Sun. Chinese LIWC Lexicon Expansion via Hierarchical Classification of Word Embeddings with Sememe Attention. In AAAI, 2018.
下載:http://nlp.csai.tsinghua.edu.cn/~lzy/publications/aaai2018_cliwc.pdf 原始碼:thunlp/Auto_CLIWC


最近,我們又嘗試了利用詞語表示學習與HowNet知識庫進行詞典擴充套件。詞典擴充套件任務旨在根據詞典中的已有詞語,自動擴充套件出更多的相關詞語。該任務可以看做對詞語的分類問題。我們選用在社會學中享有盛名的LIWC詞典(Linguistic Inquiry and Word Count)中文版來開展研究。LIWC中文版中每個單詞都被標註層次化心理學類別。我們利用大規模文字資料學習每個詞語的分散式向量表示,然後用LIWC詞典單詞作為訓練資料訓練分類器,並用HowNet提供的義原標註資訊構建sememe attention。實驗表明,義原資訊的引入能夠顯著提升單詞的層次分類效果。


0?wx_fmt=jpeg

基於Sememe Attention的詞典擴充套件模型


ps. 值得一提的是,這三份工作都是本科生(牛藝霖、袁星馳、曾祥楷)為主完成的,模型方案都很簡單,但都是第一次投稿就被ACL、IJCAI和AAAI錄用,也可以看出國際學術界對於這類技術路線的認可。


未來展望


以上介紹的三項工作只是初步驗證了深度學習時代HowNet語言知識庫在某些任務的重要作用。孫茂松教授在《借重於人工知識庫的詞和義項的向量表示: 以 HowNet 為例》[7]結尾對這一技術路線有段精闢的論述:


幾乎從零開始”(almost from scratch)是神經網路語言模型所標榜、推崇的一種學習方式,也是其大“秀”自己強大學習能力“肌肉”的一種展示方式。但是必須清醒地認識到,這種方式並不能包打天下,對某些型別的任務不是“自足”的(如本文的義項向量學習任務),也存在其“阿喀琉斯之踵”(如本文的低頻詞向量學習任務),再強大的力量也無法自己舉起自己,必須藉助“外力”才能擺脫其侷限性。而各類人工知識庫就是我們必須依賴同時也是可以依賴的“外力”。一個充分融合了人工知識庫(理想狀態應該是統籌了多個相關人工知識庫,包括語言知識庫和世界知識庫)的神經網路語言模型能以一種無監督學習的方式坐收基本面上“幾乎從零開始”和特定任務上“站在巨人的肩膀上”之利,往往能夠避免或者大大緩解新的人工投入,從而取得事半功倍之效。


以HowNet語言知識庫為代表的人類知識與以深度學習為代表的資料驅動模型如何深度融合,尚有許多重要的開放問題亟待探索與解答。我認為以下幾個方向深具探索價值:


  1. 目前的研究工作仍停留在詞法層面,對HowNet知識的應用亦非常有限。如何在以RNN/LSTM為代表的語言模型中有效融合HowNet義原知識庫,並在自動問答、機器翻譯等應用任務中驗證有效性,具有重要的研究價值。是否需要考慮義原標註的結構資訊,也值得探索與思考。


  2. 經過幾十年的精心標註,HowNet知識庫已有相當規模,但面對日新月異的資訊時代,對開放域詞彙的覆蓋度仍存在不足。需要不斷探索更精準的新詞義原自動推薦技術,讓計算機輔助人類專家進行更及時高效的知識庫標註工作。此外,HowNet義原知識庫規模巨集大、標註時間跨度長,難免出現標註不一致現象,這將極大影響相關模型的效果,需要探索相關演算法,輔助人類專家做好知識庫的一致性檢測和質量控制。


  3. HowNet知識庫的義原體系是專家在不斷標註過程中反思總結的結晶。但義原體系並非一成不變,也不見得完美無瑕。它應當隨時間變化而演化,並隨語言理解的深入而擴充套件。我們需要探索一種資料驅動與專家驅動相結合的手段,不斷優化與擴充義原體系,更好地滿足自然語言處理需求。


總之,HowNet知識庫是進入深度學習時代後被極度忽視的一片寶藏,它也許會成為解決NLP深度學習模型諸多瓶頸的一把鑰匙。在深度學習時代用HowNet搞事情,廣闊天地,大有可為!


參考文獻



1. 知網官方介紹。

2. 劉群, 李素建. 基於《 知網》 的詞彙語義相似度計算. 中文計算語言學 7, no. 2 (2002): 59-76.

3. 朱嫣嵐, 閔錦, 周雅倩, 黃萱菁, 吳立德. 基於 HowNet 的詞彙語義傾向計算. 中文資訊學報 20, no. 1 (2006): 16-22.

4. Mikolov, Tomas, Ilya Sutskever, Kai Chen, Greg S. Corrado, and Jeff Dean. Distributed representations of words and phrases and their compositionality. In NIPS, pp. 3111-3119. 2013.

5. Chen, Xinxiong, Zhiyuan Liu, and Maosong Sun. A unified model for word sense representation and disambiguation. In EMNLP, pp. 1025-1035. 2014.

6. Rothe, Sascha, and Hinrich Schütze. Autoextend: Extending word embeddings to embeddings for synsets and lexemes. In ACL, 2015.

7. 孫茂松, 陳新雄. 借重於人工知識庫的詞和義項的向量表示: 以 HowNet 為例. 中文資訊學報 30, no. 6 (2016): 1-6. [下載]

8. Yilin Niu, Ruobing Xie, Zhiyuan Liu, Maosong Sun. Improved Word Representation Learning with Sememes. In ACL, 2017.

9. Ruobing Xie, Xingchi Yuan, Zhiyuan Liu, Maosong Sun. Lexical Sememe Prediction via Word Embeddings and Matrix Factorization. In IJCAI, 2017.

10. Xiangkai Zeng, Cheng Yang, Cunchao Tu, Zhiyuan Liu, Maosong Sun. Chinese LIWC Lexicon Expansion via Hierarchical Classification of Word Embeddings with Sememe Attention. In AAAI, 2018.

0?wx_fmt=jpeg

相關文章