中心隆重發布了董振東先生父子畢三十年之功建立的《知網》語言常識知識庫,董強先生在釋出會上也對《知網》釋出做了重要闡釋。
HowNet特點:
首次開源知網(HowNet)核心資料
線上檢索知網詞條,展示義原結構
提供豐富的呼叫介面方便使用者使用
HowNet發展情況:
OpenHowNet API
存放HowNet核心資料和THUNLP開發的OpenHowNet API,提供方便的HowNet資訊查詢、義原樹展示、基於義原的詞相似度計算等功能。
HowNet核心資料
資料檔案(HowNet.txt)由223,767個以中英文詞和片語所代表的概念構成,HowNet為每個概念標註了基於義原的定義以及詞性、情感傾向、例句等資訊。下圖提供了HowNet中一個概念的例子:
介面說明
get(self,word,language=None)
功能說明:檢索HowNet中詞語標註的完整資訊
引數說明:word表示待查詞,language為en(英文)/ch(中文),預設雙語同時查詢word表示待查詞,language為en(英文)/ch(中文), structured表示是否以結構化的方式返回,merge控制是否合併多義項,expanded_layer控制展開層數,預設全展開。
get_sememes_by_word(self,word,structured=False,lang='ch',merge=False,expanded_layer=-1)
功能說明:檢索輸入詞的義原,可以選擇是否合併多義,也可以選擇是否以結構化的方式返回,還可以指定展開層數。
引數說明:word表示待查詞,language為en(英文)/ch(中文), structured表示是否以結構化的方式返回,merge控制是否合併多義項,expanded_layer控制展開層數,預設全展開。
initialize_sememe_similarity_calculation(self)
功能說明:初始化基於義原的詞語相似度計算(需要讀取相關檔案並有短暫延遲)
calculate_word_similarity(self,word0, word1)
功能說明:計算基於義原的詞語相似度,呼叫前必須先呼叫上一個函式進行初始化
get_nearest_words_via_sememes(self,word,K=10)
功能說明:在使用基於義原的詞語相似度度量下,計算和檢索詞最接近的K個詞
引數說明:Word表示檢索詞,K表示K近鄰演算法取的Top-K
面向應用的研究:
2012年開發出詞語相關性計算器
2012年開發出語義群計算器
2014年推出了基於HowNet的英漢機器翻譯系統
2016年推出了基於HowNet的中文文字分析系統
2016年推出了基於HowNet的英文文字分析系統
相關研究
基於義原的詞表示學習
Improved Word Representation Learning with Sememes
詞向量的學習是自然語言處理中一項非常重要而有意義的任務,這項研究探索將義原資訊融入詞表示學習模型中來提高詞向量的效果,核心思想是利用中心詞所標註的義原來更準確地捕捉到在當前上下文中,中心詞所表現出來的語義。
具體而言,這項研究基於Skip-gram模型,同時學習詞、義項和義原向量,採用注意力機制來檢測中心詞在不同上下文中的義項。在詞相似度和詞類比實驗中,這項研究提出的模型實現了比其他詞向量表示學習模型更好的效能。
這項研究表明透過採用注意力機制,義原資訊可以更好地融入詞向量中,提高詞向量學習效果。
基於義原的語言模型
Language Modeling with Sparse Product of Sememe Experts
傳統語言模型在編碼輸入序列後直接在詞層面或字層面進行預測,而這項研究希望透過引入知網中“義原-詞義-單詞”的結構關係,層次化這樣的預測過程,進而提高語言模型的效能和可解釋性。這樣的語言模型稱為義原驅動的語言模型(SDLM)。
義原驅動的解碼器以迴圈神經網路輸出的上下文向量作為輸入,輸出預測下一個單詞的機率,其結構包括以下三個層次化的模組:
給定迴圈神經網路最後生成的上下文向量,預測每個義原將在下個詞中出現的機率;
使用上下文向量和A中的預測,給出每個詞義出現的機率;
將B中的詞義出現的機率邊緣化得到每個單詞的機率。
中文語言模型資料集上的實驗結果證明了SDLM模型相比較傳統語言模型和之前使用層次化解碼器的語言模型在效能上的優勢。
新詞的義原推薦
1. Lexical Sememe Prediction via Word Embeddings and Matrix Factorization
人工標註義原、構造義原資料集費時費力,並且會有較大的不一致性和噪聲。這項研究工作首次提出利用詞向量來為新詞自動進行義原標註,採用了推薦系統中的協同過濾和矩陣分解的方法,相應地提出了兩個模型SPWE和SPSE。
在實驗中,兩個模型,以及兩個模型的整合模型在義原預測任務上表現出較好的效果。這項研究將對現有義原標註的準確性和和一致性檢驗以及新詞的義原標註有重要意義。
2. Incorporating Chinese Characters of Words for Lexical Sememe Prediction
現有的義原自動標註方法,都只利用了大規模文字資訊(即外部資訊),對於低頻詞的推薦效果很差。針對這個問題,這項研究提出了一個新穎的框架,充分利用詞的內部漢字資訊和外部上下文資訊進行義原推薦,並提出了兩種方法:
基於詞-字過濾的方法以及基於字元和義原向量的方法對內部資訊進行利用。基於詞-字過濾的方法將詞分為前中後,並統計每個字元對應的義原機率。
而基於字元和義原向量的方法預先學習字元向量,並使用矩陣分解的方法學習義原向量。在表示義原和詞的距離時,使用距離義原向量最近的字來表示一個詞。
實驗結果表明本文中兩種方法的整合模型在不同頻率的詞表上表現均比現有最好方法有顯著提升,特別是在低頻詞上呈現出更加魯棒的效能。
跨語言詞的義原推薦
Cross-lingual Lexical Sememe Prediction
知網(HowNet)僅僅為中英雙語詞標註了義原,對於大多數其他語言,尤其是低資源語言,沒有像知網這樣的義原知識庫,這在一定程度上阻礙了將義原用於這些語言的自然語言處理任務中去。透過機器學習的方法,將現有知網中的義原知識遷移到其他語言中,相比於從頭構建其他語言義原知識庫,無疑是一種省時省力的方法。
因此這項研究提出了跨語言詞的義原推薦這一任務,並且設計了基於融合義原資訊的雙語詞表示和協同過濾的框架,實現了較好的跨語言詞義原推薦效果。
PPT具體內容:
(點選文末閱讀原文即可下載)
演講影片
清華大學知識智慧研究中心釋出會(上)
清華大學知識智慧研究中心釋出會(下)