近期知識圖譜頂會論文推薦,你都讀過哪幾篇?

PaperWeekly發表於2018-12-12

EMNLP 2018

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?

■ 論文解讀 | 劉兵,東南大學博士,研究方向為自然語言處理資訊抽取

論文動機

在遠端監督任務中,除了語料的錯誤標註問題,還存在句內噪聲單詞過多的問題,即多數句子都存在一些與表達關係無關的詞彙,這個問題未有人關注。當前研究的另一個問題是,句子特徵抽取器採用隨機初始化的方法,存在不健壯的問題。

針對句內噪聲的問題,本文采用子樹解析的方法,去除與表達關係不相關的詞彙;針對關係抽取器不健壯的問題,本文采用遷移學習的方法,用實體分類對模型的引數做預訓練。

論文模型

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?

本文方法包括三個部分:

1. 子樹解析:首先對句子做句法解析,然後找到兩個實體最近的共有祖先,最後取以該節點為根節點的子樹,保留句子中的這部分,其餘部分丟棄;

2. 構造含有多個注意力機制的關係抽取器:採用 BGRU 作為句子語義抽取器,抽取器中新增面向單詞的注意力和麵向實體的注意力。然後採用面向句子的注意力方法,結合一個實體對對齊的多個句子的資訊作為實體對間關係的語義表示,用於後續的關係分類;

3. 引數遷移初始化:將模型部分結構用於實體型別分類任務,訓練得到的引數用作關係抽取器相應引數的初始化。

實驗

本文實驗進行了 held-out evaluation 和 manual evaluation,結果如下圖所示,可見取得了較好的效果。近期知識圖譜頂會論文推薦,你都讀過哪幾篇?

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?NAACL 2018


近期知識圖譜頂會論文推薦,你都讀過哪幾篇?■ 論文解讀 | 譚亦鳴,東南大學博士,研究方向為知識庫問答、自然語言處理 

本文關注任務為面向簡單問題的知識庫問答(僅用 KB 中的一個事實就能回答問題)。作者將任務劃分為實體檢測,實體連結,關係預測與證據整合,探究了簡單的強基線。

通過基於 SIMPLEQUEST IONS 資料集上的實驗,作者發現基本的 LSTM 或者 GRU 加上一些啟發式方法就能夠在精確度上接近當前最優,並且在沒有使用神經網路的情況下依然取得相當不錯的效能。這些結果反映出前人工作中,某些基於複雜神經網路方法表現出不必要的複雜性。

論文動機

近期的簡單知識庫問答工作中,隨著神經網路模型複雜性的增加,效能也隨之提升。作者認為這種趨勢可能帶來對網路結構有效性理解的缺失,Melis 等人的研究也佐證了這一點。他們發現,標準的 LSTM 通過適當的調參,就可以得到堪比最新網路模型的效能。

從這一觀點出發,作者嘗試去除不必要的複雜結構,直到獲得一個儘可能簡單但是效能優異的模型。

方法

實體檢測(Entity Detection) 

實體檢測的目標是確認問題相關的實體,可以抽象為序列標註問題,即識別問題中的每個字元是否是實體。考慮到涉及序列處理,採用 RNN 是相對流行的做法。 

神經網路策略上,作者以問句的詞嵌入矩陣作為輸入,在雙向LSTM和GRU上進行實驗。因為是構建 baseline,作者並未在網路模型上新增 CRF 層。

神經網路方法則選用 CRF,特徵包括:詞位置資訊,詞性標註,n-gram 等等。通過實體檢測,可以得到表達實體的一系列關鍵詞(字元)。

實體連結(Entity Linking) 

作者將實體連結抽象為模糊字串匹配問題,並未使用神經網路方法。 

對於知識庫中的所有實體,作者預先構造了知識庫實體名稱 n-gram 的倒排索引,在實體連結時,作者生成所有候選實體文字相應的 n-gram,並在倒排索引中查詢和匹配它們(策略是優先匹配較大粒度的 n-gram)。獲取到可能的實體列表後,採用 Levenshtein Distance 進行排序篩選。 

關係預測(Relation Prediction) 

關係預測的目標是確定問題所問的關係資訊,作者將其抽象為句子分類問題。對於這個子任務,作者在神經網路方法分別嘗試了 RNN 與 CNN 兩種。

RNNs:與實體檢測類似,作者也採用雙向 RNN 與 GRU 構建模型,並僅依據隱狀態作為證據進行分類,其他與目標檢測模型一致。 

CNNs:這裡引用 Kim 等人(2014)的工作,簡化為單通道,使用 2-4 寬度做特徵對映。 

神經網路方法則採用了邏輯迴歸策略(Logistic Regression),特徵方面選擇了兩組,其一是 tfidf 與 bi-gram,其二是詞嵌入與關係詞。 

證據整合(Evidence Integration) 

該任務的目標是從前面生成的 m 個候選實體與 n 個關係中選出 (m!=n) 一個實體-關係組合。 作者首先生成 m*n 個候選組合,考慮到實體檢測和關係預測是相對獨立的模型,這意味著很多組合意義不大,可以做初步消除。

在組合打分策略上,考慮到知識庫中相同的共享節點,比如所有姓名為“亞當斯密”的人,作者對出現頻率過高的實體進行打分限制。

實驗結果

對比實驗基於 SIMPLEQUESTIONS 資料集,並劃分資料規模:訓練集 75.9K,驗證集 10.8K,測試集 21.7K。

作者進行了實體連結、關係預測和 end2end 問答三組實驗:

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?

從各組實驗的結果可以發現,本文建立的基礎結構模型所得到的baseline在三個任務中,均超過了部分較新的工作。

總結

實驗結果有效驗證了作者的觀點,基本的 LSTM 或者 GRU 通過有效的除錯,能夠在精確度上接近當前最優,而非神經網路方法配合新的特徵組合也能夠取得相當不錯的效能。

CIKM 2018

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?

■ 論文解讀 | 黃焱暉,東南大學碩士,研究方向為知識圖譜自然語言處理

本文主要關注 Network Embedding 問題,以往的 network embedding 方法只將是網路中的邊看作二分類的邊 (0,1),忽略了邊的標籤資訊。本文提出的方法能夠較好的儲存網路結構和邊的語義資訊來進行 Network Embedding 的學習。實驗結果證明本文的方法在多標籤結點分類任務中有著突出表現。

研究背景

Network Embedding 的工作就是學習得到低維度的向量來表示網路中的結點,低維度的向量包含了結點之間邊的複雜資訊。這些學習得到的向量可以用來結點分類,結點與結點之間的關係預測。

論文模型

本文將總體的損失函式分為兩塊:Structural Loss 和 Relational Loss,定義為:

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?

Structural Loss:

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?

給定中心結點 u,模型最大化觀察到“上下文”結點 v 的情況下 u 的概率,C(v) 表示點 v 的“上下文”結點,“上下文”結點不是直接連線的結點,而是用類似於 DeepWalk 中的 random walk 方法得到。通過不斷在網路中游走,得到多串序列,在序列中結點V的“上下文”結點為以點V為中心的視窗大小內的結點。

本文采用 skip-gram 模型來定義 Pr(u|v),Φ(v) 是結點作為中心詞的向量,Φ‘(v) 是結點作為“上下文”的向量。Pr(u|v) 的定義為一個 softmax 函式,同 word2vec 一樣,採用負取樣的方法來加快訓練。 

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?

Relational Loss:

以前也有方法利用了結點的標籤,但是沒有利用邊的標籤資訊。本文將邊的標籤資訊利用起來。邊 e 的向量由兩端的結點 u,v 定義得到,定義為:

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?

其中 g 函式是將結點向量對映為邊向量的函式 Rd*Rd->Rd’ ,本文發現簡單的連線操作效果最好。
近期知識圖譜頂會論文推薦,你都讀過哪幾篇?

將邊的向量資訊置入一個前饋神經網路,第 k 層隱藏層定義為:

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?

其中,W(k) 為第 k 層的權重矩陣,b(k) 為第 k 層的偏置矩陣,h(0)=Φ(e)。 

並且將預測出的邊的標籤與真實的邊的標籤計算二元交叉損失函式。真實的邊的標籤向量為 y,神經網路預測的邊的標籤向量為 yˆ。邊的損失函式定義為:

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?

本文演算法的虛擬碼如下:

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?

結果分析

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?

表 1 和表 2 展示了五種方法在兩個資料集上結點分類的表現。本文使用了 5%,10%,20% 含有標籤的結點。本文考慮到了在現實中,有標籤關係的稀有性,所以本文只使用了 10% 的標籤資料。

可以觀察到即使是很小比例的標籤關係,結果也優於基礎方法。在 ArnetMiner 資料集上表現得比 AmazonReviews 好的原因是,類似於 ArnetMiner 資料集的協作網路,關係的標籤通常指明瞭結點的特徵了,所以對於結點分類來說,高於 AmazonReviewers 是正常現象。

總結

本文的方法相比於以往的 Network Embedding 方法的優勢在於,除了利用了網路的結構資訊,同時也利用了網路中的邊的標籤資訊。在真實世界的網路中證實了本文的方法通過捕捉結點之間的不同的關係,在結點分類任務中,網路中的結點表示能獲得更好的效果。

EMNLP 2018

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?■ 解讀 | 楊帆,浙江大學碩士,研究方向為知識圖譜自然語言處理

論文動機

如今的知識圖譜規模很大但是完成度不高,long-tail 關係在知識圖譜中很常見,之前致力於完善知識圖譜的方法對每個關係都需要大量的訓練樣本(三元組),而新加入的關係其樣本數量通常不是很多。

為解決這個問題,本文提出了 One-Shot 場景下的關係學習模型,該模型通過學習實體的 embedding 和相應的區域性圖結構來獲得一個匹配度量函式,最終推匯出新的三元組。

論文亮點

本文提出的模型有以下亮點:

1. 只依賴於實體的 embedding 和區域性圖結構(之前的方法依賴於關係的良好表示);

2. 一旦訓練完成便可以預測任何關係(之前的方法需要微調來適應新的關係)。

概念

本文主要針對 (h,r,?) 型別的推測,即從候選集合中選出最合適的 t 來構造新的三元組 (h,r,t),主要符號含義如下: 

G{(h,r,t)}:即原始 KG,三元組集合 

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?:對應於 G 中的一個關係(任務),每個 Tr 中所有三元組的 r 相同 

:任務集合

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?:只含有一個三元組近期知識圖譜頂會論文推薦,你都讀過哪幾篇?

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?近期知識圖譜頂會論文推薦,你都讀過哪幾篇?為候選 t 集合 

G':G 的子集,作為背景知識

論文模型

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?

本文模型由兩部分組成:

1. Neighbor Encoder:該模組利用區域性圖結構對(h,t)實體對進行編碼,首先對任意 h/t 構建其 one-hop Neighbor set Ne,再利用 Encoding function f(Ne)編碼,最後將 h 和 t 的編碼連線起來便得到 (h,t) 實體對的表示,f(Ne) 形式如下:

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?

2. Matching Processor:對於候選集近期知識圖譜頂會論文推薦,你都讀過哪幾篇? 中的每一個近期知識圖譜頂會論文推薦,你都讀過哪幾篇?,利用 LSTM 計算近期知識圖譜頂會論文推薦,你都讀過哪幾篇?近期知識圖譜頂會論文推薦,你都讀過哪幾篇?的相似度,相似度最高的近期知識圖譜頂會論文推薦,你都讀過哪幾篇?即為近期知識圖譜頂會論文推薦,你都讀過哪幾篇?對應的 t,迭代過程如下:

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?

實驗

資料集

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?本文的兩個資料集 NELL-One 和 Wiki-One 是作者分別基於 NELL 和 Wikidata 構建(選取其中三元組數量在 50~500 之間的關係)。

實驗結果 

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?

作者將本文提出的模型(GMatching)與之前基於 embedding 的模型在 NELL-One 和 Wiki-One 兩個資料集上進行了比較,結果顯示該模型各項指標均優於之前的模型。

總結

本文提出的模型利用實體的區域性圖結構以及學習度量來匹配實體對,一經訓練可以直接適用於預測任何關係,並在 One-Shot 場景下表現出優越效能。

IJCAI 2018

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?■ 論文解讀 | 汪寒,浙江大學碩士,研究方向為知識圖譜自然語言處理

論文動機

傳統的規則挖掘演算法因計算量過大等原因無法應用在大規模 KG 上。為了解決這個問題,本文提出了一種新的規則挖掘模型 RLvLR (Rule Learning via Learning Representation),通過利用表示學習的 embedding 和一種新的子圖取樣方法來解決之前工作不能在大規模 KG 上 scalable 的問題。

論文亮點

本文亮點主要包括:

1. 取樣只與對應規則相關的子圖,在儲存了必要資訊的前提下極大減少了演算法的搜尋空間和計算量;

2. 提出了 argument embedding,將規則表示為 predicate sequence。

概念

1. closed-pathrule,LHS 記為 body(r),RHS 記為 head(r);

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?

2. support degree of r,滿足 r 的實體對個數;

近期知識圖譜頂會論文推薦,你都讀過哪幾篇? 3. standard confidence 和 head coverage。

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?論文方法

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?

Sampling Method 

以 head predicate Pt 為輸入,把 KG 看成無向圖,選擇到 Pt 的頭尾實體路徑長不超過 len-1 的實體和關係組成子圖 K’=(E’,F’),後面所有的計算都基於這個子圖。 

Argument Embedding 

對於謂詞 P,它的 subject argument 定義為所有出現在 subject 上實體的 embedding 的加權平均,object argument 則為尾實體上實體的 embedding 的加權平均,這個主要用在後面的 score function 上,即本文引入了共現的資訊。

對於路徑 (P1,P2) 來說,P1 的 object argument 與 P2 的 subject argument 應該很相似,這裡就應用到了下面說的基於 argument embedding 的 score function。

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?Co-occurrence Score Function

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?

這個 score function 就是基於上面的 argument embedding,以上圖這個長為 3 的 rule 為例,path p=P1,P2 的 embedding 是 P1*P2,之前通用的 synonymy scoring function 就是讓 p 和 Pt 的 embedding 相似,再與這個本文提出的 co-occurrence score function,結合起來就是最後的 score function,下圖左邊的就是利用了路徑的同義資訊,即 body(r) 的 predicate embedding path 的乘積應當與 head 的 predicate embedding 相似。

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?

Rule Evaluation 

根據 score function 抽出來的 rule 還要進過篩選,具體做法是先排除掉 support degree 小於 1 的 rule,再過濾掉 standard confidence<minSC 和 head coverage<minHC 的 rule。

實驗

資料集 

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?

本文的關注點是 scalable,所以選取做比較的資料集都是大規模知識庫

實驗結果 

近期知識圖譜頂會論文推薦,你都讀過哪幾篇?

作者與 AMIE+ 在三個規模較大的知識庫上進行了比較,具體做法是隨機選取 20 個 target predicate 進行挖掘,其中 R 是 SC>0.1&HC>0.01 的規則,QC 是 SC>0.7 的規則,結果顯示了 RLvLR 在大規模 KG 上的效率和挖掘規則的能力。

總結

本文提出了一種可以在大規模 KG 上可以以較小計算量進行規則挖掘的模型,減少計算量的方式包括子圖取樣,argument embedding 和 co-occurrence score function。

相關文章