EMNLP 2018
■ 論文解讀 | 張良,東南大學博士,研究方向為知識圖譜、自然語言處理
本文主要關注 KG embedding 中三元組成立的時間有效性問題,比如三元組(Cristiano Ronaldo, playsFor, Manchester United),其成立的有效時間段是 2003 年到 2009 年,這個使三元組有效成立的時間段被稱為 temporal scopes。
這些 temporal scopes 隨著時間的推移對許多資料集會產生影響(比如 YAGO,Wikidata),現有的 KG embedding 方法很少考慮到時間這一維度,因為它們假設所有的三元組總是永遠正確的,可是現實中很多情況下不是這樣。
本文提出了 HyTE 模型,HyTE 不僅能夠利用時間導向進行知識圖譜圖推理,還能夠為那些缺失時間註釋的事實預測 temporal scopes。實驗結果表明該模型與傳統模型或者同類模型相比都有著突出的表現。
研究背景
知識圖譜嵌入(Knowledge graph embedding)方法是將知識圖譜中的實體和關係表示成連續稠密低維實值向量,從而可以通過向量來高效計算實體與關係的語義聯絡。從 2013 年 TransE 的提出,到後來一系列的衍生模型,比如 TransH,TransD,TransR,DKRL, TKRL, RESCAL, HOLE 等等,都是對 TransE 模型的擴充套件。
這些模型都沒有考慮時間維度,一直將知識圖譜當做靜態來處理,這顯然不符合事實。資料的暴漲與更新表明知識圖譜本來就是動態的,所以後來有工作將時間資訊考慮進去,但只是將時間序列作為 KG embedding 過程中的約束,沒有明顯地體現時間的特性。為此,本文提出的 HyTE 模型直接在學習的過程中結合時間資訊。
論文模型
本文認為不僅是知識圖譜中的實體可能會隨著時間改變,實體間的關係也是如此。由於 TransE 模型不能處理多關係的情形,而 TransH 模型能夠使實體在不同的關係下擁有不同的表示,所以本文受 TransH 的啟發提出了一個基於超平面的時間感知知識圖譜嵌入模型。
考慮一個四元組 (h,r,t,[τs, τe]),這裡的 τs 和 τe 分別定義了三元組成立時間段的起始與截止。TransE 模型將實體和關係考慮到相同的語義空間,但是在不同的時間段,實體與關係組成的(h,r)可能會對應到不同的尾實體 t。
所以在本文的模型中,希望實體能夠隨不同的時間點有著不同的表示。為了達到這一目的,文中將時間表示成超平面(hyperplane),模型示意圖如下:
eh,et,er,分別表示三元組中頭實體,尾實體以及關係所對應的向量表示,τ1 和 τ2 分別表示此三元組有效成立時間段的起始時間與截止時間。eh(τ1), er(τ1) 以及表示各向量在時間超平面 τ1 上的投影,最終,模型通過最小化翻譯距離來完成結合時間的實體與關係 embedding 學習過程。
實驗
當實驗資料包含兩部分:YAGO11k 和 Wikidata12k,這兩個資料集抽取了 YAGO 以及 Wikidata 中帶有時間註釋(time annotations)的部分。通過 Link prediction 以及 Temporal scoping 兩個實驗任務與其它模型比較,實驗結果如下:
實體預測結果
關係預測結果
Temporal Scoping預測結果(越小越好)
實驗結果表明,HyTE 模型在相關任務上與其它模型相比有較為顯著的提升。
EMNLP 2018
■ 論文解讀 | 王樑,浙江大學碩士,研究方向為知識圖譜、自然語言處理
研究背景
機器閱讀任務按照答案型別的不同,可以大致分為:
分類問題:從所有候選實體選擇一個;
Answer Span:答案是輸入文字的一個片段;
生成式問題:模型生成一句話回答問題。
不同的資料集文件的差異也較大。如 SQuAD,CNN/DM 資料集來源於百科,新聞等文字,問題型別多為事實型,因而回答問題不需要綜合全文多處進行綜合推理,只需要包含答案的句子即可。而本文實驗所用的資料集如 NarrativeQA 則來源於小說等,回答問題需要綜合全文多處不相連片段進行推理,因此難度更大。
本文提出在 NarrativeQA 等需要多跳推理的文字進行生成式問題回答的模型。人工抽樣資料集樣本分析發現,許多樣本答案的推理單憑文字包含的資訊是無法完成推理並回答的,需要引入外部知識庫中的常識資訊。本文提出在常規的機器閱讀模型中引入 ConceptNet 中的常識資訊。
Baseline模型
按照機器閱讀模型的一般性結構,Baseline 模型可以分為 4 層:
1. Embedding Layer:問題和文件裡的每個詞用預訓練的詞向量和 ELMo 向量表示;
2. Reasoning Layer:重複執行 K 次推理單元,推理單元的內部結構是 BiDAF 模型的 attention 層;
3. Model Layer:最後再對文件的表示做 self-attention 和 Bi-LSTM;
4. Answer Layer:pointer-generator decoder,即 RNN 的每一步同時對詞表和輸入計算輸出概率,每個詞在當前位置被輸出的概率為其在詞表中被選中的概率和其在輸入中被 copy 的概率之和。
改進模型:引入外部常識
常識挑選
對每一個樣本,需要中外部 KG 中選擇與之相關的多跳路徑,做法如下:
1. 在 KG 中找出多跳路徑,其中包含的實體出現在樣本的問題或文件中;
2. 對這些路徑中的實體節點按照出現次數或 PMI 打分;
3. 類似 beam search,從所有路徑生成的輸出中挑選出得分最高的一些路徑,這些路徑是對該樣本可能有幫助的外部常識資訊。
模型引入常識
引入外部常識通過修改 Reasoning Layer 中的基本單元。具體做法是,每條路徑的 embedding 表示為其每個節點的文字 embedding 的簡單拼接,修改後的 Reasoning Cell 在經過 BiDAF 的 attention 結構後,再對該樣本的所有外部常識三元組路徑做 attention 計算,該 attention 計算再次更改文件和問題中每個詞的表示。
實驗結果
對比 Baseline 模型和引入外部常識的模型可見,引入外部常識能是模型在 BLEU 和 Rouge 等指標上取得不錯的提升。
對模型做 ablation test,可以發現推理層的推理次數如果為 1,模型效果下降很多,這表明模型確實在利用多跳的路徑資訊。另外,ELMo embedding,以及經過 Reasoning 層後的 self-attention,都對模型的效果提升較大。
ISWC 2018
■ 論文解讀 | 丁基偉,南京大學博士生,研究方向為知識圖譜、知識庫問答
研究背景
面向知識庫的語義問答是指將使用者的自然語言問句轉換為可以在知識庫上執行的形式化查詢並獲取答案,其面臨的挑戰主要有以下幾點:1)實體的識別和連結;2)關係的識別和連結;3)查詢意圖識別;4)形式化查詢生成。
其中實體連結和關係連結是指將自然語言問句中的詞彙(或短語)連結到知識庫中對應的實體或關係。大多數現有問答系統依次或並行執行實體連結和關係連結步驟,而本工作將這兩個步驟合併,提出了基於廣義旅行商問題和基於連線密度相關特徵進行機器學習的兩種聯合連結方法。
下表展示了不同種類的連結方法的優缺點:
框架及方法
上圖展示了本文提出的聯合的實體關係連結框架(EARL,Entity and Relation Linking),主要包括如下兩個步驟:
預處理步驟(左側紅框),包括如下三個子過程:
1. 利用 SENNA 系統從輸入的自然語言問句中抽取出若干關鍵詞短語。對於圖中輸入的問句,這裡抽取到的關鍵詞短語是<founder,Tesla, SpaceX, born>。
2. 對於每個關鍵詞,使用基於字元嵌入(character embedding)的 LSTM 網路判斷它是知識庫中的關係還是實體。對於上個過程中的關鍵詞短語,這一步將“founder”和“born”識別為關係, 將“Tesla”和“SpaceX”識別為實體。
3. 為每個關鍵詞短語生成候選實體或關係列表。對於問句中的實體名,利用預先收集的 URI-label 詞典,以及 Wikidata 中的實體別名、sameas 關係等進行生成。對於關係詞,利用 Oxford Dictionary API 和 fastText 擴充套件知識庫上的關係名後進行關聯。
聯合消歧步驟(右側黃框),主要包括本文提出的兩個核心方法:
1. 基於廣義旅行商問題(GTSP)的消歧方法。如下圖所示,該方法將每個關鍵詞的候選 URI 放入同一個簇。邊的權重被設定為兩個 URI 在知識庫上的距離(hop 數),而聯合消歧過程被建模為在該圖上尋找一條遍歷每個簇的邊權總和最小的路(頭尾結點可以不同)。
對於 GTSP 問題的求解,本工作先將其轉換為 TSP 問題,後使用 Lin-Kernighan-Helsgaun 近似演算法進行求解。圖中加粗的邊表示該示例的求解結果。
2. 基於連線密度相關特徵進行機器學習的消歧方法。對於每個關鍵詞的所有候選 URI,分別抽取特徵 Ri(候選列表中的排序位置),C(2 步以內可達的其他關鍵詞的候選 URI 的數量),H(到其他關鍵詞的候選 URI 的平均步數)三個特徵,採用 XGBoost 分類器篩選最合適的候選。
下表總結了上述兩個消歧方法的差異:
3. 額外的,本文提出了一種自適應實體/屬性預測方法。如果消歧後某個實體/關係和它最終連結到的 URI 的置信度低於閾值,則可能預處理步驟的第二個子過程(實體/關係預測)有錯誤。在這種情況下,該工作會更改該關鍵詞的實體/關係標籤,重新執行候選生成和消歧步驟,從而獲得整體精度的提升。
實驗
本文選用了 LC-QuAD 問答資料集進行實驗,包含 5000 個問句。其標準答案(實體/關係對應的 URI)採用人工標註的方法進行生成。除此以外本文還選用了現有的 QALD-7 問句集進行測試。
實驗結果如下表所示,和對比方法相比,EARL 在 MRR 值上有較大提升。
實體連結結果:
關係連結結果:
IJCAI 2018
■ 解讀 | 譚亦鳴,東南大學博士,研究方向為知識圖譜問答、自然語言處理
論文動機
近年來,隨著多語言知識圖譜嵌入(Multilingual KG Embedding)的研究,實體的潛在語義表示以及跨語言知識推理等任務均取得一定成效,因此也推動了許多知識驅動的跨語言工作。然而,受限於各語言知識圖譜之間較低的實體對齊(Entity Alignment)程度,跨語言推理的準確性往往不夠令人滿意。
考慮到多語言知識圖譜中具有對實體的文字性描述,文章提出一種基於嵌入(Embedding)的策略:通過利用圖譜中實體的文字描述,對僅包含弱對齊(KG 中的 inter-language links,ILLs)的多語圖譜做半監督的跨語言知識推理。
為了有效利用圖譜知識以及實體的文字描述,文章提出通過協同訓練(Co-train)兩個模組從而構建模型 KDCoE:多語言知識嵌入模組和多語言實體描述嵌入模組。
文章貢獻如下:
1. 提出了一種半監督學習方法 KDCoE,協同訓練了多語知識圖譜嵌入和多語實體描述嵌入用於跨語言知識對齊;
2. 證明 KDCoE 在 Zero-shot 實體對齊以及跨語言知識圖譜補全(Cross-lingual KG Completion)任務上的有效性;
論文方法
多語言知識圖譜嵌入(KGEM)
由知識模型(Knowledge Model)和對齊模型(Alignment Model)兩個部分構成,分別從不同角度學習結構化知識。
知識模型:用於保留各語言知識嵌入空間中的實體和關係。文章採用了傳統的 TransE 方法構建知識模型,並認為這種方法有利於在跨語言任務重中保持實體表示的統一性,且不會受到不同關係上下文帶來的影響。其對應的目標損失函式如下:
其中,L 表示某種語言,(Li,Lj) 表示一組語言對,GL 表示語言 L 對應的知識圖譜,反映的是圖譜中三元組 (h,r,t) 之間的相異度,r 是一個 positive margin,[x]+ 則表示取 x 的正值部分,表示一組伯努利負取樣三元組,用於替換圖譜三元組中的 h 和 t。
對齊模型:用於在不同語言的嵌入空間中獲取跨語言關聯。為了將不同語言間的知識關聯起來,文章參照 MTransE 中的線性轉換策略,其目標函式如下:
其中 (e, e') 是一組已知的對齊實體,當知識嵌入向量的維度為 k1 時,Mij 是一個的線性轉換矩陣,用於將 Li 語言的實體向量轉換為 Lj 語言。這裡與 MTransE 方法不同的是,文章僅計算了跨語言實體嵌入而非三元組整體嵌入。
KGEM 的目標函式:
其中,α 是一個正超引數。
多語言實體描述嵌入(DEM)
DEM 過程包含兩個部分:編碼和跨語言嵌入。
編碼:文章使用 Attentive Gated Recurrent Unit encoder, AGRU 對多語言實體描述進行編碼,可以理解為帶有 self-attention 的 GRU 迴圈網路編碼器。
文章希望利用 self-attention 機制使得編碼器能夠凸顯實體描述句子中的關鍵資訊,AGRU 中的 self-attention 可以定義為以下公式:
其中,ut 是由 GRU 中 st 產生的隱藏表示,attention 權值 at 則是由一個 softmax 函式計算得到,反映的是單詞 xt 對於序列 X 的重要性,而後依據此權重與隱藏表示可以得到 self-attention 的輸出 vt,|X|(輸入序列的長度)用於防止 vt 失去原有的規模。
在這個部分,作者也嘗試了其他的編碼框架,包括單層網路,CNN,ALSTM 等等,但 AGRU 取得了最好的效能。
跨語言嵌入部分:為了更好的反映出多語言實體描述的詞級別語義資訊,文章使用跨語言詞嵌入方法用於衡量和找出不同語言間的相似詞彙。大致流程可描述如下:
首先,使用跨語言平行語料 Europarl V7 以及 Wikipedia 中的單語語料,對 cross-lingualBilbowa [Gouws et al., 2015] word embeddings 進行預訓練。而後使用上述 embeddings 將實體描述文字轉換為向量序列,再輸入進編碼器中。
DEM 學習目標:文章建立的編碼器由兩個堆疊的 AGRU 層構成,用於建模兩種語言的實體描述。該編碼器將實體描述序列作為輸入,而後由第二層輸出生成的 embedding。而後,文章引入了一個 affine 層,將上述各種語言的 embedding 結果投影到一個通用空間中,其投影過程由以下公式描述:
DEM 的目標是最大化各個實體描述 embedding 與對應的其他語言版本之間的 log 相似度,故可以將目標函式描述如下:
迭代Co-training的KDCoE模型
文章利用 KG 中存在的少量 ILLs 通過迭代的協同過程訓練 KGEM 和 DEM 兩個模組,過程大致描述如下:
每次迭代中,各模組都進行一系列“訓練-生成”的過程:
1)首先利用已有的 ILLs 對模型進行訓練;2)之後利用訓練得到的模型從 KG 中預測得到以前未出現過的新 ILLs;3)而後將這些結果整合到已有 ILLs 中,作為下一輪迭代的訓練資料;4)判斷是否滿足終止條件:本輪迭代中各模組不再生成新的 ILLs。
其演算法細節描述如下圖:
實驗
實驗相關細節
實驗資料說明:文章實驗資料來自 DBPedia 中抽取的子集 WK3160k,由英法德三語構成,其中每種語言資料中包含了 54k-65k 規模的實體。具體統計資訊如下表:
文章分別在跨語言實體對齊,Zero-shot 對齊以及跨語言知識圖譜補全等三個任務上進行實驗。
其中,跨語言實體對齊選用的基線系統包括:LM,CCA,OT,ITransE 以及 MTransE 的三種策略;Zero-shot 對齊的基線系統為:Single-layer 網路,CNN,GRU,AGRU 的兩種策略;知識圖譜補全的基線系統為 TransE。
實驗結果
跨語言實體對齊:如下圖所示,文章設定了三組評價指標,分別為:accuracy Hit@1;proportion of ranks no larger than 10 Hit@10;mean reciprocal rank MRR。
從結果上看,KDCoE 模型的效能遠優於其他系統,且隨著 Co-train 的迭代次數增加,系統的效能也都有較為明顯的提升。
Zero-shot 對齊:Zero-shot 採用的評價指標與跨語言實體對齊相同,下圖反映了 KDCoE 在 Zero-shot 對齊任務中的實驗結果。
從實驗結果上看,KDCoE 的效果依然是隨著迭代次數的增加而上升,但從第一次迭代的結果可以發現,其優勢的來源基礎是 AGRU。這也反映出 AGRU 在編碼上相對其他網路模型體現出了更優效能。
跨語言知識補全:在跨語言知識補全任務中,文章採用 proportion of ranks no larger than 10 Hit@10;mean reciprocal rank MRR 等兩個評價指標。
根據 KDCoE-mono 的表現,可以推斷,該模型成功繼承了 TranE 保持結構化知識中實體和關係的穩定性。而 KDCoE-corss 則反映引入跨語言資訊確實對知識補全的效果起到了明顯提升。
總結
本文提出了一種基於 embedding 技術的跨語言知識對齊方法,通過引入 Co-train 機制,將 KG 中的關係上下文與實體描述資訊有效的利用起來,以現有 KG 中的小規模 ILLs 為基礎建立半監督機制,在跨語言實體對齊,知識補全上都起到了明顯的效果。
IJCAI 2018
■ 論文解讀 | 花雲程,東南大學博士,研究方向為知識圖譜問答、自然語言處理
論文動機
在以前的工作中,對話生成的資訊源是文字與對話記錄。但是這樣一來,如果遇到 OOV 的詞,模型往往難以生成合適的、有資訊量的回覆,而會產生一些低質的、模稜兩可的回覆。
為了解決這個問題,有一些利用常識知識圖譜生成對話的模型被陸續提出。當使用常識性知識圖譜時,由於具備背景知識,模型更加可能理解使用者的輸入,這樣就能生成更加合適的回覆。但是,這些結合了文字、對話記錄、常識知識圖譜的方法,往往只使用了單一三元組,而忽略了一個子圖的整體語義,會導致得到的資訊不夠豐富。
為了解決這些問題,文章提出了一種基於常識知識圖譜的對話模型(commonsense knowledge aware conversational model,CCM)來理解對話,並且產生資訊豐富且合適的回覆。
本文提出的方法,利用了大規模的常識性知識圖譜。首先是理解使用者請求,找到可能相關的知識圖譜子圖;再利用靜態圖注意力(static graph attention)機制,結合子圖來理解使用者請求;最後使用動態圖注意力(dynamic graph attention)機制來讀取子圖,併產生合適的回覆。
通過這樣的方法,本文提出的模型可以生成合適的、有豐富資訊的對話,提高對話系統的質量。
論文貢獻
本文貢獻如下:
1. 首次嘗試使用大規模常識性知識圖譜來處理對話生成問題;
2. 對知識圖譜子圖,提出了靜態/動態圖注意力機制來吸收常識知識,利於理解使用者請求與生成對話。
論文方法
Encoder-Decoder模型
經典的 Encoder-Decoder 模型是基於 Seq2Seq 的。Encoder 模型將使用者輸入(user post)X 用隱狀態 H 來表示,而 Decoder 模型使用另一個 GRU 來迴圈生成每一個階段的隱狀態。
其中 Ct 是上下文向量,通過注意力機制按步生成。最終,Decoder 模型根據概率分佈生成了輸出狀態,併產生每一步的輸出 token。
模型框架
如下圖 1 所示為本文提出的 CCM 模型框架。
▲ 圖1. CCM模型框架
如圖 1 所示,基於 n 個詞輸入,會輸出 n 個詞作為回覆,模型的目的就是預估這麼一個概率分佈:
也就是將圖資訊 G 加入到概率分佈的計算中。
在資訊讀取時,根據每個輸入的詞 x,找到常識知識圖譜中對應的子圖(若沒有對應的子圖,則會生成一個特殊的圖 Not_A_Fact),每個子圖又包含若干三元組。在資訊讀取時,詞向量與這個詞對應的子圖向量拼接,而子圖向量是由採用靜態圖注意力機制生成的。
當生成回覆時,採用動態圖注意力機制來引用圖資訊,即讀取每個字對應的子圖和子圖中的實體,並且在生成當前回覆時,通過概率計算應該是生成通用詞還是這個子圖中的相關實體。
知識編譯模組
如圖 2 所示,為如何利用圖資訊編譯 post 的示意圖。
▲ 圖2. 知識編譯模組
如圖所示,當編譯到“rays”時,會把這個詞在知識圖譜中相關的子圖得到(圖 2 最上的黃色高亮部分),並生成子圖的向量。每一個子圖都包含了 key entity(即這裡的 rays),以及這個“rays”的鄰居實體和相連關係。
對於詞“of”,由於無法找到對應的子圖,所以就採用特殊子圖 Not_A_Fact 來編譯。之後,採用基於靜態注意力機制,CCM 會將子圖對映為向量 gi,然後把詞向量 w(x_t) 和 gi 拼接為 e(xt)=[w(xt); gi],並將這個 e(xt) 替換傳統 encoder-decoder 中的 e(xt) 進行 GRU 計算。
對於靜態圖注意力機制,CCM 是將子圖中所有的三元組都考慮進來,而不是隻計算一個三元組,這也是該模型的一個創新點。當得到子圖時,且這個子圖由三元組 K 表示, K(gi)={k1,k2,…,k(NG)}。在計算時,就是將當前三元組的頭實體與尾實體向量通過矩陣變換後相加,再經過正切啟用函式後,與經過矩陣變換的關係進行點積,得到一個值。
而將這個詞向量與所有三元組進行計算後,再經過 softmax,就得到了一個權重。把子圖中所有頭實體、尾實體按對相加,再基於權重計算加權和,就得到了圖向量 gi。
知識生成模組
如下圖 3 所示,為如何利用圖資訊生成回覆的示意圖。
▲ 圖3. 知識生成模組
在生成時,不同於靜態圖注意力機制,模型會讀取所有相關的子圖,而不是當前詞對應的子圖,而在讀取時,讀取注意力最大的就是圖中粉色高亮的部分。生成時,會根據計算結果,來選擇是生成通用字(generic word)還是子圖中的實體。
在進行 decoder 時,公式改為,而是指將生成的詞向量,以及這個詞來自的三元組向量進行拼接(如果生成的是一個通用詞,那麼三元組就是 Not_A_Fact)。
在這裡,可以看到 GRU 的輸入多了兩個向量(來自於表示圖資訊的向量)和(表示三元組資訊的向量)。
對於動態圖注意力機制,是一種層次型的計算,即 CCM 先根據 post 相關的所有知識圖譜子圖來計算一個向量,再根據子圖中的三元組再計算一個向量。對於上個階段的隱狀態輸出 st,最終的是圖向量 gi 的加權和。
然後,對於每個子圖中的三元組 kj,CCM 又計算了一次注意力,最終的是 kj 的加權和,權重為對應圖 gi 的注意力權重與三元組 kj 的注意力權重之積。
最終,每一個 step 的輸出,是根據 st 來選擇一個通用詞或者子圖中的實體。
損失函式
損失函式為預期輸出與實際輸出的交叉熵,除此之外,為了監控選擇通用詞還是實體的概率,又增加了一個交叉熵。公式如下:
其中 γt 就是選擇的概率,而就是一個 Boolean 值,表示在實際輸出 Y 中是選擇了通用詞還是實體。
實驗
實驗相關細節
常識性知識圖譜選用了 ConceptNet,對話資料集選用了 reddit 的一千萬條資料集,如果一個 post-response 不能以一個三元組表示(一個實體出現於 post,另一個出現於 response),就將這個資料去除。然後對剩下的對話資料,根據 post 的詞的出現頻數,分為四類。
基線系統選擇瞭如下三個:只從對話資料中生成 response 的 Seq2seq 模型、儲存了以 TransE 形式表示知識圖譜的 MemNet 模型、從三元組中 copy 一個詞或生成通用詞的 CopyNet。
在選用 metric 的時候,採用了刻畫回覆內容是否語法正確且貼近主題的 perplexity,以及有多少個知識圖譜實體被生成的 entity score。
實驗結果
如下圖 4 所示,為根據 perplexity 和 entity score 進行的效能比較,可見 CCM 的 perplexity 最低,且選取 entity 的數量最多。並且,在低頻詞時,選用的 entity 更多。這表示在訓練時比較罕見的詞(實體)會需要更多的背景知識來生成答覆。
▲ 圖4. CCM與基線系統對比結果
另外,作者還採用眾包的方式,來人為稽核 response 的質量,並採用了兩種度量值 appropriateness(內容是否語法正確,是否與主題相關,是否有邏輯)與 informativeness(內容是否提供了 post 之外的新資訊)。如下圖 5 所示,為基於眾包的效能比較結果。
▲ 圖5. CCM與基線系統基於眾包的對比結果
從圖 5 中可見,CCM 對於三個基線系統來說,都有將近 60% 的回覆是更優的。並且,在 OOV 的資料集上,CCM 比 seq2seq 高出很多,這是由於 CCM 對於這些低頻詞或未登入詞,可以用知識圖譜去補全,而 seq2seq 沒有這樣的知識來源。
在 case study 中,當在 post 中遇到未登入詞“breakable”時,seq2seq 和 MemNet 都只能輸出一些通用的、模稜兩可的、毫無資訊量的回覆。CopyNet 能夠利用知識圖譜輸出一些東西,但是並不合適。而 CCM 卻可以輸出一個合理的回覆。
總結
本文提出了一種結合知識圖譜資訊的 encoder-decoder 方法,引入靜態/動態圖注意力機制有效地改善了對話系統中 response 的質量。通過自動的和基於眾包的形式進行效能對比,CCM 模型都是優於基線系統的。
COLING 2018
■ 論文解讀 | 譚亦鳴,東南大學博士,研究方向為知識圖譜問答、自然語言處理
知識庫問答研究旨在利用結構化事實回答自然語言問題,在網路中,簡單問題佔據了相當大的比例。本文提出在完成模式抽取和實體連結後,構建一個模式修正機制,從而緩解錯誤積累問題。
為了學習對“subject-predicate”(問題的實體-謂詞)候選集的排序,本文提出將關係檢測機制用於強化聯合事實選擇,多級別編碼和多維資訊將被用於強化整個模型過程。實驗結果表明,本方法展現出非常強大的效能。
研究背景
簡單知識庫問答,指的是問答中僅需用到知識庫中的一個事實即可給出答案的過程。其流程和可以描述為:從自然語言問句中識別實體,謂詞,並與知識庫中的內容構成完整三元組的過程。
簡單知識庫問答目前存在的主要挑戰包括:
1. 同一單詞(詞語)在不同句子中的意義不同;
2. 不同的自然語言表達方式具有相同的含義;
3. 如何利用大規模知識庫中的大量事實資訊。
論文模型
在簡單問答中,首先要做的是實體連結,常規的實體連結方法包括 n-gram 匹配,序列標註等等,但是這兩個方法都有可能導致錯誤積累,從而無法找到準確的“實體-謂詞”對。
考慮到這些問題,本文首先使用模式抽取和實體連結,將可能的實體描述和問題模式提取出來,而後減少知識庫中的候選實體數量。
在模式抽取過程中,作者發現由於模型效能問題,抽取結果中存在一定比例的較差模式。為了應對這個情況,文章提出新增模式修正機制以提升模式抽取的質量。
下一步工作就是找出最可能生成問題答案的“實體-謂詞”對,對於這個問題,前人的工作中主要考慮使用問題模式與候選實體資訊來選擇合適的謂詞。本文則引入了關係檢測機制進行改進,其效果體現在限定了知識庫中問題表達對應的謂詞,從而引導候選實體的重排序。
當問題所問實體在知識庫中存在大量不同型別的重名實體時,先做關係推理或者實體連結都有可能引發無召回問題。對此,本文的策略是採用聯合事實篩選,通過利用實體的名稱資訊和類別資訊從不同角度描述實體。
在確定謂詞方面,作者採用唯一關係名與分散詞資訊作為限定條件。
▲ 本文問答模型的示意圖
同時為了準確保留原始問句的內容,本文將字元級別與詞級別的編碼結果進行合併,用於表達原始問句。
▲ 本文編碼策略的示意圖
實驗
本文實驗使用的資料集為 SimpleQuestions benchmark 提供的問答資料集,其中的每個問題都可以由 freebase 中的一個三元組回答。
資料集分為三個部分:訓練集規模為75910,驗證集為10845,測試集為21687。
知識庫則是從 freebase 中抽取的子集 FB2M (2,150,604entities, 6,701 predicates, 14,180,937 atomic fact triples,FB5M (4,904,397entities, 7,523 predicates, 22,441,880 atomic fact triples)。
實驗評價指標為準確率,僅當問題對應的事實與模型得到的實體和謂詞兩者都匹配時,才算準確匹配。
從實驗結果上看,本文方法相對過去的工作,取得了非常明顯的提升。