TransH論文翻譯

Ting廷帥發表於2020-12-06

Knowledge Graph Embedding by Translating on Hyperplanes

摘要

研究了將由實體和關係組成的大規模知識圖譜嵌入到連續向量空間中的問題。TransE是最近提出的一種很有前途的方法,其非常高效,同時可以獲得最優的預測效果。我們討論了一些關係的對映屬性,這些屬性在嵌入時應該被考慮,比如自反性、一對多、多對一和多對多。我們注意到,TransE在處理這些屬性方面做得並不好。一些複雜模型能夠保持這些對映屬性,但在處理過程中效率不高。為了在模型效能和效率之間取得良好的平衡,本文提出了TransH,其可以構建關係的超平面並執行翻譯操作。這樣,我們可以很好的保持上面提到的關係對映屬性,且模型複雜度與TransE相似。另外,作為一個實用的知識圖譜,其往往是不完整的,如何在訓練中構造負取樣來減少假負標籤則顯得非常重要。利用一個關係的一對多/多對一對映屬性,我們提出了一個簡單的技巧來降低假負標籤的可能性。我們在標準資料集如WordNet和Freebase上進行了大量的連結預測、三元組分類和事實抽取的實驗。實驗表明,與TransE相比,TransH在預測精度上有顯著的改進,並具有與之相當的擴充套件能力。

引言

知識圖譜,如Freebase (Bollacker et al. 2008)、WordNet (Miller 1995)和GeneOntology
(Ashburner et al. 2000)已經成為支援許多人工智慧相關應用的重要資源,如網路/手機搜尋、問答等。知識圖譜是由實體作為節點,關係作為不同型別的邊組成的多元關係圖。邊的一個例項是事實三元組(頭實體、關係、尾實體)(記為(h, r, t))。過去十年中,在構建大規模知識圖譜方面已經取得了巨大的成就,但是支援計算的一般正規化仍然不清楚。兩大難點是:
(1)知識圖譜是一種符號邏輯系統,其應用往往涉及連續空間的數值計算;
(2)很難在一個圖譜中聚集全域性資訊。
傳統的形式邏輯推理方法在處理大規模知識圖譜的長時間推理時,既不易於操作,也不耐用。最近提出一種新方法來處理該問題,即試圖將知識圖譜嵌入到一個連續向量空間中,同時保持原始圖譜的某些屬性(Socher等, 2013;Bordes等,2013a;Weston等,2013;Bordes等,2011;2013 b;2012;Chang、Yih和Meek 2013)。例如,每個實體h(或t)被表示為向量空間中的一個點h(或t),而每個關係r被建模為空間中的一個操作,該操作以一個向量r為特徵,如翻譯、投影等。實體和關係的表示是通過最小化一個涉及所有實體和關係的全域性損失函式得到的。因此,即使單個實體/關係的嵌入表示也能從整個知識圖譜中編碼全域性資訊。然後,嵌入表示可以用於各種應用程式。其中一個直截了當的應用是補全知識圖中缺失的邊。對於任意候選三元組(h, r, t),我們只需檢查htr所表徵的運算下表示的相容性即可確定其正確性。
通常知識圖譜嵌入將實體表示為k維向量h(或t),並定義一個得分函式*fr*(**h**,**t**)來衡量嵌入空間中三元組(h,r, t)關聯的合理性。得分函式表示以關係r為表徵的實體對之間的轉換r。例如,在基於TransE的翻譯中(Bordes et al. 2013b), fr (ht)= ||**h**+**r**−**t**||*l1/2*,即通過翻譯(向量)r來表徵關係r。不同的得分函式表示的轉換不同,有簡單差異 (Bordes et al. 2012), 翻譯 (Bordes et al. 2013b), 仿射 (Chang, Yih, and Meek 2013), 一般線性 (Bordes et al. 2011), 雙線性 (Jenatton et al. 2012; Sutskever, Tenenbaum, and Salakhutdinov 2009)和非線性變換(Socher et al. 2013). 根據模型的複雜性(以引數數量為依據)變化顯著。(詳情見表1及“有關工作”部分。)


urce://database/499:1)]


在之前的方法中,TransE (Bordes et al. 2013b)是一個很有前途的方法,因為它既簡單又高效,同時達到了最先進的預測效果。然而,我們發現在處理自反/一對多/多對一/多對多對映屬性的關係時,TransE存在缺陷。以前很少討論這些對映屬性在嵌入中的作用。一些具有更多自由引數的高階模型能夠保留這些對映屬性,但是,模型的複雜性和執行時間也因此顯著增加。此外,先進模型的整體預測效果甚至不如TransE (Bordes et al. 2013b)。這促使我們提出了一種能夠很好地平衡模型複雜性和效率的方法,從而在繼承效率的同時克服TransE的缺陷。
本文從分析TransE在自反關係、一對多關係、多對一關係、多對多關係的問題入手。為此,我們提出了一種名為translation on hyperplanes(TransH)的方法,該方法將關係解釋為超平面上的翻譯操作。在TransH中,每個關係由超平面的法向量(**w***r*)和超平面上的翻譯向量(**d***r*)表徵。對於一個正確三元組(h, r, t),它在客觀現實中是正確的,期望ht在超平面上的投影通過翻譯向量dr以低誤差連線起來。這種簡單的方法克服了TransE在處理自反/一對多/多對一/多對多關係時的缺陷,同時模型複雜度與TransE基本相同。關於模型訓練,我們指出,在知識嵌入中認真構建負標籤很重要。通過依次利用關係的對映屬性,我們提出了一個簡單的技巧來降低假負標籤的出現。我們在基準資料集(如WordNet和Freebase)上進行了大量的連結預測、三元組分類和事實抽取的實驗,在不同的預測精度指標上顯示出了顯著性的改進。TransH與TransE的執行時間也相差不大。

相關工作

表1簡要總結了最相關的工作。所有這些方法都將實體嵌入到一個向量空間中,並在一個評分函式下強制嵌入相容。不同的模型對得分函式fr(h,r)的定義不同,即在ht上有一些變化。
TransE(Bordes et al. 2013b) 表示翻譯向量r的關係,因此三元組(h,r,t)中的嵌入實體對可以通過r以低誤差連線。 TransE在達到最新的預測效能的同時非常高效。但是,它在處理自反/一對多/多對一/多對多關係方面存在缺陷。
Unstructured是TransE的簡化情況,該情況將圖譜視為單關係並設定所有的翻譯r = 0,即得分函式為||h-t||。在(Bordes et al.2012; 2013b)中,它被用作單純的基準。顯然,它無法區分不同的關係。
Distant Model (Bordes et al. 2011) 為關係中的實體引入了兩個獨立的投影。它通過左矩陣*Wrh*和右矩陣*Wrt*表示關係。相異性通過WrhhWrtt之間的*L1*距離來衡量。正如(Socher等人,2013年)指出的那樣,該模型在捕獲實體和關係之間的相關性方面很弱,因為它使用了兩個單獨的矩陣。
Bilinear Model (Jenatton et al. 2012; Sutskever, Tenenbaum, and Salakhutdinov 2009) 通過二次形式對實體嵌入之間的二階相關性進行建模:**h** *Wr***t**。因此,一個實體的每個元件都與另一個實體的每個元件進行互動。
Single Layer Model (Socher et al. 2013) 通過神經網路引入了非線性變換。它將ht作為輸入層連線到非線性隱藏層,然後線性輸出層給出結果分數:**u***r* *f*(*Wrh***h** + *Wrt***t** + **b***r*)。 (Collobert and Weston 2008)提出了類似的結構。
NTN (Socher et al. 2013) 是迄今為止最具表現力的模型。它通過考慮將二階相關轉換為非線性變換(神經網路)來擴充套件單層神經網路。得分函式為ur fh W*r*t + Wrhh + Wrtt + br)。 正如作者分析的那樣,即使張量 Wr退化為矩陣,它也涵蓋了上述所有模型。但是,模型複雜度高得多,因此難以處理大規模圖譜。
除了直接針對嵌入知識圖譜的同一問題的這些工作之外,在多元關係資料建模,矩陣分解和建議等更廣泛的領域中還有大量相關作品。請參考(Bordes et al. 2013b)的“簡介”部分。

通過在超平面上翻譯嵌入

首先描述常見的符號。

符號表示
h,r,t頭實體,關係,尾實體
h,r,t頭實體,關係,尾實體的嵌入表示
△,△’正確三元組,錯誤三元組
(h,r,t)∈∆(h,r,t)表述正確
E實體集
R關係集

嵌入中的關係對映屬性

如引言和相關工作(表1)中所述,TransE將關係r建模為翻譯向量**r**∈R*k*,並且假設(h,r,t)為正確三元組時,誤差||**h** + **r**-**t**||*l1 /l2*為低。它適用於非自反和一對一的關係,但是在處理自反或多對一/一對多/多對多的關係時會遇到問題。
考慮到如果(h,r,t)∈∆時h + rt = 0的無誤差嵌入的理想情況,我們可以直接從TransE模型獲得以下結果:

  • 如果(h,r,t)∈∆且(t,r,h)∈∆,即r是自反關係圖,則r = 0h = t
  • 如果∀i ∈ {0, . . . , m},(*hi, r, t*) ∈ ∆, 即, r是多對一關係圖, 則**h**0= . . . = **h**m. 同樣地, 如果 ∀i,(h, r, ti) ∈ ∆,
    即,r是一對多關係圖,則 t0= . . . = tm.

導致上述結果的原因是,在TransE中,當涉及任何關係時,實體的表示形式相同,而當涉及不同的關係時,則忽略實體的分散式表示形式。儘管TransE不強迫h+r-t = 0以得到正確三元組,但它排名損失來激勵低誤差以得到正確三元組,而對於錯誤三元組的誤差更高(Bordes等人,2013b),上述主張的趨勢仍然存在。

在超平面上翻譯(TransH)

為了克服TransE在對自反/一對多/多對一/多對多關係進行建模時遇到的問題,我們提出了一種模型,該模型使實體在涉及不同關係時可以具有分散式表示。如圖1所示,對於關係r,我們將特定關係的翻譯向量dr放置在特定關係的超平面wr(法線向量)中,而不是放置在實體嵌入的相同空間中。具體來說,對於三元組(h,r,t),首先將嵌入ht投影到超平面wr。投影分別表示為h⊥和t⊥。如果(h,r,t)是正確三元組,我們期望h⊥和t⊥可以通過翻譯向量dr連線到超平面,並且誤差很小。因此,我們定義了得分函式||**h**⊥+ **d***r*-**t**⊥||22來衡量錯誤三元組的合理性。通過限制||wr||2=1,很容易得到
在這裡插入圖片描述
得分函式為
在這裡插入圖片描述
正確三元組的得分預計會更低,而錯誤三元組的得分將會更高。我們將此模型命名為TransH。模型引數是所有實體的嵌入在這裡插入圖片描述,所有關係的超平面和翻譯向量在這裡插入圖片描述
在TransH中,通過引入投影到特定關係超平面的機制,它可以使實體在不同的關係/三元組中扮演不同的角色。
在這裡插入圖片描述

訓練

為了激勵區分正確三元組和錯誤三元組,我們使用以下基於邊距的排名損失:
在這裡插入圖片描述

其中在這裡插入圖片描述,∆是正(正確)三元組的集合,在這裡插入圖片描述表示通過破壞(h,r,t)構造的錯誤三元組的集合,γ是分隔正確和錯誤三元組的邊。下一節將介紹構造在這裡插入圖片描述的細節。
當我們最小化損失L時,考慮以下約束:
在這裡插入圖片描述
其中約束(2)保證翻譯向量在這裡插入圖片描述在超平面中。我們沒有通過約束直接優化損失函式,而是通過軟約束將其轉換為以下不受約束的損失:
在這裡插入圖片描述
其中C是權重軟約束重要性的超引數。
我們採用隨機梯度下降(SGD)來最小化上述損失函式。正確三元組集(知識圖譜中的三元組)被隨機遍歷多次。當訪問正確三元組時,將隨機構造一個錯誤三元組(根據下一節)。進行小批量處理後,將計算梯度並更新模型引數。請注意,等式(4)中缺少約束(3)。 相反,為了滿足約束(3),我們在訪問每個小批量之前將每個在這裡插入圖片描述投影到在這裡插入圖片描述中。

減少假負標籤

如上一節所述,訓練涉及為正確三元組構造負三元組。先前的方法只是通過隨機破壞正確三元組來獲取負三元組。例如,在TransE中,對於正確三元組(h,r,t),通過從E中隨機取樣一對實體(h’,t’ )來獲得負三元組(h’,r,t’ )。然而,知識圖譜通常並不完整,這種隨機抽樣的方式可能會在訓練中引入許多假負標籤。
對於TransH,我們採用不同的方法。基本上,當破壞三元組時,我們設定不同的概率以替換頭或尾實體,這取決於關係的對映屬性,即一對多、多對一或多對多。如果關係為一對多,則傾向於更多的替換頭實體,如果關係為多對一,則傾向於更多的替換尾實體。這樣,減少了產生假負標籤的情況。具體而言,在關係r的所有三元組中,我們首先獲得以下兩個統計資訊:
(1)每個頭實體的平均尾實體數,表示為tph
(2)每個尾實體的平均頭實體數,表示為hpt
然後,我們定義引數為在這裡插入圖片描述的伯努利分佈用於取樣:給定關係r的正確三元組(h,r,t),通過替換頭實體(以概率94f601ae11adc42c3b81efeca437af28.png)來破壞三元組,通過替換尾實體(以概率在這裡插入圖片描述)來破壞三元組。

實驗

我們對三個任務進行實證研究和評估相關方法:連結預測(Bordes等,2013b),三元組分類(Socher等,2013)和事實關係抽取(Weston等,2013)。所有這三個任務都從不同的角度和文字資訊上評估了預測不可見三元組的準確性。

連結預測

用於(Bordes et al. 2011; 2013b),此任務是為了補全三元組(h,r,t)中缺失的ht,即給定(h,r)預測t或給定(r,t )預測h。該任務不是要求得到最佳答案,而是著重於對知識圖譜中的一組候選實體集進行排名。
我們使用與TransE中相同的兩個資料集(Bordes等,2011; 2013b):WN18,Wordnet的子集; FB15k,這是Freebase的相對密集子圖,其中所有實體都存在於Wikilinks資料庫中。兩者均釋出於(Bordes等人,2013b)。更多資訊詳見表2。
在這裡插入圖片描述

評估規約

我們遵循與TransE(Bordes et al.2013b)相同的規約:對於每個測試三元組(h,r,t),我們用知識圖譜中的每個實體e替換尾實體t並在錯誤三元組(h,r,e)上計算相異度分數(根據得分函式在這裡插入圖片描述)。將分數按升序排列,得到原始正確三元組的排名。類似地,我們通過破壞頭實體h來獲得(h,r,t)的另一個排名。彙總以上所有測試三元組的測試結果,得到兩個指標:平均排名(表示為Mean)和不大於10的排名比例(表示為Hits @ 10)。此設定稱為“raw”。注意,如果知識圖譜中存在損壞三元組(也是正確三元組),則在原始三元組之前對其進行排序也沒有錯。為了消除該因素,我們在獲取每個測試三元組的排名之前,先刪除那些存在於訓練集,驗證集或測試集中的損壞三元組。此設定稱為“filt”。在兩種設定中,Mean越低越好,而Hits @ 10越高越好。

實現

由於資料集相同,我們直接從中複製了幾個基線的實驗結果(Bordes等人,2013b)。在訓練TransH時,我們在{0.001,0.005,0.01}中選擇SGD的學習率α,在{0.25,0.5,1,2}中選擇裕度γ,在{50,75,100}中選擇嵌入維度k,在{ 0.015625、0.0625、0.25、1.0}中選擇權重C,在{20,75,300,1200,4800}中選擇批量大小B。最優引數由驗證集決定。關於構造負標籤的策略,使用“ unif”來表示以相等概率替換頭部或尾部的傳統方式,並使用“ bern.”表示以不同概率替換頭部或尾部來減少假負標籤。在“ unif”設定下,最優配置為:WN18上:α= 0.01,γ= 1,k = 50,C = 0.25及B = 75;FB15k:α= 0.005,γ= 0.5,k = 50,C = 0.015625及B = 1200。在“ bern”設定下,最優配置為:WN18上:α= 0.01,γ= 1,k = 50,C = 0.25及B = 1200;FB15k:α= 0.005,γ= 0.25,k = 100,C = 1.0和B = 4800。對於這兩個資料集,我們遍歷所有訓練三元組500輪。

結果

結果見表3。就Mean而言,在WN18中,簡單的模型如TransE,TransH甚至是Unstructured的簡單基線(即沒有翻譯的TransE)都優於其他方法。這可能是因為WN18中關係數量很少,因此可以忽略不同型別的關係。在FB15k中,TransH始終優於同類方法。我們假設,與TransE相比,改善是由於寬鬆的幾何假設所致,因此可以更好地處理自反/一對多/多對一/多對多的關係。為了證實這一點,我們對關係的不同對映屬性進行深究,見表4。在1,345個關係中,一對一的比例為24%,一對多的比例為23%,多對一的比例為29%。多對多的比例為24%(對於每個關係r,計算平均每個頭實體對應的尾實體數(在這裡插入圖片描述),平均每個尾實體對應的頭實體數(在這裡插入圖片描述)。如果tphr <1.5並且hptr <1.5,則認為r為一對一。如果tphr≥1.5並且hptr≥1.5,則認為r為多對多。如果hptr <1.5並且tphr≥1.5,則認為r為一對多。如果hptr≥1.5且tphr <1.5,則認為r為多對一)。總體而言,TransE在FB15k中第二好。但是,它在一對多和多對一關係上的相對優勢不及在一對一關係上的相對優勢。 TransH在一對多,多對一和多對多關係上為TransE帶來了可喜的改進。超出我們預期的是,一對一的效能也得到了顯著改善(> 60%)。這可能是由於“圖譜”屬性所致:實體與關係相關聯,因此,更好地嵌入某些部分可以總體上帶來更好的結果。表5顯示出Hits@10在典型的一對多/多對一/多對多/自反關係上的結果。在這些關係上,TransH對TransE的改進非常有效。
在這裡插入圖片描述

三元組分類

該工作是確認給定的三元組(h,r,t)是否正確,即在三元組上進行二進位制分類。 (Socher et al. 2013)使用它來評估NTN模型。
該工作使用三個資料集。其中兩個與NTN中的相同(Socher等,2013):WN11,WordNet的子集; FB13,Freebase的子集。由於WN11和FB13包含的關係數很少,因此我們也使用包含更多關係的FB15k資料集。有關詳細資訊,祥見表2。

評估規約

遵循與NTN相同的規約(Socher等,2013)。分類評估需要負標籤。 WN11和FB13的已釋出集已包含負三元組,這些負三元組由(Socher et al。2013)構造,其中每個正確三元組都被破壞成負三元組。對於FB15k,我們按照(Socher et al. 2013)中用於FB13的相同步驟構造負三元組。
分類規則很簡單:對於三元組(h,r,t),如果相異性得分(通過得分函式fr)低於特定於關係的閾值在這裡插入圖片描述,則預測為正。否則預測為負。根據(最大化)驗證集上的分類準確性確定的特定於關係的閾值σr

實現

對於WN11和FB13,使用相同的資料集,直接複製(Socher et al. 2013)中不同方法的結果。對於未在(Socher et al. 2013)中使用的FB15k,我們自己實現了TransE和TransH,並將使用在NTN上已釋出的程式碼。
對於TransE,我們在{0.001,0.005,0.01,0.1}中選擇學習率α,在{1.0,2.0}中選擇邊距γ,在{20,50,100}中選擇嵌入維度k,在{30,120,480,1920}中選擇批量大小為B。我們還將套用減少假負標籤的技巧到TransE。 TransE的最優配置(bern.)為:α= 0.01,k = 20,γ= 2.0,B = 120L1作為WN11上的相異度指標;α= 0.001,k = 100,γ= 2.0,B = 30L1作為FB13上的相異度指標;,α= 0.005,k = 100,γ= 2.0,B = 480L1作為FB15k上的相異度指標。對於TransH,超引數的搜尋空間與連結預測相同。TransH(bern.)在WN11上的最優超引數為:α= 0.01,k = 100,γ= 2.0,C = 0.25B = 4800; FB13:α= 0.001,k = 100,γ= 0.25,C = 0.0625B = 4800;FB15k:α= 0.01,k = 100,γ= 0.25,C = 0.0625B = 4800。我們沒有在FB113上更改NTN程式碼的配置,其中維數k = 100,切片數等於3。由於FB15k相對較大,我們將週期數限制為500。

結果

準確性見表6。在WN11上,TransH優於所有其他方法。在FB13上,功能強大的NTN模型是最好的模型。但是,在較大的FB15k上,TransE和TransH比NTN更好。注意,當實體的數接近時,FB15k的關係數(1,345)比FB13的關係數(13)大得多(見表2)。這意味著FB13是一個非常密集的子圖譜,其中實體之間存在很強的相關性。在這種情況下,通過張量和非線性變換對實體之間複雜的相關性進行建模有助於嵌入。但是,在FB15k的較稀疏子圖譜中,似乎簡單地假設在超平面上進行翻譯就足夠了,而不必使用複雜的NTN模型。關於執行時間,NTN的耗時比TransE / TransH高得多。另外,在所有三個資料集上,減少假負標籤(“ bern.”的結果)的技巧有助於TransE和TransH。

在NTN中(Socher等人,2013年)還報告了將其與詞嵌入(Mikolov等人,2013年)相結合的結果。但是,如何最好地結合單詞嵌入與模型有關,這也是一個超出了本文範圍之外的開放性問題。為了公開、公正地進行比較,表6中的所有結果均未與詞嵌入結合。
在這裡插入圖片描述

文字關係抽取

從文字中提取關係事實是豐富知識圖譜的重要渠道。大多數現有的提取方法(Mintz等,2009; Riedel、Yao和McCallum,2010; Hoffmann等,2011; Surdeanu等,2012)從外部文字語料庫中為候選事實遠端收集依據,而忽略了知識圖譜本身可以推理新事實。實際上,知識圖譜嵌入能夠對候選事實進行評分,而無需觀察來自外部文字語料庫的任何依據。最近(Weston等,2013)將TransE的得分(知識圖的依據)與文字側提取模型的得分(文字語料庫的依據)相結合,並觀察到了有效的改進。在本實驗中,我們比較了TransH和TransE對改進關係事實提取的貢獻。
該實驗包括兩個主要部分:文字側提取模型和知識圖譜嵌入。

對於文字側,我們使用(Weston等人,2013)中相同的資料集-由(Riedel、Yao和McCallum 2010)釋出的NYT + FB。他們通過使用Stanford NER(Finkel、Grenager和Manning 2005)標記文字中的實體,並通過名稱上的字串匹配將它們連結到Freebase ID,從而使Freebase關係與New York Times語料庫保持一致。我們僅考慮資料集中最受歡迎的50個謂詞,包括負類“ NA”。然後將資料集分為兩部分:一部分用於訓練,另一部分用於測試。對於文字側提取方法,TransE和TransH均可用於為任何文字側方法提供先驗分數。為了與(Weston et al.2013)中報導的TransE進行公開公正的比較,我們與(Weston et al.2013)中使用相同的文字側方法Wsabie M2R,本文稱其為Sm2r

對於知識圖譜嵌入,(Weston等人,2013)使用了Freebase子集,該子集由最受歡迎的4M實體和Freebase所有23k 關係組成。由於他們尚未釋出實驗中使用的子集,因此我們遵循類似的程式從Freebase中生成FB5M子集(表2)。重要的是,我們從FB5M中刪除了測試集中出現的所有實體對,因此泛化測試不是偽造的。由於FB5M的規模,我們沒有全面搜尋就為TransE / TransH選擇引數。為簡單起見,在TransE和TransH中,我們設定嵌入維數k為50,設定SGD的學習率α為0.01,設定邊距γ為1.0,設定TransE的相異度為L2
在這裡插入圖片描述
遵循將知識圖譜嵌入的分數與文字側模型的分數相結合的相同規則,可以獲得TransE和TransH的精確呼叫曲線,如圖2(a)所示。從圖中可以看出,TransH在改進文字側提取方法Sm2r方面是“先進”模型,其效能始終優於TransE。

圖2(a)中的結果取決於將知識圖譜嵌入的得分與文字側模型的得分相結合的特定規則。實際上(Weston et al. 2013)中的合併規則是特別的,其可能不是最佳方法。因此,圖2(a)不能清楚地展示TransE / TransH作為關係事實預測的獨立模型的獨立功能。為了清楚地展示TransE / TransH的獨立功能,我們首先使用文字側模型Sm2r將每個實體對分配給具有最高置信度得分的關係,然後保留那些分配關係不是“ NA”的事實。對於這些可信的候選事實,我們僅使用TransE / TransH的分數進行預測。結果示於圖2(b)。在候選子集上,TransE和TransH的效能均優於文字側模型Sm2r。當召回率高於0.6時,TransH的效能要比TransE好得多。

結論

本文介紹了TransH,一種將知識圖譜嵌入到連續向量空間中的新模型。 TransH在繼承效率的同時克服了TransE關於自反/一對多/多對一/多對多關係的缺陷。對連結預測,三元組分類和關係事實提取工作的大量實驗表明,TransH為TransE帶來了可喜的改進。本文提出的減少假負標籤的技巧也被證明是有效的。

參考文獻

Ashburner, M.; Ball, C. A.; Blake, J. A.; Botstein, D.; But-ler, H.; Cherry, J. M.; Davis, A. P .; Dolinski, K.; Dwight,S. S.; Eppig, J. T.; et al. 2000. Gene ontology: Tool for theunification of biology. Nature genetics 25(1):25–29.
Bollacker, K.; Evans, C.; Paritosh, P .; Sturge, T.; and Taylor,J. 2008. Freebase: A collaboratively created graph databasefor structuring human knowledge. In Proceedings of the 2008 ACM SIGMOD International Conference on Management of Data, 1247–1250. ACM.
Bordes, A.; Weston, J.; Collobert, R.; and Bengio, Y . 2011. Learning structured embeddings of knowledge bases. In Proceedings of the 25th AAAI Conference on Artificial Intelligence.
Bordes, A.; Glorot, X.; Weston, J.; and Bengio, Y . 2012. A semantic matching energy function for learning with multirelational data. Machine Learning 1–27.
Bordes, A.; Usunier, N.; Garcia-Duran, A.; Weston, J.; and Y akhnenko, O. 2013a. Irreflexive and hierarchical relations as translations. arXiv preprint arXiv:1304.7158. Bordes, A.; Usunier, N.; Garcia-Duran, A.; Weston, J.; and
Yakhnenko, O. 2013b. Translating embeddings for modeling multi-relational data. In Advances in Neural Information Processing Systems 26. Curran Associates, Inc. 2787–2795.
Chang, K.-W.; Yih, W.-t.; and Meek, C. 2013. Multrelational latent semantic analysis. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, 1602–1612. Seattle, Washington, USA:Association for Computational Linguistics.
Collobert, R., and Weston, J. 2008. A unified architecture for natural language processing: Deep neural networks with multitask learning. In Proceedings of the 25th Annual International Conference on Machine Learning (ICML 2008), 160–167. Omnipress.
Finkel, J. R.; Grenager, T.; and Manning, C. 2005. Incorporating non-local information into information extraction systems by gibbs sampling. In Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, 363–370. Association for Computational Linguistics.
Hoffmann, R.; Zhang, C.; Ling, X.; Zettlemoyer, L. S.; and Weld, D. S. 2011. Knowledge-based weak supervision for information extraction of overlapping relations. In Proceedings of the 49th Annual Meeting on Association for Computational Linguistics, 541–550. Association for Computational Linguistics.
Jenatton, R.; Roux, N. L.; Bordes, A.; and Obozinski, G. R. 2012. A latent factor model for highly multi-relational data. In Advances in Neural Information Processing Systems 25. Curran Associates, Inc. 3167–3175.
Mikolov, T.; Sutskever, I.; Chen, K.; Corrado, G. S.; and Dean, J. 2013. Distributed representations of words and phrases and their compositionality. In Advances in Neural Information Processing Systems 26. Curran Associates, Inc. 3111–3119.
Miller, G. A. 1995. Wordnet: A lexical database for english. Communications of the ACM 38(11):39–41.
Mintz, M.; Bills, S.; Snow, R.; and Jurafsky, D. 2009. Distant supervision for relation extraction without labeled data. In Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2-V olume 2, 1003–1011. Association for Computational Linguistics.
Nickel, M.; Tresp, V .; and Kriegel, H.-P . 2011. A threeway model for collective learning on multi-relational data. In Proceedings of the 28th International Conference on Machine Learning (ICML-11), ICML ’11, 809–816. New Y ork,NY , USA: ACM.
Riedel, S.; Y ao, L.; and McCallum, A. 2010. Modeling relations and their mentions without labeled text. In Machine Learning and Knowledge Discovery in Databases. Springer.148–163.
Socher, R.; Chen, D.; Manning, C. D.; and Ng, A. 2013. Reasoning with neural tensor networks for knowledge base completion. In Advances in Neural Information Processing Systems 26. Curran Associates, Inc. 926–934.
Surdeanu, M.; Tibshirani, J.; Nallapati, R.; and Manning, C. D. 2012. Multi-instance multi-label learning for relation extraction. In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 455–465. As-
sociation for Computational Linguistics.
Sutskever, I.; Tenenbaum, J. B.; and Salakhutdinov, R. 2009. Modelling relational data using bayesian clustered tensor factorization. In Advances in Neural Information Processing Systems 22. Curran Associates, Inc. 1821–1828.
Weston, J.; Bordes, A.; Y akhnenko, O.; and Usunier, N. 2013. Connecting language and knowledge bases with embedding models for relation extraction. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, 1366–1371. Seattle, Washington, USA:
Association for Computational Linguistics.

僅用作學習筆記,翻譯如有錯誤,歡迎指正。

相關文章