大規模知識庫中的隨機遊走推理和學習

vjvj110發表於2022-05-10

我們考慮在包含不完整知識且覆蓋不完整的大規模知識庫中執行學習和推理的問題。我們表明,基於知識庫圖的約束、加權、隨機遊走組合的軟推理程式可用於可靠地推斷知識庫的新信念。更具體地說,我們展示了系統可以通過使用路徑排名演算法的一個版本(Lao 和 Cohen,2010b)調整與沿著圖中不同路徑的隨機遊走相關的權重來學習推斷不同的目標關係。我們將這種方法應用於由 NELL(一個永無止境的語言學習者)從網路中不完美地提取的大約 500,000 個信念的知識庫(Carlson 等,2010)。這個新系統比 NELL 早期的 Horn-clause 學習和推理方法有了顯著改進:它在 100 級時獲得了近一倍的精度,並且新的學習方法也適用於更多的推理任務。

引言

儘管最近有大量關於從文字中提取知識的研究(Agichtein 和 Gravano,2000;Etzioni 等,2005;Snow 等,2006;Pantel 和 Pennacchiotti,2006;Banko 等,2007;Yates 等al., 2007),在從這種不完全提取的知識中得出可靠推論的問題上取得的進展要少得多。特別是,傳統的邏輯推理方法太脆弱,無法用於從自動提取的知識中進行復雜的推理,而概率推理方法 (Richardson and Domingos, 2006) 存在可擴充套件性問題。本文考慮了構建可以擴充套件到大知識庫並且對不完美知識具有魯棒性的推理方法的問題。我們考慮的 KB 是一個大的三元組儲存,它可以表示為一個帶標籤的有向圖,其中每個實體 x x x 是一個節點,每個二元關係 R ( x , y ) R(x, y) R(x,y) 是 x x x 和 y y y 之間標記為 R R R 的邊,以及一元概念 C ( x ) C(x) C(x) 表示為實體 x x x 的節點和概念 C C C 的節點之間標記為“isa”的邊。我們提出了一種可訓練的推理方法,該方法通過結合不同隨機遊走的結果來學習推斷關係圖,並表明該方法在包含超過 500,000 個由 NELL 系統從網路中提取的三元組的知識庫中實現了良好的縮放特性和穩健的推理(Carlson 等人,2010 年)。

NELL 案例研究

為了通過實驗評估我們的方法,我們在 NELL(永無止境的語言學習)研究專案的背景下進行研究,該專案旨在開發一個多年來每天 24 小時執行的永無止境的學習系統,以不斷提高其閱讀(從中提取結構化事實)網路的能力(Carlson 等人,2010 年)。 NELL 於 2010 年 1 月開始運營。截至 2011 年 3 月,NELL 已經建立了一個包含數百萬個候選信念的知識庫,這些信念是從網路中以不同的信心提取的。 其中,NELL對大約50萬左右的信心相當高,我們稱之為NELL的(自信)信念。 NELL 對數百萬其他人的信心較低,我們將其稱為候選信念。

NELL 作為輸入給出一個本體,該本體定義了數百個類別(例如,人、飲料、運動員、運動)和這些類別之間的兩位型別關係(例如, a t h e l e t e P l a y s S p o r t ( < a t h l e t e > , < s p o r t > ) ) atheletePlaysSport(<athlete>, <sport>)) atheletePlaysSport(<athlete>,<sport>)),它必須學習從網路中提取。它還提供了一組 10 到 20 個每個此類和關係的正面種子示例,以及從 ClueWeb2009 語料庫(Callan 和 Hoy,2009 年)下載的 5 億個網頁集合作為未標記資料,以及對 100,000 個查詢的訪問每天訪問 Google 的搜尋引擎。每天,NELL 有兩項任務:(1) 從網路中提取額外的信念,以填充其不斷增長的知識庫 (KB) 及其本體中的類別和關係的例項,以及 (2) 學習今天比昨天更好地執行任務 1。。我們可以通過允許它今天考慮與昨天相同的文字文件來衡量它的學習能力,並記錄它今天是否比昨天更準確地提取了更多信念。

NELL 使用大規模半監督多工學習演算法,該演算法將 1500 多種不同分類器的訓練和提取方法相結合(參見(Carlson 等,2010))。 儘管 NELL 的學習方法的許多細節不是本文的核心,但應該注意兩點。 首先,NELL 是一個多策略學習系統,具有從資料的不同“檢視”中學習的元件(Blum 和 Mitchell,1998):對於

例如,一個檢視使用潛在實體名稱的正字法特徵(例如“包含大寫單詞”),而另一個檢視使用可找到名詞短語的自由文字上下文(例如,“X 經常跟隨雙字詞 ‘mayor of’”) . 其次,NELL 是一個引導系統,它會根據其不斷增長的自信信念進行自我訓練。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31495967/viewspace-2893159/,如需轉載,請註明出處,否則將追究法律責任。

相關文章