在這篇伊利諾伊大學、南加州大學與上海交大合作的 WSDM 2018 論文中,研究人員提出了一個全新框架:ReQuest,它可以藉助問答資料作為實體關係提取的一個間接監督源,這種方法可以用於減少從知識庫中產生監督資訊而伴隨產生的噪聲,為關係提取任務提供間接,有效的訓練資料。ReQuest 框架可以將隱藏於問答資料 (以及使用者反饋資訊) 內的關於實體關係的知識遷移到實體關係抽取任務上,提升資訊抽取系統的效能。
關係提取是一項重要的任務,通過將非結構化文字資料轉換成關係元組作進一步分析,它可以被用於理解大量的文字語料。例如,它可以檢測到一句話中的實體「Donald Trump」和「United States」之間的關係是「president_of」。這種資訊可以被用於下行文字分析任務中(例如,作為資訊提取和知識庫(KB)補全的前置步驟,以及輔助問答系統)。
在這篇論文中,為了解決遠監督關係提取中存在的問題,我們研究了從外部資料使用間接監督進行關係提取的問題。因此研究提出了一個新的框架--ReQuest。
首先,ReQuest 構造了一個表徵異構圖來表達三種不同的物件:關係提述(relation mentions)、文字特徵(text features),以及由知識庫連結做好標籤的關係提取訓練資料的關係型別(relation types)。其次,ReQuest 構造了為問答資料集構建了第二個表徵實體提述對(entity mention pairs)以及特徵的異構圖,其中實體提述對包括問題和答案實體提述對(question and answer mention pairs)。這兩個圖通過特徵重疊結合成了一個單獨的圖。我們構造了一個全域性目標函式來將這個圖嵌入到一個低維空間中。在這個空間中,關係型別語義聯絡密切的關係提取物件也具有相似的表徵,同一個問題下由正面實體(問,答)提述對和連結的問答物件也具有相似的表徵。特別地,我們設計了一個新型的邊際損失(margin-based loss)來給問答對的相似度進行建模,並且通過共享特徵,將這種資訊傳遞到特徵和關係類別表徵中去。
總結一下,這篇論文的主要貢獻如下:
(1)我們提出了一種新型的思想,為關係提取任務從問答資料集中應用間接監督,以幫助消除遠監督中的噪聲。
(2)我們設計了一個新穎的聯合優化架構—ReQuest,來在特定域的語料中提取型別化的關係。
(3)在兩個公開的關係提取(RE)資料集上結合 TREC QA 的實驗證明 ReQuest 能夠顯著地提升目前最先進的關係提取系統的效能。
論文:Indirect Supervision for Relation Extraction using Question-Answer Pairs
論文連結:https://arxiv.org/abs/1710.11169
摘要:為了以更加有效的方式解釋大量文字語料,對感興趣的型別進行自動關係提取(automatic relation extraction)是很重要的。傳統的 RE(relation extraction)模型在訓練的時候嚴重依賴於人工標註的資料,人工生產標籤資料的成本是很高的,而且人工標籤會成為處理多種型別關係時的障礙。因此,更多的關係提取系統轉向建立在基於通過和知識庫連結自動獲取的訓練資料(遠監督方法)。然而,因為知識庫的不完整和語境不可知的自動標籤的原因,通過遠監督(distant supervision)得到的訓練資料含有很多噪聲。在最近幾年,解決問答任務越來越受關注,這類任務的使用者反饋和資料集都容易獲得了。在這篇論文中,我們提出了一個新穎的框架 ReQuest 來利用問答對(QA pairs)作為關係提取的一個間接監督源,還研究瞭如何使用這種監督來減少從知識庫中產生的噪聲。我們的模型將關係提述、型別、問答實體提述對以及文字特徵聯合地嵌入到了兩個低維空間中(關係提取和問答),在這個低維空間中,具有相同關係型別或者語義相似的問答對會擁有相似的表徵,共享的特徵將這兩個空間連線起來,從兩個源中傳遞更加清晰的語義知識。然後 ReQuest 使用這些學習到的向量去估計測試集的關係提述(relation mentions)的型別。我們構造了一個全域性目標函式,採用一個新型的邊際問答損失指標,通過利用問答資料集中的語義特徵去降低知識庫所產生的噪聲。結合兩個公開的關係提取資料集 TERC QA 資料集,我們的實驗結果在 F1 score 上達到了 11% 的提升。
3. 方法
框架概覽
我們提出了一個基於 embedding 的間接監督框架(如圖 2 所示):
(1)給每一個關係提述或者問答實體提述對生成文字特徵,然後將四種物件結合起來構造一個異構圖,四種物件分別是:關係提取語料中的關係提述,問答語料中的實體提述對,以統一的形式對前面提到的資訊進行編碼的目標關係型別和文字特徵(section 3.1)。
(2)將關係提述、問答對、文字特徵和型別標籤聯合起來嵌入到一個通過共享特徵連線在一起的低維空間中,在這個低維空間中關係密切的物件傾向於共享相同的型別或者問題(section 3.2)。
(3)通過搜尋目標型別集合 R,為學習到的向量中的每一個關係提述 z 估計型別標籤 r ∗(section 3.3)。
圖 2. 框架全貌
圖 3. 由於自動生成的訓練語料中存在噪聲,學習到的向量和關係型別之間的聯絡可能受到錯誤標籤的樣本的影響。然而,問答通過逐個互動的思想有潛力從問答語料中重疊的特徵裡引入額外的語義細節的方法來矯正這種錯誤。
表 1:論文中用於關係提述的文字特徵(基於解析的依存句法特徵和實體型別特徵)。(「Donald Trump」,「United States」)就是一個示例的關係提述,對應的源句子是:「NYC native Donald Trump is the current President of the United States」。
ReQuest 學習的具體過程可以在 Algorithm 1 中看到:
4. 實驗
為了測試我們提出的框架 ReQuest 的有效性,我們把它關係提取任務中用到的其他方法做了比較。精準度、召回率、F1 score 以及模型的學習時間都在兩個資料集上做了對比,如表 6 所示。
表 6: 在兩個資料集上進行端對端關係提取效能對比(ReQuest 的 F1 score 最高)。
圖 4:問答資料集的 F1 score 處理結果。
P_NP-N_NP:正的問答名詞短語對+反的問答名詞短語對; P_NP-N_NER:正的問答名詞短語對+反的問答命名實體對;DepPath:將問答語句轉換成 依存句法樹上的最短路徑;NFromP:從正和反的答句取樣反問答對。
任翔,南加州大學(USC)助理教授(曾赴史丹佛大學作訪問學者,伊利諾伊大學(UIUC)博士,Google PhD Fellow),2018 年計劃招收 2-3 名博士生和數名訪問學者。主要研究方向:Machine learning and NLP methods for mining structured knowledge from massive, unstructured data。主要研究問題:非結構化資料上的知識獲取 (資訊抽取,知識表示與推理,知識圖譜構建和應用, 問答系統)。專注方法:weakly-/noisily-supervised methods for sequence modeling, structured prediction, text generation, graph embedding/generation; dual learning and reinforcement learning。感興趣的同學請 email:xiangren@usc.edu (mailto:xiangren@usc.edu)