謝斌紅,李玉,趙紅燕. 基於無監督整合聚類的開放關係抽取方法. 中文資訊學報. 2022, 36(5): 49-58
相關工作
- 關係抽取(RE)旨在從純文字中抽取兩個實體之間的關係,並以三元組形式進行描述。
- 傳統的關係抽取方法主要是有監督的分類模型,需要一組預定義的關係標籤和大量的標註資料。
- 遠端監督是一種廣泛採用的減少人工標註的方法,透過在語料庫和知識庫之間對齊實體來自動生成關係標籤,然而,遠端監督仍然侷限於知識庫中的已知關係,無法有效獲取文字中蘊含的新型關係。
- 目前的OpenRE方法大致可以分為三類:基於序列標註的方法、基於Bootstrapping的方法和基於聚類的方法。
(1)基於序列的方法側重於尋找關係mention,即直接從無監督或監督正規化的句子中提取由單片語成的關係短語。由於表達方式的多樣性,同一種關係型別通常會被提取多個過於具體的關係短語。
(2)基於Bootstrapping的方法,用一小組種子例項快速適應新的關係,對於開放式關係增長是可擴充套件的,但迭代過程中容易出現語義漂移現象,且在發現一定量的關係例項後很難繼續挖掘。
(3)基於聚類的方法透過對從句子中提取的關係表示進行聚類,從而自動形成關係種類,具有發現高度可區分的關係型別的優勢。
本文提出的方法:無監督整合聚類UEC
- UEC主要由兩個模組組成:關係編碼模組和整合聚類模組。
- 關係編碼模組使用卷積梯形網路(CLN)提取句子的上下文關係特徵,它將句子的嵌入表示作為輸入,學習預測實體之間所表達的關係。
- 整合聚類模組採用整合模型投票的方式聚類無標註句子,並應用規則選擇出高置信度句子為其標記偽標籤,基於聚類結果的偽標籤被視為半監督訓練所需的監督資訊,進一步指導關係編碼模組更好地進行上下文關係特徵學習和關係分類。
- UEC的結構圖如圖1所示:
(1)在整個資料集上對整合模型中的每個卷積梯形網路Mj獨立地進行無監督預訓練。
(2)透過整合模型的投票對句子間的關係相似性建模,構建關係相似圖。
(3)對關係相似圖進行剪支,獲得k 個高置信度關係簇。
(4)為關係簇中的句子分配偽標籤,生成偽標記樣本。
(5)使用無標記樣本和偽標記樣本執行半監督聚類過程。迭代進行第二步至第五步,生成最終的關係叢集。
關係編碼模組
- 關係編碼模組旨在透過提取句子中給定實體之間的上下文特徵並對其關係進行預測,本文使用卷積梯形網路(CLN),包括嵌入層、兩個編碼器和一個解碼器。
- 嵌入層:使用預訓練的bert模型對句子進行編碼,得到基於上下文的詞嵌入表示。同時將句子中實體對的位置轉換為隨機初始化的位置嵌入,用於表徵句子中某個單詞與兩個實體之間的相對距離。直覺上關係可以關聯到某些型別的實體,所以實體型別資訊也可以為關係發現提供很強的歸納偏差。
- 輸入:句子S={w1,w2,...wq},其中q為句子最大長度。
- 輸出:Sw是詞嵌入表示,Sp是實體位置嵌入,St是實體型別嵌入,d是詞嵌入維度,c是實體位置嵌入維度,t是實體型別嵌入維度。
- 編碼器:CLN包括兩個編碼元件,加噪編碼器和乾淨編碼器。其中加噪編碼器的每一層施加了隨機高斯噪聲,透過學習重構疊加噪聲的輸入句子,可防止編碼器只簡單地保留原始輸入的資訊,從而使編碼器學習到的句子特徵更具魯棒性,提高網路的泛化能力。兩個編碼器結構相同,都由卷積層、池化層、全連線層以及分類層組成。
- 解碼器:句子經過加噪編碼器編碼得到帶噪的隱層表示之後,各層得到的特徵向量透過跳躍連線對映到對應的解碼層,解碼器對其進行逐層降噪解碼。由於加噪編碼器的所有層都被噪聲破壞,另一個具有共享引數的乾淨編碼器負責提供乾淨的重構目標,輔助解碼器進行無監督訓練,以達到對有噪資料的最佳對映效果。(最小化二者的均方誤差)
- 無監督關係預測:在常規梯形網路的重構損失基礎上增加互資訊損失,使CLN對錶達相似的句子給出相似的關係類別預測,並在總體上最大化關係預測的多樣性,從而使不同關係的句子擁有不同的預測結果。
整合聚類模組
- 整合聚類模組旨在將句子聚成k個語義上有意義的關係簇,從而發現潛在的關係型別。該模組使用CLN的整合模式對無標註句子進行聚類,以達到比單個網路決策更高的可靠性。
- 具體來說:對於一對輸入句子,首先利用CLN整合模型M分別預測它們的關係類別。然後遍歷整個資料集,根據預測結果構造一個具有n個節點的關係相似圖G。其中,n是資料集的大小,G中的節點代表每個輸入句子的嵌入表示U,Epos和Eneg是節點之間的兩種邊,由M中的CLN投票決定。
當M中的大多數CLN對輸入的句子對的關係預測達成一致時,在其對應的節點之間新增強正邊Epos。
當M中的大多數CLN對輸入的句子對的關係預測不一致時,在其對應的節點之間新增強負邊Eneg。
- 每個由強正邊組成的子圖就是一個叢集,在一個叢集內,節點對應的句子高置信度地屬於同一關係類別。
自啟動的偽半監督聚類
- 透過整合聚類模組提取出屬於每個類的高置信度樣本之後,將這些樣本視為偽標記樣本,對整合模型迭代執行半監督訓練,進一步提高聚類效能。由於使用了半監督學習思想,而未使用真正的標記資料,因此稱為“偽半監督”。