論文閱讀：基於無監督整合聚類的開放關係抽取方法

Barn發表於2024-05-13

謝斌紅,李玉,趙紅燕. 基於無監督整合聚類的開放關係抽取方法. 中文資訊學報. 2022, 36(5): 49-58

本文提出的方法：無監督整合聚類UEC

UEC主要由兩個模組組成：關係編碼模組和整合聚類模組。
關係編碼模組使用卷積梯形網路（CLN）提取句子的上下文關係特徵，它將句子的嵌入表示作為輸入，學習預測實體之間所表達的關係。
整合聚類模組採用整合模型投票的方式聚類無標註句子，並應用規則選擇出高置信度句子為其標記偽標籤，基於聚類結果的偽標籤被視為半監督訓練所需的監督資訊,進一步指導關係編碼模組更好地進行上下文關係特徵學習和關係分類。
UEC的結構圖如圖1所示：

(1)在整個資料集上對整合模型中的每個卷積梯形網路Mj獨立地進行無監督預訓練。
(2)透過整合模型的投票對句子間的關係相似性建模,構建關係相似圖。
(3)對關係相似圖進行剪支,獲得k 個高置信度關係簇。
(4)為關係簇中的句子分配偽標籤,生成偽標記樣本。
(5)使用無標記樣本和偽標記樣本執行半監督聚類過程。迭代進行第二步至第五步,生成最終的關係叢集。

關係編碼模組

關係編碼模組旨在透過提取句子中給定實體之間的上下文特徵並對其關係進行預測，本文使用卷積梯形網路（CLN），包括嵌入層、兩個編碼器和一個解碼器。
嵌入層：使用預訓練的bert模型對句子進行編碼，得到基於上下文的詞嵌入表示。同時將句子中實體對的位置轉換為隨機初始化的位置嵌入,用於表徵句子中某個單詞與兩個實體之間的相對距離。直覺上關係可以關聯到某些型別的實體，所以實體型別資訊也可以為關係發現提供很強的歸納偏差。

輸入：句子S={w1,w2,...wq}，其中q為句子最大長度。

輸出：Sw是詞嵌入表示，Sp是實體位置嵌入，St是實體型別嵌入，d是詞嵌入維度，c是實體位置嵌入維度，t是實體型別嵌入維度。

編碼器：CLN包括兩個編碼元件，加噪編碼器和乾淨編碼器。其中加噪編碼器的每一層施加了隨機高斯噪聲,透過學習重構疊加噪聲的輸入句子,可防止編碼器只簡單地保留原始輸入的資訊,從而使編碼器學習到的句子特徵更具魯棒性,提高網路的泛化能力。兩個編碼器結構相同,都由卷積層、池化層、全連線層以及分類層組成。
解碼器：句子經過加噪編碼器編碼得到帶噪的隱層表示之後,各層得到的特徵向量透過跳躍連線對映到對應的解碼層,解碼器對其進行逐層降噪解碼。由於加噪編碼器的所有層都被噪聲破壞,另一個具有共享引數的乾淨編碼器負責提供乾淨的重構目標,輔助解碼器進行無監督訓練,以達到對有噪資料的最佳對映效果。（最小化二者的均方誤差）
無監督關係預測：在常規梯形網路的重構損失基礎上增加互資訊損失，使CLN對錶達相似的句子給出相似的關係類別預測，並在總體上最大化關係預測的多樣性，從而使不同關係的句子擁有不同的預測結果。

整合聚類模組

整合聚類模組旨在將句子聚成k個語義上有意義的關係簇,從而發現潛在的關係型別。該模組使用CLN的整合模式對無標註句子進行聚類，以達到比單個網路決策更高的可靠性。
具體來說：對於一對輸入句子，首先利用CLN整合模型M分別預測它們的關係類別。然後遍歷整個資料集，根據預測結果構造一個具有n個節點的關係相似圖G。其中，n是資料集的大小，G中的節點代表每個輸入句子的嵌入表示U，Epos和Eneg是節點之間的兩種邊，由M中的CLN投票決定。

當M中的大多數CLN對輸入的句子對的關係預測達成一致時,在其對應的節點之間新增強正邊Epos。
當M中的大多數CLN對輸入的句子對的關係預測不一致時,在其對應的節點之間新增強負邊Eneg。

每個由強正邊組成的子圖就是一個叢集,在一個叢集內,節點對應的句子高置信度地屬於同一關係類別。

自啟動的偽半監督聚類

透過整合聚類模組提取出屬於每個類的高置信度樣本之後,將這些樣本視為偽標記樣本,對整合模型迭代執行半監督訓練,進一步提高聚類效能。由於使用了半監督學習思想,而未使用真正的標記資料,因此稱為“偽半監督”。

基於attention的半監督GCN | 論文分享
2019-03-05
GC
論文閱讀：雙路注意力引導圖卷積網路的關係抽取
2024-05-16
卷積
經典論文復現 | 基於標註策略的實體和關係聯合抽取
2018-11-27
基於標註策略的實體和關係聯合抽取 | 經典論文復現
2019-02-15
【論文筆記-16~】多語言關係抽取
2024-04-30
筆記
一文簡述多種無監督聚類演算法的Python實現
2018-05-22
聚類演算法Python
【無監督學習】2：DBSCAN聚類演算法原理
2018-04-09
聚類演算法
InfoGAN：一種無監督生成方法 | 經典論文復現
2018-10-29
EMNLP 2021 | LayoutReader：基於ReadingBank的閱讀序列抽取模型
2021-11-13
模型
基於路徑的實體圖關係抽取模型
2018-09-18
模型
人工智慧論文解讀精選 | PRGC：一種新的聯合關係抽取模型
2021-12-26
人工智慧GC模型
2019 ICCV收錄論文：基於弱監督學習的病理影像分析框架
2019-10-23
框架
ACL 2019開源論文 | 基於Attention的知識圖譜關係預測
2019-11-15
閱讀論文的方法和技巧（快速且有效）
2023-05-12
AAAI 2019 | 基於分層強化學習的關係抽取
2019-03-28
AI強化學習
論文閱讀：SiameseFC
2018-04-09
論文閱讀20241117
2024-11-22
GeoChat論文閱讀
2024-10-29
ICML 2021 | 基於裝配的影片無監督部件分割
2022-07-18
[資訊抽取]基於ERNIE3.0的多對多資訊抽取演算法：屬性關係抽取
2022-12-03
演算法
基於自編碼器的表徵學習：如何攻克半監督和無監督學習？
2018-12-22
【論文研讀】通過deep representation learning軌跡聚類
2018-12-19
聚類
阿里DMR論文閱讀
2024-04-29
阿里
[論文閱讀] Hector Mapping
2020-12-16
APP
並行多工學習論文閱讀（五）：論文閱讀總結
2021-11-12
並行
【論文解讀】【半監督學習】【Google教你水論文】A Simple Semi-Supervised Learning Framework for Object Detection
2020-12-01
GoFrameworkObject
AAAI 2019 論文解讀 | 基於區域分解整合的目標檢測
2019-03-04
AI
基於句子嵌入的無監督文字摘要（附程式碼實現）
2020-02-04
自監督、半監督和有監督全涵蓋，四篇論文遍歷對比學習的研究進展
2020-09-15
自監督影像論文復現 | BYOL（pytorch）| 2020
2021-01-30
PyTorch
XGBoost論文閱讀及其原理
2018-05-13
Q-REG論文閱讀
2023-10-04
MapReduce 論文閱讀筆記
2020-06-24
筆記
「DNN for YouTube Recommendations」- 論文閱讀
2020-02-19
DNN
G-FRNet論文閱讀
2020-10-11
AutoEmbedding論文閱讀筆記
2023-03-29
筆記
論文閱讀——Deformable Convolutional Networks
2020-12-25
ORM
【2020論文閱讀】11月
2020-11-27

論文閱讀：基於無監督整合聚類的開放關係抽取方法

謝斌紅,李玉,趙紅燕. 基於無監督整合聚類的開放關係抽取方法. 中文資訊學報. 2022, 36(5): 49-58

相關工作

本文提出的方法：無監督整合聚類UEC

關係編碼模組

整合聚類模組

自啟動的偽半監督聚類

相關文章