關於遠端監督，我們來推薦幾篇值得讀的論文

PaperWeekly發表於2017-08-18

原創 2017-08-18 PaperWeekly PaperWeekly

說起關係抽取，就不得不提遠端監督（distant supervision），將已有的知識庫（比如 freebase）對應到豐富的非結構化資料中（比如新聞文字），從而生成大量的訓練資料，從而訓練出一個效果不錯的關係抽取器。提到遠端監督，下面的這篇工作就不得不提：

[1] Distant supervision for relation extraction without labeled data

本文並非第一篇提出遠端監督概念的 paper，但是第一個將遠端監督概念應用到關係抽取任務中，並且提出了一個著名的假設。

If two entities have a relationship in a known knowledge base, then all sentences that mention these two entities will express that relationship in some way.

這個假設非常的大，其實很多的共現 entities 都沒有什麼關係，僅僅是出現在同一個句子中；而有的 entities 之間的關係其實並不僅僅只有一種，可能有多種，比如奧巴馬和美國的關係，可能是 born in，也可能是 is the president of 的關係。

基於這個假設條件下的關係抽取工作通常都存在兩個明顯的弱點：

1. 基於文獻 [1] 給出的假設，訓練集會產生大量的 wrong labels，比如兩個實體有多種關係或者根本在這句話中沒有任何關係，這樣的訓練資料會對關係抽取器產生影響。

2. NLP 工具帶來的誤差，比如 NER，比如 Parsing 等，越多的 feature engineering 就會帶來越多的誤差，在整個任務的 pipeline 上會產生誤差的傳播和積累，從而影響後續關係抽取的精度。

關於問題（1）中 wrong labels 的問題，有的工作將關係抽取定義為一個 Multi-instance Multi-label 學習問題，比如工作 Multi-instance Multi-label Learning for Relation Extraction ，訓練集中的每個 instance 都可能是一種 label。

而有的工作則是將問題定義為 Multi-instance Single-label 問題，假設共現的 entity 對之間只存在一種關係或者沒有關係，一組包括同一對 entities 的 instances 定義為一個 Bag，每一個 Bag 具有一個 label，最終訓練的目標是最佳化 Bag Label 的準確率。第一種假設更加接近於實際情況，研究難度也相對更大一些。

關於問題（2）中的 pipeline 問題，用深度學習的思路來替代特徵工程是一個非常自然的想法，用 word embedding 來表示句子中的 entity 和 word，用 RNN 或者 CNN 以及各種 RNN 和 CNN 的變種模型來對句子進行建模，將訓練句子表示成一個 sentence vector，然後進行關係分類，近幾年有幾個工作都是類似的思路，比如：

[3] Relation Classification via Convolutional Deep Neural Network

[4] Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks

[5] Neural Relation Extraction with Selective Attention over Instances

[6] Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Descriptions

其中 [3] 是用 CNN 對句子進行建模然後進行分類學習，在表示中針對 entity 的位置定義了一種 position embedding，如圖 1：

關於遠端監督，我們來推薦幾篇值得讀的論文

▲ 圖1：用 CNN 來建模句子

[4] 是 [3] 的改進工作，對 CNN 的 pooling 進行了專門的改進，如圖 2：

關於遠端監督，我們來推薦幾篇值得讀的論文

▲ 圖2：PCNN 是文獻 [3] 中 CNN 的改進版

[5] 的工作是在 [4] 的基礎上採用了 attention 模型，對每個 Bag 中的 instance 進行了權重的學習，label 正確的 instance 貢獻更多的力量，label 不正確的 instance 貢獻就低，從而提高了分類的準確率，如圖 3：

關於遠端監督，我們來推薦幾篇值得讀的論文

▲ 圖3：基於 attention 的關係分類模型

[6] 是在 [4] [5] 的基礎上新增了 entity 的描述資訊來輔助學習 entity 的表示，從而提高了準確率，如圖 4：

關於遠端監督，我們來推薦幾篇值得讀的論文

▲ 圖 4：利用了 entity 的輔助資訊來提升效果

用深度學習來進行解決特徵表示的問題效果非常明顯，但解決 pipeline 誤差傳播和積累的問題，其實有一個天然的思路就是 joint learning，將多個 step 的學習整合為同一個 task，從而降低中間過程的誤差。近幾年有以下幾個工作可以關注一下：

[7] Modeling Joint Entity and Relation Extraction with Table Representation

[8] CoType: Joint Extraction of Typed Entities and Relations with Knowledge Bases

[9] Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme

[7] 的工作和 [9] 的工作有一些類似的地方，都是將整個任務轉化為一種序列標註任務，用自定義的標籤重新定義了句子的實體和關係。[9] 的工作是 ACL 2017 的 outstanding paper，用了近幾年流行的 seq2seq 來生成和推理標籤，效果會比傳統的 crf 等演算法更好。

關於遠端監督，我們來推薦幾篇值得讀的論文

▲ 圖5：文獻 [7] 的標註方法

關於遠端監督，我們來推薦幾篇值得讀的論文

▲ 圖 6：文獻 [9] 的標註方法

[8] 的工作是將 entity 和 relation 分別對映在兩個向量空間中，然後聯合起來對 entity 和 relaiton 進行推理。如圖 7：

關於遠端監督，我們來推薦幾篇值得讀的論文

▲ 圖7：CoType 模型圖

關係抽取是一類經典的 NLP 任務，也是構建高質量知識圖譜的基礎，針對關係抽取的研究工作非常多，遠端監督是研究中的熱點方法，本文收集了一些代表性的工作，即將上線的 PaperWeekly 社群將會推出一個【論文集】的功能，社群使用者可以根據自己感興趣的 topic，收集相關的 paper，我們也會不定期地放出更多精彩的 topic related 的 paper，每篇 paper 都會有使用者的筆記、討論、論文相關的資料集和開原始碼，敬請期待！

參考文獻：

[1] Distant supervision for relation extraction without labeled data

[2] Multi-instance Multi-label Learning for Relation Extraction

[3] Relation Classification via Convolutional Deep Neural Network

[4] Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks

[5] Neural Relation Extraction with Selective Attention over Instances

[6] Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Descriptions

[7] Modeling Joint Entity and Relation Extraction with Table Representation

[8] CoType: Joint Extraction of Typed Entities and Relations with Knowledge Bases

[9] Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme

近期必讀的12篇「推薦系統」相關論文
2019-03-07
本週有哪些值得讀的論文？15篇良心推薦瞭解一下
2018-09-12
論文閱讀：基於無監督整合聚類的開放關係抽取方法
2024-05-13
聚類
「推薦系統」領域近期有哪些值得讀的論文？|每週論文清單
2018-01-26
基於attention的半監督GCN | 論文分享
2019-03-05
GC
近期知識圖譜頂會論文推薦，你都讀過哪幾篇？
2018-12-12
近期值得讀的10篇GAN進展論文
2019-01-03
自監督、半監督和有監督全涵蓋，四篇論文遍歷對比學習的研究進展
2020-09-15
清華 NLP 團隊推薦：必讀的77篇機器閱讀理解論文
2018-11-01
有什麼比較好用的遠端軟體值得推薦？
2020-02-21
【讀論文】 -- 推薦系統研究綜述
2024-04-10
近期有哪些值得讀的QA論文？| 專題論文解讀
2018-06-05
推薦一篇關於java集合的博文，寫的很nice
2015-09-09
Java
機器學習推薦的論文和文章
2014-10-23
機器學習
推薦系統公平性論文閱讀(二)
2021-10-07
推薦系統公平性論文閱讀(三)
2021-10-07
推薦系統公平性論文閱讀(四)
2021-10-08
推薦系統公平性論文閱讀(六)
2021-10-08
推薦系統論文之序列推薦：KERL
2021-05-17
遠端連線軟體有哪些，遠端連線軟體有哪些值得推薦，如何使用？
2020-05-18
值得推薦的SSH終端工具：SecureCRT for Mac
2022-07-18
SecurecrtMac
英偉達又火了一篇影像轉換論文，我們竟然用來吸貓
2019-05-10
幾款好用又不貴的BI工具值得推薦！
2023-03-07
開源節流系列之態度篇–論‘我們’薦
2008-11-21
關於讀寫論文的那些神網站
2020-10-29
網站
ICLR 2021投稿中值得一讀的NLP相關論文
2020-11-10
ICLR
【論文解讀】【半監督學習】【Google教你水論文】A Simple Semi-Supervised Learning Framework for Object Detection
2020-12-01
GoFrameworkObject
值得關注的開源軟體推薦
2018-04-12
給小夥伴們推薦幾個用來學習的公眾號
2017-02-23
（讀論文）推薦系統之ctr預估-DeepFM模型解析
2019-07-25
模型
解讀2016年最值得讀的三篇NLP論文 + 線上Chat實錄
2017-03-25
「每週CV論文推薦」初學GAN必須要讀的文章
2019-09-10
抱歉我們今天想介紹的這篇論文，剛剛中了CVPR 2018最佳論文
2018-06-20
推薦幾個 bootstrap 後端模板
2018-08-28
boot後端
最近看了幾篇關於閘道器和PD分離的論文，分享下個人想法
2024-11-10
強烈推薦|值得收藏的幾個圖片網站
2018-10-22
網站
讀論文-序列感知推薦系統(Sequence-Aware Recommender Systems)
2024-04-11
關於遠端教育平臺開發的幾點建議
2020-09-07

關於遠端監督，我們來推薦幾篇值得讀的論文

相關文章