論文名稱:Multi-Input Multi-Output Sequence Labeling for Joint Extraction of Fact and Condition Tuples from Scientific Text
下載連結:https://www.aclweb.org/anthology/D19-1029/
專案網站:
https://twjiang.github.io/MIMO_CFE/
專案原始碼:
https://github.com/twjiang/MIMO_CFE
作者主頁:
http://ir.hit.edu.cn/~twjiang/
條件在科學陳述中至關重要:如果沒有精確指定的條件(例如,裝置,環境),則科學陳述中的事實(例如,科學觀察)的正確性可能無法被檢驗。現有的面向科學領域的資訊抽取方法(Science IE)旨在從科學文字中提取事實元組,但卻忽略考慮條件(元組)的抽取。在這項工作中,我們提出了一個新的序列標註框架以及一個新的標註模式,利用其從語句中同時提取事實和條件元組。如圖1所示,該框架擁有兩個核心模組:用於將多種型別的訊號以序列形式輸入到模型的多輸入模組(Multi-Input);用於生成一個或多個元組的多輸出模組(Multi-Output)。在資料集BioNLP2013上相對提高了4.2個百分點,在我們新構建的專門用於事實、條件元組提取的生物醫藥文字資料集(BioCFE)上提高了6.2個百分點。
環境和裝置等條件為事實提供了驗證依據,而事實則側重於科學文獻中的科學觀察和假設[1]。現有的Science IE 方法從科學文字中提取(主語,關係短語,賓語)元組,但不能區分事實和條件的作用。簡單地直接新增元組分類模組有兩個缺點:(1)一個元組在不同的句子中可能具有不同的角色;(2)一句話中的元組彼此之間具有高度依賴性,例如,給定一句來自生物化學文獻中的宣告:
我們觀察到 …… 鹼性pH增加Jurkat T細胞中TRPV5/V6通道的活性。
現有開放關係抽取系統[3]將返回一個元組,如下所示:
(鹼性 pH,增加,Jurkat T細胞中TRPV5/V6通道的活性)
其中(a)賓語應只是“TRPV5/V6通道的活性”,並且(b)沒有找到條件元組(TRPV5/V6通道,在……中,Jurkat T細胞)。我們發現術語“TRPV5/V6通道的活性”不僅是事實元組的賓語概念,而且還是條件元組的主語概念。
在這項工作中,我們將聯合元組提取任務定義為多輸出(Multi-Output)序列標籤問題。首先,我們建立一個新的標籤架構:非“O”標籤的格式為“B/I-XYZ”,其中
X屬於集合{事實(fact),條件(condition)};
Y屬於集合{1:主語,2:關係,3:賓語};
Z屬於集合{概念(concept),屬性(attribute),關係短語(relational phrase)}
請注意,如果Y=2,則Z=p。因此,非“O”標籤的數量為20。現在,每個事實/條件元組都可以表示為標記序列。而且,本文是將概念和屬性分開的第一個序列標籤工作。該示例中的事實元組在理想情況下將是:(鹼性pH,增加,{TRPV5/V6通道:活性}),理想的條件元組是:(TRPV5/V6通道,在……中,Jurkat T細胞)。
圖1展示了我們的框架。在LSTMd解碼器之後會生成多個標籤序列,每個標籤序列代表一個事實或條件元組。這個多輸出模組有兩層:第一層是關係名稱標籤層,用於預測關係短語的標籤並確定輸出序列的數量。另一個是元組完成標記層,該層生成用於完成事實和條件元組的標記序列。
為了解決建模複雜標籤架構的挑戰,除了語言模型外,我們還從上游工具中引入儘可能多的資訊,例如詞性標籤(POS),概念檢測、屬性名稱提取和片語挖掘(CAP)。然後將它們轉換為標籤序列作為模型輸入。我們觀察到詞語的POS/CAP標籤和目標標籤之間有很強的依賴性。得益於現有技術的高精度,使新資料集中多輸入序列的充分訓練成為可能。
3.資料集構建
圖 2 透過四個步驟進行註釋:(1)將零散連續的詞語合併為一個整體的區塊;(2)為新的元組生成插槽;(3)將合併好的區塊拖入插槽;(4)儲存標註。
我們構建了一個具有GUI的系統(圖2),以收集用於聯合元組提取目的的新資料集,稱為生物醫學條件事實提取(BioCFE)。三名參與者(生物醫學領域的專家)從MEDLINE資料庫的31個論文摘要中的語句中手動註釋了事實和條件元組。每篇論文的註釋過程平均花費30分鐘以上。這是該系統的簡要指南:首先,使用者將零散連續的詞語合併為一個整體的區塊。其次,他們給出了適當數目的事實和/或條件元組,其中適當數目不是固定的,而是取決於具體句子。每個元組都有五個插槽(概念主語,屬性主語,關係短語,概念賓語,屬性賓語)。第三,他們將合併好的區塊拖動到插槽中。如果這三個標註結果不一致,則我們將其過濾掉。最終,從336個帶標註的句子中我們得到756個事實元組和654個條件元組。我們發現一個句子通常具有多個事實和/或條件,實際上,61%/ 52%陳述語句具有多個事實/條件元組,這也是我們設定多輸出模組的初衷之一。
4.方法
我們的方法(MIMO)有兩個模組:(1)一個多輸入模組(Multi-Input),利用NLP技術來處理來自多個任務的輸入序列的文字,並將其輸入到具有多輸入門的多頭編碼器/解碼器模型中;(2)一個多輸出模組(Multi-Output),它為事實和條件元組生成多個元組標籤序列,由關係名識別層和元組補全識別層組成,如圖1所示。
4.1 多輸入模組
對輸入序列的預處理:基本的NLP技術已經實現了高精度,不需要對帶標籤的資料進行額外的訓練:語言模型(LM),POS,CAP[4-7]。對於任何給定的輸入句子,首先進行分詞並透過其詞嵌入表示每個標記(本文中的預訓練GloVe向量)。然後透過輸入語句和以上三種基本的NLP技術獲得另外三個輸入序列。(1)一種基於LSTM的經過預先訓練的語言模型,以句子為輸入,並返回語義嵌入序列,其中保留了當前詞語和其長距離上下文中的依賴性。(2)我們使用NLTK工具為給定的句子生成POS標籤序列。POS標籤序列指示句子中單詞的句法模式,即POS標籤和輸出標籤(例如動詞(例如“VBD”)和謂詞(例如“ B-f2p”))之間的依存關係。(3)多種互補的IE技術用於從給定的句子中檢測概念,屬性和短語,進行合併並生成CAP序列。我們以“B/I-c/a/p”格式製作標籤,用於概念,屬性和短語的標記。
每個序列編碼一種特定型別的依賴性。多型別依賴項的組合比任何單一型別都更好地學習了21個元組標記上的複雜依賴項。LM在長距離上下文中學習當前詞語與其歷史詞語之間的依賴關係,這有助於預測主語,關係和賓語的位置。POS編碼單詞的句法特徵。可以對POS標籤和元組標籤之間的依賴關係(例如“VBD”和“B-f2p”)進行建模。我們還發現了CAP標籤和元組標籤之間的高度依賴性。例如,“B/I-c”(概念)和“B/I-a”(屬性)標記的詞語很可能被標記為“B/I-XYc”和“B/I-XYa”。
多頭編碼器-解碼器:我們研究了兩種神經網路模型作為編碼器:一種是雙向LSTM(BiLSTM),另一種是來自Transformers(BERT)的著名雙向編碼器表示形式。我們採用LSTM結構作為解碼層(LSTMd)[8]。我們觀察到輸入序列在不同句子上可能具有不同的標籤可預測性。對於短句子,POS和CAP更有用(對本地依存關係建模);對於長句子,LM更有效(建模遠距離依存關係)。為了確保模型在海量資料上的魯棒性,我們將多頭機制應用於編碼器-解碼器模型。編碼器-解碼器的每個頭都被提供一種型別的輸入序列,並且它們在解碼器層的末尾進行組合。因此,與沒有使用多頭的簡單編碼器-解碼器相比,標籤預測變得更加穩定。
多輸入門:我們在ResNet[9]中採用了多輸入門,以充分利用多輸入序列。我們將門新增到BiLSTM或BERT編碼器的輸入,LSTMd解碼器的輸入以及多輸出模組。
4.2 多輸出模組
我們認為模型應當生成多個輸出序列。由於標註多個元組的句子十分常見,因此詞語在元組中可能具有不同的預期標籤。在BioCFE上,我們觀察到93.8%的語句構成多個元組:21.7%的語句具有至少一個在至少一個事實元組和至少一個條件元組中出現的標記,期望標記為“B/I-fYZ”和“B/I-cYZ”;18.1%的句子中至少有一個標記出現在一個條件元組中,作為主語的一部分,而在另一個條件元組中,則作為賓語的一部分,期望標記為“B/I-c1Z”和“B/I-c3Z”。因此,我們將典型的單輸出序列標籤擴充套件到多輸出設計。
那麼輸出序列的數量是多少?模型如何動態輸出不同數量的標籤序列?我們揭示了關係名稱在建立元組中的重要作用。如果我們首先為每個關係名稱標記以“B-f2p”(事實關係)或“B-c2p”(條件關係)作為關係開始標籤,模組分別為每個識別出來的關係生成對應的輸出標籤序列。然後,我們從每個輸出序列中提取所有可能的元組(已指定其關係)。關於標註資料的兩個觀察結果支援此思想:我們分別為1,410個元組中每個元組轉換為一個標籤序列。對於同一句子,如果元組的關係名稱相同,我們將其標記序列合併,最終得到240個標籤序列,然後使用[3]中的匹配函式來恢復元組。首先,沒有任何詞語在240個合併序列中具有衝突標籤。其次,恢復中有無元組丟失或錯誤。因此,為每個識別到的關係生成一個輸出序列並進一步完成元組各個元素(主語和賓語)的識別是切實可行的。
多輸出模組具有兩層:關係識別層(RNT),它由前饋神經網路(FFN)和SoftMax層組成。解碼後的向量被饋送到FFN中,並且SoftMax預測事實或條件下標籤的機率分佈,我們將識別到的關係標籤作為重要資訊輸入到下一層;元組補全識別層(TCT),該層預測n個事實標籤序列和m個條件標籤序列。每個序列由FFN和SoftMax層生成。FFN從RNT層獲取關係名稱,其輸入還包括來自多輸入模組的編碼器-解碼器模型的詞語向量。每層的具體操作以及公示詳見論文原文。
5.實驗結果
我們評估MIMO模型、其變體和基線模型在條件/事實標籤預測和元組提取任務上的效能,實驗使用新標註的BioCFE資料集上並將其轉移到BioNLP2013資料集。
5.1 整體實驗評估結果
表1顯示,所提出的帶有BERT編碼器的多輸入多輸出序列標記模型在標籤預測和元組提取的所有基線上始終表現最佳。與BiLSTM-LSTMd相比,基於BiLSTM的MIMO在標籤預測方面的F1評分相對提高了7.1%,在元組提取方面的評分則提高了8.8%。與BERT-LSTMd相比,基於BERT的MIMO在兩個任務上分別提高了4.7%和6.2%的F1。顯然,BERT編碼器顯著提高了效能(在標籤預測上提高了16.9--17.2%,在元組提取上提高了7.7--10.3%)。MIMO設計可以進一步改善它。神經序列標記模型的效能優於OpenIE系統和統計方法。神經序列標籤模型更適應於具有新標籤架構的學習結構。開放式IE方法加上條件/事實分類無效。
與BERT-LSTMd相比,基於BERT的MIMO在標籤預測方面的精度和召回率分別提高了8.3%和1.3%。在元組提取上分別提高了3.1%和9.3%。當標籤被更精確地預測時,元組的五個插槽將被更準確地填充,並且我們將擁有更完整的元組。我們還觀察到,條件標籤預測和元組抽取的提升始終大於事實標籤預測和元組抽取。它表明MIMO設計可以更好地識別條件在語句中的作用。
表 1 所提出的MIMO在BioCFE資料集中優於標籤預測和元組提取的現有方法。帶有基於BERT的編碼器的MIMO表現最佳。分數越高表現越好。
5.2 消融實驗
表 2 提出的採用(a)多輸入語言模型,POS標籤和概念屬性短語序列,(b)多輸出標籤序列,(c)基於BERT的編碼器的MIMO在元組提取方面表現最佳。
表2比較了所提出模型的變體,以評估以下元件的有效性:(1)多輸入序列,例如不採用或採用任一個(在LM,POS和CAP中選擇)、雙組合或三組合;(2)多輸入編碼器模型,BiLSTM或BERT;(3)多輸出模組:僅具有RNT層(生成一個事實標籤序列和一個條件標籤序列),或具有RNT和TCT層的組合(針對每種元組型別生成多個序列)。
多輸入序列:當指定了編碼器模型和多輸出層的選擇時,我們觀察到輸入序列的三重組合比雙組合要好,並且雙組合勝過單輸入。附加序列使F1相對提高1.0--2.4%。三重組合可將F1相對提高3.2--4.1%。這證明了三種型別的輸入序列對互補資訊進行編碼,以學習所提出的標籤架構中的依存關係。
首先,語言模型在長距離上下文中學習當前詞語與其歷史詞語之間的依賴關係。利用LM序列識別關係名稱的主語和賓語可以減少“B/I-X1Z”和“B/I-X3Z”的誤報。其次,POS標籤對詞語的句法特徵進行編碼。具有POS序列可提高標籤預測的準確性。例如,動詞和介詞(例如,“在...中”,“在...期間”)通常分別充當事實和條件的關係名稱;連詞(例如“that”,“which”)表示從句,因此連詞之前的名詞短語很可能是該從句給定的元組的主語。最後,檢測到的概念、屬性名稱和短語,對於標記主語和賓語的位置十分有用:CAP序列中的標記“B/I-c”和“B/I-a”往往就是目標標籤“B / I-XYc”和“B / I-XYa”。
多輸入模組中的編碼器:比較中間三列(基於BiLSTM的編碼器)和右邊三列(基於BERT的編碼器),可以很容易地看出BERT模型帶來的重大改進。
多輸出模組中的層:如果多輸出模型同時具有RNT和TCT層,則F1得分比僅具有RNT層的模型相對高1.4--5.0 \%。此外,召回率相對提高了1.5--9.0%。因此,為每種元組型別(即事實和條件)生成多個標籤序列的TCT層在從一個語句識別多個元組中起著非常重要的作用。
5.3 錯誤分析
圖3展示了基於BERT的MIMO分別針對事實和條件預測非“O”標籤所產生的混淆矩陣。列是預測的標籤,行是實際的標籤。完美的結果將是對角矩陣。
圖 3 BioCFE資料中的預測事實標籤(頂部)和條件標籤(底部)的混淆矩陣。
我們觀察到對角線上的數字始終大於相應行和列上的數字。預測事實標籤的準確性得分為0.905,而預測條件標籤的準確性得分為0.908。在182個實際的“B-f2p”中,模型預測175個是“B-f2p”;在186個實際的“B-c2p”中,它預測一個是“I-c1c”,另一個是“I-c3c“。這也說明用於多輸出生成的關係抽取的高精度(0.961和0.989)。
每個混淆矩陣中的橢圓形代表最重要的錯誤型別。儘管事實/條件角色和概念角色得到了正確的預測,但在少數實際主語中,模型將其預測為賓語,反之亦然。虛線圓圈顯示第二種常見錯誤型別。在實際的“I-f2p”詞語中,模型預測有7個是“B-f2p”;對於實際的“I-c2p”,它預測有6個是“B-c2p”。基本上,這是因為缺少關係短語的開頭詞。在實際的“B-f3a”詞語中,模型預測的6個是“I-f2p”。未來的工作將旨在改善對長關係短語邊界的預測。
5.4 BioNLP2013資料集實驗結果
表 3 在BioNLP2013中,BERT-LSTMd MIMO模型在元組提取方面表現最佳。
如表3所示,從BioNLP2013提取元組時,BERT-LSTMd MIMO模型的F1得分達到0.790。請注意,該模型是在BioCFE上訓練的,該BioCFE與BioNLP2013沒有重疊的句子。該分數與BioCFE的測試F1分數(0.808)相當,這證明了所提出模型的有效性和可靠性。
與最佳基準BERT-LSTMd相比,我們的模型將F1分數相對提高了4.2%。召回率的改善更為可觀:將召回率提高了5.8%。這是由於多輸出模組的設計所致:TCT層基於RNT層預測的關係名稱生成多個標籤序列。語句中的標記在相同型別(事實或條件)的不同元組中可能具有不同的角色。例如,給定以下語句(檢視論文中英文版本的樣例更有助於理解):
腫瘤的免疫組織化學染色顯示與對照組相比,治療組的血管數目減少。
所提出的模型能夠精確地找到一個事實元組和兩個條件元組:
事實1:({腫瘤:免疫組化學染色},顯示,{血管:數目減少})
條件1:(血管,在……中,治療組)
條件2:(治療組,相比,對照組)
其中,“治療組”概念充當條件元組1的賓語角色,但同時也是條件元組2的主語角色。相比於其他單輸出模型,多輸出模型可以更好的解決該問題。
與BioCFE相比:在BioCFE上,條件元組提取的F1分數高於事實元組提取的F1分數(81.64 vs 79.94)。在BioNLP2013上,我們有相反的觀察(78.58 vs 79.42)。它們仍然具有可比性,但是如果我們檢視錯誤情況,我們會發現大多數條件元組的錯誤預測都來自長句子(具有30個以上的單詞)。而BioNLP中35%的句子是長句子,而Bio CFE中只有5%的句子很長。對於IE來說,長依賴性建模始終是一個挑戰,特別是條件提取。我們將在以後的工作中對其進行研究。
5.5 視覺化案例研究
科學知識圖可實現有效的搜尋和探索,同時在圖中表示相應事實有效的條件十分重要。當我們將模型應用於大型MEDLINE資料集時,圖4將四個關於“細胞增殖”的陳述句中提取的事實和條件元組並進行視覺化。在左側,我們發現(1)``VPA處理''和``HDLs的''孵育''增加了細胞增殖,而(2)“Chlorin e6-PDT”和“MiR-199a-5p”的抑制表達降低了細胞增殖。在右側,我們可以同時獲取事實要求的條件,他們描述了觀察的方法(例如,“使用”,“與...結合”)或上下文(例如,“在某種特定疾病中”或“來自”某種動物)。在其他情況下,我們發現檢測到的溫度和pH值是觀察的條件。
圖 4 將四個提到“cell proliferation(細胞增殖)”的語句中檢測到的元組構造成科學知識圖譜的快照,其中事實元組在左側,條件元組在右側。
參考文獻
[1] David L Miller. 1947. The nature of scientific statements. Philosophy of Science, 14(3):219–223.
[2] Victor N Tomilin, Alena L Cherezova, Yuri A Negulyaev, and Svetlana B Semenova. 2016. Trpv5/v6 channels mediate ca2+ influx in jurkat t cells under the control of extracellular ph. Journal of cellular biochemistry, 117(1):197–206.
[3] Gabriel Stanovsky, Julian Michael, Luke Zettlemoyer, and Ido Dagan. 2018. Supervised open information extraction. In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume1 (Long Papers), volume 1, pages 885–895.
[4] Yi Luan, Luheng He, Mari Ostendorf, and Hannaneh Hajishirzi. 2018. Multi-task identification of entities, relations, and coreference for scientific knowledge graph construction. In Proc. Conf. Empirical Methods Natural Language Process. (EMNLP).
[5] Meng Jiang, Jingbo Shang, Taylor Cassidy, Xiang Ren, Lance M Kaplan, Timothy P Hanratty, and Jiawei Han. 2017. Metapad: Meta pattern discovery from massive text corpora. In Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pages 877–886. ACM.
[6] Jingbo Shang, Jialu Liu, Meng Jiang, Xiang Ren, Clare R Voss, and Jiawei Han. 2018. Automated phrase mining from massive text corpora. IEEE Transactions on Knowledge and Data Engineering,30(10):1825–1837.
[7] Xuan Wang, Yu Zhang, Qi Li, Yinyin Chen, and Jiawei Han. 2018a. Open information extraction with meta-pattern discovery in biomedical literature. In Proceedings of the 2018 ACM International Conference on Bioinformatics, Computational Biology, and Health Informatics, pages 291–300. ACM.
[8] Suncong Zheng, Feng Wang, Hongyun Bao,Yuexing Hao, Peng Zhou, and Bo Xu. 2017. Joint extraction of entities and relations based on a novel tagging scheme. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: LongPapers), volume 1, pages 1227–1236.
[9] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2016. Deep residual learning for image recognition. In CVPR, pages 770–778.
後記1:模型使用
模型使用
(1).克隆倉庫
git clone https://github.com/twjiang/MIMO_CFE.git
(2).下載資源
dumped MIMO
的 地址.https://www.dropbox.com/s/lc1bvoxc2wbut9t/dumped_models.pt?dl=0
word embedding
的 地址.https://www.dropbox.com/sh/6yx1l8euehgw12k/AAB9mWc3m8H7niuEF7NBYUdRa?dl=0
pre-trained language model
的地址.https://www.dropbox.com/sh/q1kehix8q58sxmh/AADU35QFu1ZMuNQFTiEYWSxUa?dl=0
將這些檔案放入./resources
資料夾之下
(3).安裝依賴
conda create -n mimo python=3.6
conda activate mimo
pip install -r requirments.txt
4.執行demo程式
cd MIMO_service
python mimo_server.py #Start a MIMO service
python client.py
模型的輸出如下:
{
'statements':{
'stmt 1':{
'text':'Histone deacetylase inhibitor valproic acid ( VPA ) has been used to increase the reprogramming efficiency of induced pluripotent stem cell ( iPSC ) from somatic cells , yet the specific molecular mechanisms underlying this effect is unknown .',
'fact tuples':[
['Histone deacetylase inhibitor valproic acid','NIL','has been used to increase','induced pluripotent stem cell','reprogramming efficiency'],
['VPA','NIL','has been used to increase','induced pluripotent stem cell','reprogramming efficiency'],
['Histone deacetylase inhibitor valproic acid','NIL','has been used to increase','induced pluripotent stem cell','reprogramming'],
['specific molecular mechanisms','NIL','is unknown','NIL','NIL']
],
'condition tuples':[
['iPSC','reprogramming efficiency','from','somatic cells','NIL'],
['induced pluripotent stem cell','reprogramming efficiency','from','somatic cells','NIL'],
['specific molecular mechanisms','NIL','underlying','NIL','effect']
],
'concept_indx':[0,1,2,3,4,6,17,18,19,20,22,25,26,30,31,32],
'attr_indx':[14,15,35],
'predicate_indx':[8,9,10,11,12,24,33,36,37]
}
}
}
後記2:意義和價值
不同於以往的資訊抽取工具,專注於某類資訊(如關係)的抽取,MIMO則對給定任意科學文獻內容進行資訊結構化處理,即最大可能地保留原文資訊(同時包括事實與條件)並將其結構化,實現真正意義上的開放式資訊抽取。將科學文獻的文字資訊結構化,可以推動很多下游任務的發展,實現在知識語義層面上的探索:科研領域知識圖譜自動構建、知識問答任務、文獻資訊檢索任務等。我們期待與不同領域和研究方向的研究人員共同探索開放式事實/條件元組抽取任務的重要應用。