【論文筆記-16~】多語言關係抽取

chen0495發表於2024-04-30

~2011

1. A cross-lingual annotation projection approach for relation detection

摘要:儘管在過去十年中對關係提取進行了廣泛的研究,基於監督學習的統計系統仍然受限,因為它們需要大量的訓練資料才能達到高效能。在本文中,我們開發了一種跨語言註釋投影方法,該方法利用平行語料庫來啟動一個關係檢測器,而不需要為資源匱乏的語言進行大量的註釋工作。為了使我們的方法更加可靠,我們引入了三種簡單的投影噪聲減少方法。我們的方法的優點透過一個新的韓語關係檢測任務得到了證明。

方法:爬蟲得到平行語料庫,對英語進行實體標註(史丹佛解析器),在ACE2003上訓練和測試一個英語關係識別模型(基於樹核的支援向量機),透過對齊將英語投影到韓語形成資料集(手動+投影),同樣訓練並測試韓語的一個基於樹核的支援向量機模型

轉移範例:標籤
轉移資源:平行語料庫,詞對齊(giza++),字典(作為補充)
評估語言:英語->韓語
評估資料集:ACE2003,self-generated

2. Bootstrapping Multilingual Relation Discovery Using English Wikipedia and Wikimedia-Induced Entity Extraction

摘要:關係提取在過去十年裡一直是研究的重要課題。大多數關係提取器的開發都是透過結合在大量註釋上訓練複雜的計算系統以及語言專家廣泛的規則編寫來實現的。此外,許多關係提取器依賴於其他非平凡的自然語言處理(NLP)技術,這些技術本身也是透過大量的人力努力開發的,例如實體標註、解析等。由於建立和組裝所需資源的成本高昂,關係提取器通常只為資源豐富的語言開發。在本文中,我們描述了一種幾乎零成本的方法,使用免費的維基百科和其他網路文件以及一些英語知識,為明顯不同的非英語語言構建關係提取器。我們將我們的方法應用於構建希臘語、西班牙語、俄語和中文中的母校、出生地、父親、職業和配偶關係提取器。我們在檔案級別對誘匯出的關係進行了評估——這是我們在文獻中看到的最精細的評估。

2012~2018

3. Multilingual open relation extraction using cross-lingual projection

摘要:開放域關係提取系統能夠在不依賴任何底層模式的情況下識別句子中的關係和引數短語。然而,由於它們嚴重依賴於語言工具,如詞性標註器和依存關係解析器,目前最先進的關係提取系統僅限於英語。我們提出了一種跨語言註釋投影方法,用於語言無關的關係提取。我們在手動註釋的測試集上評估了我們的方法,並在三種型別不同的語言上展示了結果。我們釋出了從維基百科中提取的這十種語言的手動註釋和提取出的關係。© 2015 計算語言學協會。

4. Multilingual relation extraction using compositional universal schema

摘要:通用模式透過聯合嵌入來自輸入知識庫的所有關係型別以及在原始文字中觀察到的文字模式,構建實體和關係的知識點(KB)。在以前的大多數通用模式應用中,每個文字模式都被表示為單一嵌入,這阻止了對未見模式的泛化。最近的工作採用神經網路捕捉模式的組合語義,為所有可能的輸入文字提供泛化。作為回應,本文引入了對通用模式關係提取的覆蓋範圍和靈活性的重大改進:對訓練中未見實體的預測以及對沒有註釋的領域的多語言遷移學習。我們透過在英語和西班牙語TAC KBP基準上進行廣泛的實驗來評估我們的模型,使用沒有手工編寫模式或額外註釋的方法,超越了TAC 2013插槽填充的頂級系統。我們還考慮了一個多語言設定,其中英語訓練資料實體與種子KB重疊,但西班牙語文字不重疊。儘管沒有西班牙語資料的註釋,我們訓練了一個準確的預測器,並透過在語言之間繫結詞嵌入獲得了額外的改進。此外,我們發現多語言訓練提高了英語關係提取的準確性。因此,我們的方法適用於在多種語言和領域中構建廣泛覆蓋的自動化知識庫。©2016 計算語言學協會。

5. Neural Relation Extraction with Multi-lingual Attention

摘要:關係提取已被廣泛用於從普通文字中發現未知的關係事實。大多數現有方法專注於利用單語言資料進行關係提取,忽略了來自各種語言文字的大量資訊。為了解決這個問題,我們引入了一個多語言神經關係提取框架,該框架採用單語言注意力機制來利用單語言文字中的資訊,並進一步提出跨語言注意力機制來考慮跨語言文字之間的資訊一致性和互補性。在真實世界資料集上的實驗結果表明,我們的模型可以利用多語言文字,並與基線相比在關係提取上持續取得顯著的改進。本文的原始碼可以從 https://github.com/thunlp/MNRE 獲得。© 2017 計算語言學協會。

2019~2020

2021~2022

2023~2024

相關文章