ACL 2020 | 基於稠密段落檢索的開放域問答系統技術

PaperWeekly發表於2020-05-29

原文網址 : https://www.jiqizhixin.com/articles/2020-05-29-4

論文標題：Dense Passage Retrieval for Open-Domain Question Answering

論文來源：ACL 2020

論文連結：https://arxiv.org/abs/2004.04906

引言

Open-domain 的 Question Answering (QA) 一般需要先從大量的文件庫中檢索出一些和問題相關的文件（retrive），相關的方法有 TF-IDF 和 BM25。這篇文章發現學習 dense 的文件向量去替換 retrive 階段的傳統方法是可行的，並且本文提出的檢索系統在 top-20 文章檢索準確率上比 Lucene-BM25 系統高出 9%-19%。

介紹

近年來隨著深度學習的興起，目前大部分做 Open-domain 的 QA 使一般沿用兩階段框架：1）retriever 首先選擇一小部分段落，其中一些包含問題的答案；2）reader 可以看到 retriever 檢索到的上下文並從中識別正確的答案。

目前主流的 retriever 使用傳統的資訊檢索（IR）方法，包括 TF-IDF unigram/bigram matching 或詞權重支援 BM25 詞權重的工具，如 Lucene 和 Elastic-search。

TF-IDF 和 BM25 將 query 和 context 用高維的 sparse 向量來表示，這些sparse向量可以透過倒排索引進行有效搜尋，並且對於那些通常需要根據關鍵字顯著縮小搜尋空間的問題回答有效。

但是 TF-IDF 和 BM25 也有一些缺點就是無法很好的建模詞與詞之間的語義關係（兩個同義詞可能長的完全不一樣），所以一些 encoding 文字為 dense 向量的方法給 TF-IDF 和 BM25 這一類方法做了補充。

本文透過學習 dense representations 代替傳統的 IR 方法進行檢索改進 Open-domain 的 Question Answering。

Dense Passage Retriever (DPR)

在檢索之前先用一個 dense encoder 給文件庫中的所有文件都進行 encoding。在檢索的時候用另一個 dense encoder 給 question 進行 encoding，之後根據下圖公式算兩個 representation 的 similarity，取 top-k 作為結果。

ACL 2020 | 基於稠密段落檢索的開放域問答系統技術

公式（1）比較簡單，但是作者說該方式是最有效的。作者用的 encoder 是 bert-base-uncased，然後拿 [CLS] 的 vector 作為 representation。由於文件庫可能會很大，所以作者用了 FAISS（一個非常高效的開源庫，用於 dense 向量的相似性搜尋和聚類，可以很容易地應用於數十億個向量）來索引 encode 之後的向量。

當然，為了讓公式（1）的效果更好，對encoder的訓練是不可避免的。每一個 example 由一個 question 和一堆 paragraph 組成，paragraph 中有一個是和 question 相關的，n 個和 question 無關的，loss 也就是對數似然：

ACL 2020 | 基於稠密段落檢索的開放域問答系統技術

一般情況下，正負例的比例會差很多，作者在選負例的時候也採用了一些 trick:

(1) Random: any random passage from the corpus;
(2) BM25: top passages returned by BM25 which don’t contain the answer but match question tokens heavily;
(3) Gold: positive passages paired with other questions which appear in the training set. （效果最好）

question 和 passage 在 encoding 之後，作者還採用了一種節省計算量的方法，稱之為 In-batch negatives，原文描述如下：

Experiments: Passage Retrieval

Table 2 使用 top-k 精度（k 為 20 或 100）比較了五個 QA 資料集上不同的文章檢索系統。除了 SQuAD，DPR 在所有資料集上都比 BM25 表現得更好。當k值較小時，差距尤其大（例如，NQ 的 top-20 78.4% vs 59.1%）。

當使用多個資料集進行訓練時，TREC（五種資料集中最小的資料集）可以從更多的訓練示例中獲益。相比之下，NQ 和 WebQuestions 得到了適度的改進，而 TriviaQA 則略有下降。在某些情況下，可以透過在單資料集和多資料集設定中結合 DPR 和 BM25 進一步改進結果。

作者還探討了需要多少訓練例項才能獲得一個良好的文章檢索效能。

ACL 2020 | 基於稠密段落檢索的開放域問答系統技術

作者也嘗試了不同的 DPR 訓練方案。表 4 中總結了 NQ dev 集的結果。

ACL 2020 | 基於稠密段落檢索的開放域問答系統技術

最後，作者根據不同的DPR，對後續的 QA 的效果也做了對比：

結論

首先，本文演示了在適當的訓練設定下，只需對現有 question and passage encoder 進行 fine-tuning 就足以在 top-k 檢索精度方面大大超過強大的 Lucene-BM25 系統。

dense 表示法是 sparse 向量表示法的補充，將它們結合起來可以進一步提高效能。其次，我們驗證了，在開放域 QA 的上下文中，較高的檢索準確度確實可以轉化為較高的 end-to-end QA 準確度。

基於文件門控制器的開放域問答
2019-05-24
基於雜湊的影象檢索技術
2018-07-05
深入探索智慧問答：從檢索到生成的技術之旅
2023-11-10
讓問答更自然：基於拷貝和檢索機制的自然答案生成系統研究
2019-03-04
檢索增強生成(RAG)實踐：基於LlamaIndex和Qwen1.5搭建智慧問答系統
2024-05-07
AIIndex
基於TP3.2.3的問答系統！
2019-05-11
一文詳解維基百科的開放性問答系統
2018-12-19
知了 | 基於NLP的智慧問答推薦系統
2022-12-05
基於RFID技術紡織樣品檢測系統
2020-11-24
基於ElasticSearch實現商品的全文檢索檢索
2018-04-15
Elasticsearch
美團外賣基於GPU的向量檢索系統實踐
2024-04-12
GPU
Oracle的全文檢索技術(轉)
2019-05-15
Oracle
全文檢索技術lucene的demo
2022-10-27
基於倒排表的電力排程知識問答系統構建 (nlp問答系統實現，有程式碼）
2020-10-02
EMNLP 2020 | 基於反事實推理的開放域生成式對話
2020-11-04
索拉迪（SolaRoad）系統開發技術/Solidity語言
2023-05-18
Solid
KDD2020 | 揭秘Facebook搜尋中的語義檢索技術
2020-08-06
基於Lucene的全文檢索實踐
2021-11-07
技術文件：基於 Python 的影像處理系統
2024-07-26
Python
基於RFID技術的易雲維®工廠園區智慧巡檢管理系統
2023-05-11
基於雲技術的域名解析系統研究：傳統解析技術的侷限性
2023-12-27
IM全文檢索技術專題(四)：微信iOS端的最新全文檢索技術優化實踐
2022-03-02
iOS優化
基於人形檢測的劃區域客流統計
2023-03-07
基於學者網資訊和知識圖譜的智慧問答系統
2020-10-03
技術分享 | 基於windows作業系統的錦行蜜罐新節點技術
2021-05-31
Windows作業系統
基於OT開發系統的專利問題
2020-04-04
一種基於概率檢索模型的大資料專利檢索方法與流程
2022-05-10
模型大資料
[Leetcode]303.區域和檢索&&304.二維區域和檢索
2019-01-03
LeetCode
基於SSM框架的簡單問答社群
2020-07-16
SSM框架
EMNLP 2020 | 開放域對話系統的屬性一致性識別
2020-11-12
基於前端技術實現的全面預算編制系統
2024-03-25
前端
智慧運維：基於 BIM 技術的視覺化管理系統
2022-07-07
運維視覺化
ACL20 | 讓笨重的BERT問答匹配模型變快！
2020-06-05
模型
基於雲技術的域名解析系統研究：雲解析技術的應用（國科雲）
2024-01-05
技術解讀：Dragonfly 基於 P2P 的智慧映象加速系統 | 龍蜥技術
2022-09-07
Go
NLP教程(7) - 問答系統
2022-05-11
昆蟲分類與檢索系統的設計與開發
2019-02-15
基於BERT進行抽取式問答
2022-11-30

ACL 2020 | 基於稠密段落檢索的開放域問答系統技術

引言

介紹

Dense Passage Retriever (DPR)

Experiments: Passage Retrieval

結論

相關文章