百度搜尋首屆技術創新挑戰賽資料分享

jessycarmanic發表於2022-11-30

本文參與了 SegmentFault 思否徵文「百度搜尋技術創新挑戰賽」,歡迎正在閱讀的你也加入

一、搜尋問答

賽題背景
近年來,隨著機器閱讀理解與深度預訓練模型等相關技術的發展,抽取式智慧問答系統的效能取得了非常明顯的提升。然而,在開放領域的搜尋場景下得到的網頁資料會非常複雜,其中往往存在著網頁文件質量參差不齊、長短不一,問題答案分佈零散、長度較長等問題,給答案抽取和答案置信度計算帶來了較大挑戰。

本賽題希望從答案抽取和答案檢驗兩個方面調研真實網路環境下的文件級機器閱讀理解技術,以求進一步提升深度智慧問答效果,給使用者提供更好的搜尋體驗。

任務概述
本次任務共分為兩個子任務,分別涉及基於複雜網頁文件內容的答案抽取和答案檢驗技術,需全部完成。請用飛槳 AI Studio配置的NVIDIA A100完成參賽作品。

排名計算:選手根據提交要求將結果提交至AI Studio後,區域賽將基於兩個任務的打榜結果加權平均選出前N名,無需評審。決賽將基於軟體延展開發、技術深度、創新性打分和打榜結果最終確定獲獎隊伍,決賽將有專家評審。

二、 相關資料集

DuReader_checklist

本次評測的閱讀理解資料集 (即DuReader_checklist) 旨在透過建立細粒度的評測體系(類似於checklist [1]),系統性地評估當前模型能力的不足之處。資料集評測體系中涉及到的自然語言理解能力包含:詞彙理解、短語理解、語義角色理解以及推理能力等等。具體的分類可參考下圖。https://github.com/baidu/DuRe...

DuReader 2.0

DuReader_robust

DuReader robust它旨在從以下幾個方面挑戰 MRC 模型:(1) 過度敏感,(2) 過度穩定和 (3) 泛化。此外,DuReader robust比以往的資料集還有一個優勢:問題和文件來自百度搜尋。它提出了將 MRC 模型應用於實際應用程式時的穩健性問題。

中文機器閱讀理解的魯棒性資料集

https://github.com/unlimiteda...

更多資料集

  • CMRC 2018 資料集較小,只有能回答的問題,問題型別比較單一。裡面還有空格,huggingface 的transfomers不能正常讀取。
  • Dureader 2019 資料集規模較大,但是資料文字質量不敢讚譽,優秀的資料預處理方法可以提升好幾個百分點。只要資料清理的好,結果就不差
  • CAIL 2019 法研杯機器閱讀理解,資料領域性比較強,文字質量很高。
  • 中國軍事機器閱讀理解 資料領域性比較強,資料未公開。
  • DRCD 繁體版中文表述和簡體中文表述存在一定的差異。

三、歷史比賽

2021語言與智慧技術競賽:機器閱讀理解任務

比賽連結:https://aistudio.baidu.com/ai...

給定一個問題q,一段篇章p及其標題t,參賽系統需要根據篇章內容,判斷該篇章p中是否包含給定問題的答案,如果是,則給出該問題的答案a;否則輸出“無答案”。資料集中的每個樣本,是一個四元組,例如:

問題 ( q ): 番石榴汁熱量
篇章 ( p ): 番石榴性溫,味甜、酸、澀…,最重要的是番石榴所含的脂肪熱量較低,一個番石榴所含的脂肪約0.9克重或84卡路里。比起蘋果,番石榴所含有的脂肪少38%,卡路里少42%。
標題 ( t ): 番石榴汁的熱量 - 媽媽網百科
參考答案 ( a ): [‘一個番石榴所含的脂肪約0.9克重或84卡路里’]

問題 ( q ): 雲南文山市多少人口?
篇章 ( p ): 雲南省下轄8個市、8個少數民族自治州,面積39萬平方千米,總人口4596萬人,雲南漢族人口為3062.9萬人,佔雲南省總人口的66.63%…
標題 ( t ): 雲南總人口數多少人,2019年雲南人口數量統計(最新)
參考答案 ( a ): [‘無答案’]

四、部落格筆記

BERT實戰——(4)問答任務-抽取式問答
NLP系列之機器閱讀理解(二):CheckList,如何更細粒度評估模型效果/如何建立更“魯棒”的訓練集—百度21lic機器閱讀比賽有感
LICS2021 MRC

相關文章