「知識星球」這幾年人臉都有哪些有意思的新資料集被整理出來？

AIBigbull2050發表於2020-03-13

原文網址 : http://blog.itpub.net/69946223/viewspace-2679772/

2020-03-01 13:10:48

機器閱讀理解，筆者認為他是NLP中最有意思的任務了。機器閱讀一份文件之後，可以“理解”其中的內容，並可以回答關於這份文件的問題。聽上去，有一種很強的“人工智慧”的Feel。

這篇文章介紹機器閱讀理解（Machine Reading Comprehension），包括MRC的概況、做法以及主要模型。

作者&編輯 | 小Dream哥

目標

目前來講，還沒有一種NLP技術，能夠端到端的實現對文字的理解。通常是轉化位不同的NLP任務，來實現對文字不同層面的“理解”，例如如下的任務：

詞性識別
命名實體識別
句法依存
句法依存

MRC也是一種理解文字的任務，它的大體模式是： 機器閱讀文件，並回答相關的問題。

這跟我們做英語的閱讀理解題目是非常的相似，閱讀一篇英文章之後，基於此，做後面的幾道選擇題或者填空題。

MRC發展概況

在MRC的早期主要是一些基於規則和機器學習方法的MRC系統：

1997，QUALM system
1999. Reading Comprehension dataset by Hirschman et al
1999 Deep Read System (rule-based BOW model)
2000 QUARC system (rule-based)
2013-2015 MCTest(and 4 on1) and ProcessBank(Y/N) dataset
2014 Statistical Model
Machine learning Models(map the question to formal queries)

上述基於規則的系統，通常能夠獲得30-40%的準確率，機器學習模型取得了一些進展，但也有一些問題，例如：

嚴重依賴一些基於語法和語言學的工具
資料集太小
基於現有的語言學工具，很難特徵構建有效的特徵

隨著深度學習時代的到來，這種情況得到了很大的改上，出現瞭如下的模型是資料集：

2015. The Attentive Reader(Hermann et al). Achieved 63% accuracy
2015 CNN and Daily Mail
2016 Children Book Test
2016 The Stanford Question Answer Dataset (SQUAD 1)
2017 Match-LSTM,BiDAF,TrivalQA,R-net,RACE
2018. QANet, NarrativeQA ,BiDAF+self-attention+ELMO,SQuAD 2.0, The Standford Attentive Reader,BERT, HotPotQA

我們現在來正式的定義一下基於神經網路的MRC：

給定一個訓練資料集{P，Q，A}，目標是學習一個函式f:

f（p，q）-> a

其中，P是文件集，Q是問題集，A是答案集。

根據Answer的型別，我們可以把目前的MRC系統分為以下4類：

完形填空型別（cloze）
多項選擇（Multiple Choice）
Span Prdiction
Free-From answer

The Standford Attentive Reader

如下圖所示，展示了Stanford Attentive Reader模型結構圖

「NLP」詳聊NLP中的閱讀理解（MRC）

這裡的SAR主要用來解決的是span prediction的MRC問題。設給定一篇文章p，長度位l1；同時給定一個問題q，長度位l2；目的是預測一個span（start,end）,start和end是P上詞位置，並且這個span是這個問題的答案。

模型將這個任務轉化為序列上的二分類問題，即對於文章中的每個詞，都預測這個詞分別是start和end的得分，最後用這個分數來預測span。

1）question部分的編碼

主要是對question進行編碼，先經過embedding層，而後用BiLSTM進行序列建模，最終每個詞的表徵為：

「NLP」詳聊NLP中的閱讀理解（MRC）

然後，接一個帶權重的softmax，得到一個編碼向量q，如下的公式所示：

「NLP」詳聊NLP中的閱讀理解（MRC）

2）Passage編碼部分

Passage的編碼也是先經過embedding，再通過BiLSTM進行序列建模，最終每個詞的表徵為：

「NLP」詳聊NLP中的閱讀理解（MRC）

需要注意的是，輸入BiLSTM的emdedding向量是由4部分concate而成的：

Glove生成的embedding
embedding對齊特徵，通過與q的embedding做attention而得到
詞性特徵
實體型別特徵

3）prediction部分

簡單來說就n個二分類，根據q和p分別預測每個詞是start及end的概率：

「NLP」詳聊NLP中的閱讀理解（MRC）

4）損失函式

訓練過程中採用的損失函式如下：

「NLP」詳聊NLP中的閱讀理解（MRC）

這個模型還可以轉化為上述的cloze，multiple-choice等型別的MRC任務，做一些簡單的調整即可。

我們前面還介紹過，如何基於BERT來做MRC的任務，感興趣的讀者可以看看：

「NLP」如何利用BERT來做基於閱讀理解的資訊抽取

基於MRC可以完成知識抽取、QA等重要的NLP任務，讀者務必熟悉。

https://www.toutiao.com/i6799102655248466436/

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/69946223/viewspace-2679772/，如需轉載，請註明出處，否則將追究法律責任。

相關文章

人臉識別資料集和特點
2020-12-11
資料採集知識分享|4大資料採集方式都有什麼？
2022-05-20
大資料
人臉識別資料集 - BioID Face Database - FaceDB
2020-03-18
Database
Python-OpenCV人臉識別之資料集生成
2018-05-17
PythonOpenCV
如何構建自定義人臉識別資料集
2018-06-26
人臉識別資料集 - Labeled Faces in the Wild Home (LFW)
2020-03-18
人臉識別資料集 - PubFig: Public Figures Face Database
2020-03-18
Database
景聯文科技人臉識別資料採集服務（二）——人臉欺詐相關資料
2023-03-08
web叢集都有哪些學習知識？Linux運維技術
2021-01-04
WebLinux運維
人臉識別資料集 - Multi-Task Facial Landmark (MTFL) dataset
2020-03-18
人臉識別資料集 - Large-scale CelebFaces Attributes (CelebA) Dataset
2020-03-18
用Python來統計知識星球打卡作業
2018-06-06
Python
爬知識星球，製作自己的知識倉庫
2019-03-27
有哪些鮮為人知，但是很有意思的網站？
2019-01-15
網站
人臉識別幾個很有用的連結
2019-07-12
常見的Java基礎語法知識都有哪些？
2019-11-05
Java
【知識分享】域名伺服器的型別都有哪些
2023-02-21
伺服器型別
【知識分享】伺服器的硬體配置都有哪些
2023-03-10
伺服器
撬動知識星球 - 01
2021-04-18
快來，你想要的koa知識幾乎都在這裡了！
2018-05-02
刪除十億人臉資料，Facebook關閉人臉識別系統
2021-11-03
大資料對企業來說都有哪些作用
2019-04-19
大資料
用python爬取知識星球
2019-02-16
Python
人臉、指紋、虹膜、行為，你需要的人工智慧生物識別AI資料集全在這裡！
2023-01-06
人工智慧AI
安全都有哪些基本分類？網路安全知識有哪些
2021-01-29
你知道黑客的入侵方式都有哪些嗎?這些你知道幾個？
2022-05-09
黑客
避坑！用大資料告訴你，那些被淘汰的公司，都有哪些特徵？
2020-11-24
大資料特徵
人臉聚類那些事兒：利用無標籤資料提升人臉識別效能
2019-01-11
聚類
首次！用合成人臉資料集訓練的識別模型，效能高於真實資料集
2024-09-14
模型
AI安防企業被曝資料洩露敲響人臉識別安全警鐘
2019-02-27
AI
一張照片，幾秒get你的所有資訊！這個APP的人臉識別資料庫遠超FBI
2020-04-06
APP資料庫
【知識分享】大頻寬伺服器租用的優勢都有哪些
2023-03-30
伺服器
人臉識別用來測顏值(一)
2020-10-13
python的基礎資料型別有哪些知識
2021-09-11
Python資料型別
人臉識別——景聯文科技提供3D頭模資料採集業務！
2023-02-17
3D
人臉識別技術運用中的認知誤區
2019-12-23
資料視覺化的應用都有哪些？
2019-03-05
視覺化
Python的資料型別都有哪些？如何使用？
2022-06-28
Python資料型別