➊
#文字摘要#
#ACL2017#
Get To The Point: Summarization with Pointer-Generator Networks
Abstractive 式的文字摘要許久沒有看到過文章了,這篇文章的亮點在於對 pointer 和 generator 模型進行了一個綜合,pointer 有點類似 extractive 的過程,用來解決 OOV 問題,generator 類似 abstractive 的過程。對自動文摘感興趣的同學可以看看這篇。
論文連結:https://arxiv.org/abs/1704.04368
推薦人:大俊,PaperWeekly 首席客服
➋
#資料集#
#機器閱讀理解#
RACE: Large-scale ReAding Comprehension Dataset From Examinations
Machine Reading Comprehension 這個領域非常活躍,尤其是經常分享出大規模的資料集。本文開放出的資料集為中國中學生英語閱讀理解題目,給定一篇文章和 5 道 4 選 1 的題目,包括了 28000+ passages 和 100,000 道問題。
資料地址:http://www.cs.cmu.edu/~glai1/data/race/
論文連結:https://arxiv.org/abs/1704.04683
推薦人:大俊,PaperWeekly 首席客服
➌
Improving Object Detection With One Line of Code
本文介紹了一個物體檢測的通用的小技巧,如題所示“只需要增加一行程式碼就可以提高檢測效能”。非極大值抑制(Non-maximum suppression, NMS)是物體檢測演算法的一個重要的後處理技術。其使用情形是,物體位置檢測器會給出一堆相互重疊的初始物體區域,以及每個區域相應的置信度。NMS 是一個遞迴的過程,每一輪從候選的區域集合中選擇一個置信度最大的區域加入最終的輸出集合,然後去掉候選集合中與該選中的區域的重疊部分 IoU 大於一個閾值的區域,直到候選集合為空。本文作者注意到,NMS 相當於每一輪給候選集合中每個區域的置信度做一個 0-1 的 scaling(IoU 大於閾值的 scale 為 0, 其他的 scale 為 1)。作者進而給出了所謂的 Soft-NMS 方法,即將 0-1 這樣的 hard scaling 函式替換為類似 exp(-(IoU)^2/s) 或者 (1-IoU) 這樣的 Soft scaling 函式。透過數值實驗,Soft-NMS 在 PASCAL VOC 2007 和 MS-COCO 資料集上將 Faster-RCNN 和 R-FCN 演算法的效能(mAP)分別提高了 1.7% 和 1.3%(R-FCN), 1.1%(Faster-RCNN)。
Soft-NMS 程式碼地址:
https://github.com/bharatsingh430/soft-nms
論文連結:https://arxiv.org/abs/1704.04503
推薦人:吳沐,北京航空航天大學(PaperWeekly arXiv組志願者)
➍
Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks
該文章介紹了一個人臉檢測及標定的深度學習方法,該方法採用類似山世光老師的 Seeta Face 的人臉檢測想法,透過三個網路,Pnet,Rnet,Onet 來獲得 classification,regression of bounding box,localization of landmark。這三個網路都採用類似 Faster Rcnn 的方法訓練 classification(have face,no face,part face),(regression of bounding box(dx,dy,dw,dh)),localization of landmark(5 個標定點的座標)。第一個網路輸入 12*12 方框,第二個把第一個檢測的方框 resize 到 24*24,第三個 48*48。
測試原始碼:
https://kpzhang93.github.io/MTCNN_face_detection_alignment/index.html?from=timeline&isappinstalled=1
訓練原始碼:https://github.com/Seanlinx/mtcnn
論文連結:https://arxiv.org/abs/1604.02878v1
推薦人:孫嘉睿,北京大學(PaperWeekly arXiv組志願者)
➎
#ACL2017#
#encoder-decoder#
A Neural Architecture for Generating Natural Language Descriptions from Source Code Changes
本文套用 encoder-decoder 模型做了一件有意思的事情,輸入 code 的修改資訊,輸出用自然語言生成的 code commit message,以後大家在 commit 程式碼的時候就可以直接用演算法生成了。套用 encoder-decoder 框架可以做很多有趣的事情,只要有充足的 input-output pairs,就可以做一些好玩的事情。
程式碼地址:https://github.com/epochx/commitgen
論文連結:https://arxiv.org/abs/1704.04856
推薦人:大俊,PaperWeekly 首席客服
❻
#文字摘要#
Neural Extractive Summarization with Side Information
用抽取式的方法來做單文件摘要是一個比較實用的方法,傳統一點的方法是在 document 中對各個句子進行排序、去冗餘然後生成摘要。對於新聞文字來說,類似內容的標題和配圖描述文字這些 side information 都非常重要,在套用 encoder-decoder 框架時,attention 基於這些 side information 來做,取得了不錯的結果。
論文連結:https://arxiv.org/abs/1704.04530
推薦人:大俊,PaperWeekly 首席客服
❼
#資料集#
#NLI#
A Broad-Coverage Challenge Corpus for Sentence Understanding through Inference
本文公開了一個 Multi-Genre Natural Language Inference 資料集,規模大約 433k examples,研究這個領域的童鞋可以來看看。
資料地址:
http://www.nyu.edu/projects/bowman/multinli/
論文連結:https://arxiv.org/abs/1704.05426
推薦人:大俊,PaperWeekly 首席客服
❽
#資料集#
#QA#
SearchQA: A New Q&A Dataset Augmented with Context from a Search Engine
本文公開了一個新的大型 QA 資料集,這個資料集的最大特點是先找 QA 對,然後透過 QA 去 Google 檢索相關的 context,這裡的 context 噪聲會更大一些,對於機器來說難度更加大一些。資料集大約有 140k 條 QA 對,平均每對 QA 包括了 49.6 個從 google 搜尋出來的 context 片段。
資料地址:https://github.com/nyu-dl/SearchQA
論文連結:https://arxiv.org/abs/1704.05179
推薦人:大俊,PaperWeekly 首席客服
#模型壓縮#
Exploring Sparsity in Recurrent Neural Networks
本文的工作來自百度,解決的問題是 RNN 模型的壓縮,模型尺寸壓縮了將近 8x,準確率保持了一定的水準。對模型壓縮感興趣的童鞋可以來看看。
論文連結:https://arxiv.org/abs/1704.05119
推薦人:大俊,PaperWeekly 首席客服