@guohao916 推薦
#Machine Reading Comprehension
本文提出了一個基於上下文的機器閱讀理解資料集 QuAC,該資料集存在兩類人群:Student 和 Teacher。Student 依次提出一系列自由式的問題,而 Teacher 進行回答,該回答是基於文章內部的片段產生的。不同於以往的機器閱讀理解資料集,該資料集存在以下特點:
1. 問題是開放式的,也就是說問題的答案不一定存在於文章的片段中。因此 Student 在提問前不知道是否能夠被回答;
2. Teacher 的回答必需基於文章內部的片段,不存在自由片段(遊離於文章內容的片段);
3. 對話終止的條件包括:從開始對話到現在,(a). 已經有 12 個問題被回答了;(b). Student 和 Teacher 中的某一位主動提出結束對話;(c). 有兩個問題不能夠被回答。
論文采用了 Pretrained InferSent,Feature-rich logistic regression,BiDAF++ 以及 BiDAF++ w/ x-ctx 作為基準演算法,選用 HEQQ,HEQD 和 F1 等作為效果度量指標,進行了一系列實驗。實驗結果表明,目前的基準演算法得到的最好結果,相較於人工判斷的效果還存在很大提升空間。
▲ 論文模型:點選檢視大圖
論文連結
https://www.paperweekly.site/papers/2255
資料集連結
http://quac.ai/
@wangshy 推薦
#Text Classification
本文是清華大學發表於 IJCAI 2018 的工作。針對文字分類任務中卷積神經網路通常無法靈活學習可變 n 元特徵(n-gram)的問題,論文提出了一種具有適應式注意力機制的密集連線的卷積神經網路。該模型透過建立底層特徵和高層特徵之間的跨層連線,從而獲得了豐富的多尺度特徵,而注意力模型能夠自適應地選擇合適尺度的特徵以適用於各種不同的文字分類問題。該法面向六個公開資料集均實現了超過基線的預測精度。
▲ 論文模型:點選檢視大圖
論文連結
https://www.paperweekly.site/papers/2240
原始碼連結
https://github.com/wangshy31/Densely-Connected-CNN-with-Multiscale-Feature-Attention
On the Decision Boundary of Deep Neural Networks
@lykaust15 推薦
#Deep Neural Networks
近年來,深度學習在各個領域以及工業界都取得了令人矚目的成功。但是人們一直無法解釋為什麼深度學習在分類上的 performance 會比傳統的方法要好那麼多。尤其是,人們無法解釋為什麼模型複雜度那麼高的神經網路沒有災難性的 overfitting 問題(確實存在 overfitting 問題,但是沒有嚴重到過於影響到模型的performance)。
這是一個非常值得研究的問題。它能夠幫助我們更進一步理解深度學習從而進一步提升深度學習的 performance。同時,它也有可能幫助我們解決一些實際的問題,比如 adversarial attacking,catastrophic forgetting。
在前人的工作基礎上,本文從理論和實驗上證明了深度學習和 SVM 的內在聯絡。如果訓練資料的 cross entropy loss 趨向於 0,那麼使用 SGD 訓練深度學習會使神經網路的最後一層的引數的方向趨向於 SVM solution 的方向。
也就是說,如果將深度神經網路劃分成兩個部分,最後一層和除了最後一層的所有層。我們可以將除了最後一層的所有層當做一個 mapping function,這個 mapping function 將原始的輸入對映到一個 hidden representation 上。而網路的最後一層實際上是一個 linear classifier。如果使用 hidden representation 和原始的 label 訓練一個 SVM,我們會發現 SGD 會使神經網路的最後一層的引數的方向 converge 到這個 SVM solution 的方向上。
本文還用大量的實驗證明神經網路最後一層 classifier 的 bias 也非常接近 SVM 的 bias。本文顯示 margin theory 有可能解釋深度學習的 generalization property。
和前人的工作不同,本文沒有對神經網路進行任何的簡化,研究的模型就是平時常用的模型,比如 resnet,densenet。本文的結論非常具有實用性。
▲ 論文模型:點選檢視大圖
論文連結
https://www.paperweekly.site/papers/2252
原始碼連結
https://github.com/lykaust15/NN_decision_boundary
@daven88 推薦
#Recommender System
本文提出了一種基於 self-attention 的基於序列的推薦演算法,該演算法是用 self-attention 從使用者的互動記錄中自己的去學習用的近期的興趣,同時該模型也保留了使用者的長久的興趣。整個網路是在 metric learning 的框架下,是第一次將 self-attention 和 metric learning的結合的嘗試。
實驗結果表明,透過 self-attention,模型可以很好的學習使用者的短期興趣愛好, 並且能有效的提升模型效果。透過和近期的文章得對比發現,該方法可以在很大程度上改善序列化推薦的效果。
▲ 論文模型:點選檢視大圖
論文連結
https://www.paperweekly.site/papers/2246
@yangdali 推薦
#Abstractive Summarization
本文是騰訊發表於 IJCAI 2018 的工作,文章提出了一種基於卷積神經網路的總結式文字摘要生成方法,並結合主題模型的注意力機制,利用強化學習方法進行最佳化,在 DUC、Gigaword 和 LCSTS 資料集上達到 state of the art。
▲ 論文模型:點選檢視大圖
論文連結
https://www.paperweekly.site/papers/2234
@lunar 推薦
#Sentence Embeding
本文給出了一個新穎的看法,即一些垃圾資料對訓練也可以是有用的。作者人為製造出很多假資料(透過隨機從文字中丟失一些詞和打亂一些詞的順序),訓練出一個二分類網路用於判別真假文字,這種方式訓練出的模型在很多工上有更好的表現。有點像 CV 界資料增強的逆向玩法。
▲ 論文模型:點選檢視大圖
論文連結
https://www.paperweekly.site/papers/2229
@chlr1995 推薦
#Bayesian Deep Learning
本文從數學角度嘗試解釋 Dropout 的作用,深入探究 dropout 的本質。論文提出了一種從權重層面引入噪聲的方法。實驗結果顯示,這種方法不僅可以提高網路的最終收斂結果,也可以加速收斂。
▲ 論文模型:點選檢視大圖
論文連結
https://www.paperweekly.site/papers/2212
原始碼連結
https://github.com/noahfl/densenet-sdr
@lunar 推薦
#Genetic Algorithms
本文是 Google Brain 發表於 ICML 2018 的工作,作者希望能夠找到一種能夠替代反向傳播的方法。因此,他們設計了一種 domain-specific language (DSL) 來函式式描述數學公式(例如反向傳播),然後利用演化演算法來發現新的傳播演算法,旨在找到泛化效能比 BP 更好的演算法。最終透過實驗,他們找到的演算法能夠在訓練前期收斂得更快,但是收斂時並沒有表現得更好。
BP 演算法雖然取得了很大的成就,但是近年學界前沿也指出它的一些侷限性,本文給這方面的研究探出了一小步。
▲ 論文模型:點選檢視大圖
論文連結
https://www.paperweekly.site/papers/2211
@Qfengly 推薦
#Dialog System
本文是百度發表於 ACL 2018 的工作,論文將 attention 應用於多輪對話,打破之前的 RNN 和 CNN 結構,在多輪上速度快,達到了目前最好效果。其次,本文使用 self-attention 和 cross-attention 來提取 response 和 context 的特徵。
▲ 論文模型:點選檢視大圖
論文連結
https://www.paperweekly.site/papers/2250
@EricShen 推薦
#Recommender Systems
本文在 ACL 2018 上獲得了 Best Paper Honourable Mention Award。現有的句子表示大多都是基於連續的 vector(skip-thought vector 等),而本文考慮用離散的 binary vector 來表示句子(文件),並首次提出用端到端的 Variational Autoencoder 來學習 binary 的句子表示。基於這些 binary 的向量,兩個文件的相似度就可以透過他們 representations 之間的 hamming distance(即有多少 bit 不同)來進行判斷。
相較於連續的 vector 上的 inner product 操作,這種策略有更快的計算速度(這種方法被稱為 semantic hashing)。同時,離散的向量在 storage 上也比連續的向量更加節省空間。
在 information retrieval 的幾個 benchmark 資料集上,本文的模型相對於以前的 semantic hashing 方法在搜尋準確率上實現了明顯的提升。
▲ 論文模型:點選檢視大圖
論文連結
https://www.paperweekly.site/papers/2225
@pxwluffy 推薦
#Deep Learning
本文從幾何的角度理解深度學習,為深度學習提供嚴密的數學論證。深度學習目前還停留在實驗科學的階段,其嚴格的數學解釋還未完全建立。
▲ 論文模型:點選檢視大圖
論文連結
https://www.paperweekly.site/papers/2216
@aforever 推薦
#Multi-task Learning
本文是阿里發表於 AAAI 2018 的工作,論文利用使用者搜尋日誌進行多工學習以壓縮商品標題,生成的商品短標題在離線自動評測、人工評測以及線上評測中均超過傳統抽取式摘要方法。端到端的訓練方式避免了傳統方法的大量人工預處理以及特徵工程。多工學習中的 Attention 分佈一致性設定使得最終生成的商品短標題中能透出原始標題中重要的詞,尤其是能引導成交的核心詞,對於其他電商場景也有重要意義。
▲ 論文模型:點選檢視大圖
論文連結
https://www.paperweekly.site/papers/2253