7 Papers | 深度強化學習綜述、圖靈71年前未發表的智慧機器論文

機器之心發表於2019-06-30

1.標題:Modern Deep Reinforcement Learning Algorithms

  • 作者:Sergey Ivanov,Alexander D'yakonov

  • 連結:https://arxiv.org/pdf/1906.10025v1 

摘要:基於經典理論結果與深度學習演算法的結合,強化學習近年來取得了一系列新的進展,給許多工也帶來了突破,因此深度強化學習也成為了一個新的熱門研究領域。此論文對新興的深度強化學習演算法進行了概述,注重理論依據、實踐缺陷與觀察到的經驗型特性。

推薦深度強化學習是如今人工智慧領域的熱門研究方向,這篇近 60 多頁的深度強化學習綜述論文,為我們瞭解這一領域提供了較為全面的資料。

2.標題:Deep Set Prediction Networks

  • 作者:Yan Zhang , Jonathon Hare , Adam Prügel-Bennett

  • 連結:https://arxiv.org/abs/1906.06565v1

摘要:在本文中,研究者探討了如何利用深度神經網路從特徵向量中預測集合的問題。現有方法往往忽略集合結構,並因此存在不連續問題。研究者提出一種預測集合的通用模型,該模型恰當地遵循集合結構,從而避免了上述不連續問題。以單個特徵向量作為輸入,文中提出的模型能夠自動編碼點集,預測影像中物件集的邊界框以及這些物件的屬性。

推薦:儘管針對集合型別資料的編碼器種類已經很多,但相應的解碼器則較少。這篇論文提出對集合進行連續預測,在解碼器架構方面提出了新思路,便於進一步將目標檢測任務轉換為端到端任務。特斯拉 AI 總監 Andrej Karpathy 推薦該論文。

3.標題:When Deep Learning Met Code Search

  • 作者:Jose Cambronero , Hongyu Li , Seohyun Kim , Koushik Sen, Satish Chandra

  • 連結:https://arxiv.org/pdf/1905.03813

摘要:近來有很多關於使用深度神經網路進行程式碼搜尋的研究。這些論文的共性在於,他們都提出將程式碼和自然語言查詢全部轉換為詞嵌入向量,然後計算向量的距離,以便判斷程式碼和查詢之間的語義相似度。現在已經有很多種程式碼和查詢詞嵌入向量模型的訓練方法,如無監督學習和監督學習。無監督學習只依賴於程式碼樣本的語料資料,而監督學習使用程式碼語料和其對應的自然語言描述資料。監督學習的目的在於創造出和查詢及相應程式碼最為相似的詞嵌入向量。很明顯,這裡存在選擇無監督學習還是監督學習,以及為監督學習選擇何種模型的問題。本論文是第一個系統研究這兩個問題的論文,最終,作者們將現有最佳效果的實現技術組合起來,建立了一個共同的平臺,用於訓練和評價語料。為了研究網路的複雜程度,他們也提出了一種新的設計方法——從已有的無監督模型上延伸出一些有監督的方法。

實驗結果說明:1. 在已有的無監督模型基礎上增加監督學習可以提升模型表現,雖然提升不多;2. 簡單的監督學習模型比設計精巧的、基於序列的程式碼搜尋方法效果更好;3. 儘管現在普遍使用文件字串進行監督學習,但是基於文件字串和基於查詢的監督語料的模型在效果上之間存在明顯的差別。

推薦:這篇論文結合了監督模型和無監督模型,並使用了 Stack Overflow 資料集匹配查詢和對應的程式碼。Facebook 官方部落格介紹了與這篇論文相關的內容:把深度學習用於程式碼搜尋,為開發者搜尋、查詢程式碼段提供了有力工具。也許以後找程式碼只要提出一個問題就可以了。

4.標題:Learning Data Augmentation Strategies for Object Detection

  • 作者:Barret Zoph , Ekin D. Cubuk, Golnaz Ghiasi, Tsung-Yi Lin, Jonathon Shlens , Quoc V. Le 

  • 連結:https://arxiv.org/abs/1906.11172

摘要:儘管資料增強能極大的改進影像分類表現,但它在目標檢測任務上的效果還未被透徹研究過。此外,目標檢測所用影像的註釋會造成大量的成本,所以資料增強對此計算機視覺任務的影響可能會更大。在此研究中,作者們研究了資料增強在目標檢測上的影響。在 COCO 資料集上的實驗結果說明,最佳化後的資料增強策略將檢測準確率提升了超過 2.3 mAP,使單推理模型能夠達到最佳效果——50.7 mAP。重要的是,COCO 資料集上發現的這種最佳策略可以直接遷移到其他目標檢測資料集上,同樣可以提升預測準確率。

推薦:Quoc Le 的團隊一直在研究資料增強策略,2018 年他們就曾釋出論文介紹了資料增加方法 AutoAugment。在近日發表的這篇論文中,作者們研究了資料增強在目標檢測上的影響,也表明資料增強能夠極大地改進檢測模型在他們基準上的表現。

5.標題:A Tensorized Transformer for Language Modeling

  • 作者:Xindian Ma , Peng Zhang Shuai Zhang , Nan Duan , Yuexian Hou, Dawei Song , Ming Zhou

  • 連結:https://arxiv.org/abs/1906.09777 

摘要:最近的神經模型開始利用自注意機制將編碼器和解碼器連線起來。特別是 Transformer,它完全基於自注意機機制,在自然語言處理(NLP)各項任務中取得了突破。然而,多頭注意力機制限制了模型的發展,使得模型需要較大的算力支援。為了解決這一問題,基於張量分解和引數共享的思想,本文提出了多頭線性注意力(Multi-linear attention)和 Block-Term Tensor Decomposition(BTD)。研究人員在語言建模任務及神經翻譯任務上進行了測試,與許多語言建模方法相比,多頭線性注意力機制不僅可以大大壓縮模型引數數量,而且提升了模型的效能。

推薦:近期,基於 Transformer 的預訓練語言模型大為火熱,如 BERT、XLNet 等,這篇論文的研究成果對此類方法作出了極大的改進。壓縮預訓練語言模型可以在更多小型裝置上訓練或部署,節約算力資源。

6.標題:DensePeds: Pedestrian Tracking in Dense Crowds Using Front-RVO and Sparse Features

  • 作者:Rohan Chandra, Uttaran Bhattacharya, Aniket Bera, and Dinesh Manocha

  • 連結:https://arxiv.org/pdf/1906.10313.pdf 

摘要:研究人員提出了一種行人檢測演算法——DensePeds,這種演算法可以從密集人群(平均每平米範圍內多於兩個人)中追蹤單個個體。這種研究可以用來從前臉或攝像頭拍攝的影片中捕捉個人。研究提出了一種新的動作模型——Front-RVO (FRVO)。模型使用防碰撞抑制機制,並和 Mask R-CNN 結合來計算稀疏特徵向量,以避免失去對行人的追蹤。這種模型用於預測行人在密集人群中的動作。研究人員在標準的 MOT 基準和新的密集人群資料集上進行了測試。結果說明,研究提出的方法比之前在 MOT 基準上取得的結果快 4.5 倍,並在密集人群影片追蹤上取得了平均 2.6% 的絕對改進,現已達到了最佳效果。

推薦:這是一篇對密集人群影片進行行人檢測的 SOTA 論文,且識別速度有極大的提升。論文提出的演算法結合了防碰撞抑制和 Mask R-CNN,增強了對行人的追蹤能力。

7.標題:Intelligent Machinery

  • 作者:Alan Turing

  • 連結:https://weightagnostic.github.io/papers/turing1948.pdf

摘要:近來有一些關於如何使機器表現出智慧行為的討論,使用人腦類比作為指導原則。有人指出,只有提供適當的教育,人類智慧的潛力才能體現。這篇論文集中探討將教育過程應用在機器上。論文會定義「無管理機器(unorganised machine)」的構想,而人類嬰兒也是透過這樣的方式獲得智力的。論文也會提供一些關於這種機器的簡單案例,並討論使用獎勵或懲罰對機器進行教育的方法。在其中一個例子中,這種教育會一直持續下去,直到整個組織和 ACE(自動計算引擎)相似。


推薦:這波人工智慧浪潮的興起很大程度是因為神經網路帶來的突破性進展。近日,有網友發現,早在 1948 年,「電腦科學之父」艾倫·圖靈的一篇未發表論文就介紹瞭如今人工智慧的眾多概念,包括如今火熱的神經網路。這篇論文在 Reddit 上也引起了社群熱議,感興趣的讀者可以瞭解下。

7 Papers | 深度強化學習綜述、圖靈71年前未發表的智慧機器論文

相關文章