7 Papers & Radios | 史上最大AI模型GPT-3上線;Transformer跨界做目標檢測

机器之心發表於2020-05-31

目錄:

  1. Knowledge Graph Embedding for Link Prediction: A Comparative Analysis

  2. Efficient Deep Reinforcement Learning via Adaptive Policy Transfer

  3. The Resurgence of Structure in Deep Neural Networks 

  4. End-to-End Object Detection with Transformers

  5. Point2Mesh: A Self-Prior for Deformable Meshes

  6. Language Models are Few-Shot Learners

  7. PyChain: A Fully Parallelized PyTorch Implementation of LF-MMI for End-to-End ASR

  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精選論文(附音訊)


論文 1:Knowledge Graph Embedding for Link Prediction: A Comparative Analysis

  • 作者:Andrea Rossi、Donatella Firmani、Antonio Matinata、Paolo Merialdo、Denilson Barbosa

  • 論文連結:https://arxiv.org/pdf/2002.00819.pdf


摘要:知識圖譜(Knowledge graph, KGs)在工業和學術領域有很多應用,這反過來又推動了從各種來源大規模提取資訊的研究工作。儘管付出了諸多努力,但不得不承認最先進的知識圖譜也是不完整的。鏈路預測(Link Prediction, LP)是一種根據知識圖譜中的已存在實體去預測缺失事實的任務,它是一種有前途、廣泛研究且旨在解決知識圖譜不完整性的任務。

在最近,基於知識圖譜嵌入的鏈路預測技術在一些基準測試中實現了良好的效能。儘管這方面的研究文獻在快速增加,但對這些方法中不同設計選擇的影響卻沒有投以充分的注意。此外,這一領域的標準做法是測試大量的事實來報告準確性,其中一些實體被過度表示;這使得鏈路預測方法只修改包含這些實體的結構屬性來展示良好的效能,而忽略知識圖譜的主要部分。

因此,在這篇綜述論文中,來自羅馬第三大學和阿爾伯塔大學的研究者對基於嵌入的鏈路預測方法進行全面比較,將分析維度擴充套件到常見的文獻範圍之外。他們透過實驗比較了 16 種當前 SOTA 方法的有效性和效率,考慮到了一個基於規則的基準,並提供了文獻中最流行基準的詳細分析。

7 Papers & Radios | 史上最大AI模型GPT-3上線;Transformer跨界做目標檢測

本研究中鏈路預測模型的分類。

7 Papers & Radios | 史上最大AI模型GPT-3上線;Transformer跨界做目標檢測

本研究對比分析中模型的損失函式、約束和空間複雜度。

7 Papers & Radios | 史上最大AI模型GPT-3上線;Transformer跨界做目標檢測

本研究對比分析中採用的 5 個鏈路預測資料集以及它們的常規屬性。

7 Papers & Radios | 史上最大AI模型GPT-3上線;Transformer跨界做目標檢測

每個鏈路預測模型在 5 個資料集上的訓練時長。

推薦:這篇長達 43 頁的綜述論文首次對基於知識圖譜嵌入的鏈路預測模型進行了全面的對比分析,囊括 16 個方法和架構各異的鏈路預測模型,並在 5 個最流行的資料集上驗證了它們的有效性和效率。

論文 2:Efficient Deep Reinforcement Learning via Adaptive Policy Transfer

  • 作者:Tianpei Yang、Jianye Hao、Zhaopeng Meng 等

  • 論文連結:https://arxiv.org/pdf/2002.08037.pdf


摘要:透過利用過去學得的相關任務策略的先驗知識遷移學習(Transfer Learning, TL)在加速強化學習方面表現出了極大的潛力。現有的遷移方法要麼顯式地計算任務間的相似度,要麼選擇合適的源策略為目標任務提供指導性探索。但是,如何利用合適的源策略知識並且隱式地度量相似度,進而直接最佳化目標策略,這種思路的研究目前是缺失的。

因此,在本文中,來自華為諾亞方舟實驗室等機構的研究者提出的新型策略遷移框架(Policy Transfer Framework, PTF)透過利用上述思路來加速強化學習。該框架學習對於目標策略來說何時複用以及複用哪種源策略才能達到最佳效果,以及透過將多策略遷移建模為選擇學習問題來確定何時終止這種源策略。

7 Papers & Radios | 史上最大AI模型GPT-3上線;Transformer跨界做目標檢測

本研究中策略遷移框架(PTF)示意圖。

7 Papers & Radios | 史上最大AI模型GPT-3上線;Transformer跨界做目標檢測

演算法 1:PTF-A3C。

7 Papers & Radios | 史上最大AI模型GPT-3上線;Transformer跨界做目標檢測

兩種風格的網格世界(Grid world)W 和 W』。

7 Papers & Radios | 史上最大AI模型GPT-3上線;Transformer跨界做目標檢測

兩種具有連續控制的評估環境。

推薦:實驗表明,這種新型策略遷移框架能夠顯著加速學習過程,並在獨立和連續動作空間中的學習效率和最終效能兩方面超越了當前 SOTA 策略遷移方法。

論文 3:The Resurgence of Structure in Deep Neural Networks

  • 作者:Petar Veličković

  • 論文連結:https://www.repository.cam.ac.uk/handle/1810/292230


摘要:使用深度神經網路機器學習(「深度學習」)允許直接從原始輸入資料中學習複雜特徵,並完全消除了學習流程中手動硬編碼的特徵提取。這就可以透過以往分裂的研究領域,如計算機視覺自然語言處理強化學習和生成建模等來實現最佳效能。這些成功的案例都離不開大量可用的標籤訓練樣本(「大資料」),這些訓練樣本展現出簡單的網格結果(「文字或影像」),並透過卷積或迴圈網路加以利用。但是由於神經網路的自由度非常大,使得它們的泛化能力易於受到過擬合等的影響。

但是,對於很多領域來說,廣泛的資料收集並不總是適合、負擔得起或者可行的。此外,資料通常以更為複雜的結構組織起來,大多數現有方法也只是不採納這種結構。這種型別的任務在生物醫學領域非常豐富。

所以,在本文中,GAT 作者、劍橋大學三一學院博士生 Petar Veličković做出假設,如果深度學習能夠在此類環境中充分發揮其潛力,則需要重新考慮「硬編碼」方法,即透過結果性歸納偏差,將輸入資料中固有結構的假設直接整合到他提出的架構和學習演算法中。作者透過自己開發的 3 個 structure-infused 神經網路架構(在稀疏多模態和圖結構資料上運算)和 1 個 structure-informed 圖神經網路學習演算法直接驗證了以上假設,並證明了較傳統基線模型和演算法的顯著效能提升。

7 Papers & Radios | 史上最大AI模型GPT-3上線;Transformer跨界做目標檢測

本文作者 Petar Veličković現為 DeepMind 研究科學家,在劍橋大學三一學院取得電腦科學博士學位,其導師為 Pietro Liò。他的研究興趣是設計能夠在非平凡結構資料(如圖)上運算的神經網路架構,以及這些架構在演算法推理和計算生物學領域的應用。

7 Papers & Radios | 史上最大AI模型GPT-3上線;Transformer跨界做目標檢測

本篇博士論文的主要貢獻:早期跨模態融合、圖卷積和圖無監督學習。

7 Papers & Radios | 史上最大AI模型GPT-3上線;Transformer跨界做目標檢測

左:單個迴圈神經網路單元;中:RNN 單元的擴充套件,以執行反向傳播;右:堆疊兩個 RNN 單元,得到「深度」RNN。

7 Papers & Radios | 史上最大AI模型GPT-3上線;Transformer跨界做目標檢測

用於影像分類的簡單跨模態 CNN 圖示。

推薦:最為大家所熟知的是,Peter Veličković為圖注意力網路(Graph Attention Network, GAT)和深度圖資訊最大化(Deep Graph Infomax, DGI)的第一作者。

論文 4:End-to-End Object Detection with Transformers

  • 作者:Nicolas Carion、Francisco Massa、Gabriel Synnaeve 等

  • 論文連結:https://arxiv.org/pdf/2005.12872v1.pdf


摘要:近年來,Transformer 成為了深度學習領域非常受歡迎的一種架構,它依賴於一種簡單但卻十分強大的機制——注意力機制,使得 AI 模型有選擇地聚焦於輸入的某些部分,因此推理更加高效。Transformer 已經廣泛應用於序列資料的處理,尤其是在語言建模、機器翻譯自然語言處理領域。此外,它在語音識別、符號數學、強化學習等多個領域也有應用。但令人意外的是,計算機視覺領域一直還未被 Transformer 所席捲。

為了填補這一空白,Facebook AI 的研究者推出了 Transformer 的視覺版本—Detection Transformer(以下簡稱 DETR),用於目標檢測和全景分割。與之前的目標檢測系統相比,DETR 的架構進行了根本上的改變。這是第一個將 Transformer 成功整合為檢測 pipeline 中心構建塊的目標檢測框架。在效能上,DETR 可以媲美當前的 SOTA 方法,但架構得到了極大簡化。

具體來說,研究者在 COCO 目標檢測資料集上將 DETR 與 Faster R-CNN 基線方法進行了對比,結果發現 DETR 在大型目標上的檢測效能要優於 Faster R-CNN,但在小目標的檢測上效能不如後者,這為今後 DETR 的改進提供了新的方向。

7 Papers & Radios | 史上最大AI模型GPT-3上線;Transformer跨界做目標檢測

DETR 透過將一個常見 CNN 與 Transformer 結合來直接預測最終的檢測結果。在訓練期間,二分匹配(bipartite matching)向預測結果分配唯一的 ground truth 邊界框。沒有匹配的預測應生成一個「無目標」的分類預測結果。

7 Papers & Radios | 史上最大AI模型GPT-3上線;Transformer跨界做目標檢測

傳統兩階段檢測系統,如 Faster R-CNN,透過對大量粗糙候選區域的過濾來預測目標邊界框。與之相比,DETR 利用標準 Transformer 架構來執行傳統上特定於目標檢測的操作,從而簡化了檢測 pipeline。

7 Papers & Radios | 史上最大AI模型GPT-3上線;Transformer跨界做目標檢測

在 COCO 驗證集上與 Faster R-CNN 的對比結果。

7 Papers & Radios | 史上最大AI模型GPT-3上線;Transformer跨界做目標檢測

DETR-R101 處理的全景分割效果。

推薦:這是模型的跨界,Transformer 首次用於目標檢測,效果媲美 Faster R-CNN。

論文 5:Point2Mesh: A Self-Prior for Deformable Meshes

  • 作者:Rana Hanocka、Gal Metzer、Raja Giryes、Daniel Cohen-Or

  • 論文連結:https://arxiv.org/pdf/2005.11084.pdf


摘要:近日,來自以色列特拉維夫大學的研究者提出了一種從輸入點雲重構曲面網格的技術——Point2Mesh。與之前方法需指定一個用於編碼期望形狀的 prior 不同,該研究使用輸入點雲來自動生成 prior,並稱其為 self-prior。該 self-prior 將重複出現的幾何形狀由單一形狀封裝在深度神經網路權重之中。

研究者對網路權重進行最佳化,使得初始網格變形,以收縮包覆(shrink-wrap)單個輸入點雲。由於共享的區域性核心被用來擬合整個物體,因此考慮到了整個重構的形狀。將多個卷積核在整體形狀上進行全域性最佳化,從而鼓勵了區域性尺度在形狀曲面上的幾何自相似性。

研究者展示了,與預先設定的平滑 prior(經常陷入不佳的區域性最優)相比,使用 self-prior 收縮包覆點雲能夠收斂至令人滿意的結果。傳統的重構方法在非理想條件下效能會惡化,並且如非定向法線,噪音和部件缺失(低密度)等情況在現實世界的掃描裡經常出現,而 Point2Mesh 在非理想條件下具有一定的魯棒性。研究者在大量不同複雜度的各種形狀上驗證了 Point2Mesh 的效能表現。

7 Papers & Radios | 史上最大AI模型GPT-3上線;Transformer跨界做目標檢測

該方法從單個物件學習,透過最佳化卷積神經網路(CNN)的權重來使一些初始網格變形,以收縮包覆輸入點雲。

7 Papers & Radios | 史上最大AI模型GPT-3上線;Transformer跨界做目標檢測

使用平滑 prior 從有缺失區域的點雲中重構完整的網格,該方法會忽略整體形狀特徵。

7 Papers & Radios | 史上最大AI模型GPT-3上線;Transformer跨界做目標檢測

在 l 層上的 Point2Mesh 框架概覽。

7 Papers & Radios | 史上最大AI模型GPT-3上線;Transformer跨界做目標檢測

在估計法線上的重建結果展示。

推薦:與使用預先設定的光滑 prior 不同,這篇 SIGGRAPH 論文使用 CNN 自動生成 prior,準確建模細粒度特徵的同時過濾噪聲與異常值。

論文 6:Language Models are Few-Shot Learners

  • 作者:Tom B. Brown、Benjamin Mann、Nick Ryder 等

  • 論文連結:https://arxiv.org/pdf/2005.14165.pdf


摘要:近日,OpenAI 提出的 GPT-3 在社交網路上掀起了新一陣風潮,它的引數量要比 2 月份剛剛推出的、全球最大深度學習模型 Turing NLP 大上十倍,而且不僅可以更好地答題、翻譯、寫文章,還帶有一些數學計算的能力。這樣強大的深度學習,不禁讓人產生一種錯覺:真正的 AI 要來了嗎?

首先,GPT-3 最令人驚訝的還是模型體量。根據 OpenAI 的算力統計單位 petaflops/s-days,訓練 AlphaGoZero 需要 1800-2000pfs-day,而 OpenAI 剛剛提出的 GPT-3 用了 3640pfs-day,看來擁有微軟無限算力的 OpenAI,現在真的是為所欲為了。

研究者們希望 GPT-3 能夠成為更通用化的 NLP 模型,解決當前 BERT 等模型的兩個不足之處:對領域內有標記資料的過分依賴,以及對於領域資料分佈的過擬合。GPT-3 致力於能夠使用更少的特定領域,不做 fine-tuning 解決問題。

7 Papers & Radios | 史上最大AI模型GPT-3上線;Transformer跨界做目標檢測

GPT-3 生成新聞示例。

7 Papers & Radios | 史上最大AI模型GPT-3上線;Transformer跨界做目標檢測

人類對 GPT-3 175B 模型生成的約 500 詞文章的判斷準確率為 52%,不過相比於 GPT-3 control 模型(沒有語境和不斷增加的輸出隨機性且只具備 1.6 億引數的模型),GPT-3 175B 生成的文字質量要高得多。

7 Papers & Radios | 史上最大AI模型GPT-3上線;Transformer跨界做目標檢測

OpenAI 研究人員在以上 10 項任務中測試了 GPT-3 做簡單計算的能力,且無需任何任務特定的訓練。

7 Papers & Radios | 史上最大AI模型GPT-3上線;Transformer跨界做目標檢測

OpenAI 在多項任務中對 GPT-3 的效能進行了測試,包括語言建模、補全、問答、翻譯、常識推理、SuperGLUE 等任務。

推薦:包含 1750 億引數,GPT-3 成為史上最大 AI 模型,不僅會寫文章、答題,還懂數學。

論文 7:PyChain: A Fully Parallelized PyTorch Implementation of LF-MMI for End-to-End ASR

  • 作者:Yiwen Shao、Yiming Wang、Daniel Povey、Sanjeev Khudanpur

  • 論文連結:https://arxiv.org/pdf/2005.09824.pdf


摘要:在本文中,來自約翰霍普金斯大學和小米的研究者(Daniel Povey)提出了 PyChain,對於 Kaldi 自動語音識別(automatic speech recognition, ASR)工具包中鏈式模型的端到端無網格最大互動資訊(lattice-free maximum mutual information, LF-MMI)訓練,PyChain 可以實現完全並行化 PyTorch 實現。

與其他基於 PyTorch 和 Kaldi 的 ASR 工具包不同,PyChain 在設計上儘可能輕巧靈活,這樣可以輕鬆地插入新的 ASR 專案或者其他基於 PyTorch 的 ASR 工具。PyChain 的效率和靈活性體現在以下這些新特徵上,如在分子/分母圖上的完全 GPU 訓練以及對不規則長度序列的支援。

7 Papers & Radios | 史上最大AI模型GPT-3上線;Transformer跨界做目標檢測

利用本研究中 PyChain 做端到端 LF-MMI 訓練的 pipeline。

7 Papers & Radios | 史上最大AI模型GPT-3上線;Transformer跨界做目標檢測

PyChain 模組組成。

7 Papers & Radios | 史上最大AI模型GPT-3上線;Transformer跨界做目標檢測

演算法 1:前向演算法。

7 Papers & Radios | 史上最大AI模型GPT-3上線;Transformer跨界做目標檢測

資料增強下各模型的 WER(%) 結果對比。

推薦:在 WSJ 資料集上的實驗表明,利用簡單的神經網路和常用的機器學習方法,PyChain 可以實現媲美 Kaldi 甚至優於其他端到端 ASR 系統的結果。

ArXiv Weekly Radiostation

機器之心聯合由楚航、羅若天發起的ArXiv Weekly Radiostation,在 7 Papers 的基礎上,精選本週更多重要論文,包括NLP、CV、ML領域各10篇精選,並提供音訊形式的論文摘要簡介,詳情如下:

10 NLP Papers.mp300:0021:06

本週 10 篇 NLP 精選論文是:


1. Language Models are Few-Shot Learners. (from Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child等)
2. Verification and Validation of Convex Optimization Algorithms for Model Predictive Control. (from Raphaël Cohen, Eric Féron, Pierre-Loïc Garoche)
3. Counterfactual Detection meets Transfer Learning. (from Kelechi Nwaike, Licheng Jiaoo)
4. T-RECS: a Transformer-based Recommender Generating Textual Explanations and Integrating Unsupervised Language-based Critiquing. (from Diego Antognini, Claudiu Musat, Boi Faltings)
5. Syntactic Structure Distillation Pretraining For Bidirectional Encoders. (from Adhiguna Kuncoro, Lingpeng Kong, Daniel Fried, Dani Yogatama, Laura Rimell, Chris Dyer, Phil Blunsom)
6. Investigating Label Bias in Beam Search for Open-ended Text Generation. (from Liang Wang, Jinlong Liu, Jingming Liu)
7. K{\o}psala: Transition-Based Graph Parsing via Efficient Training and Effective Encoding. (from Daniel Hershcovich, Miryam de Lhoneux, Artur Kulmizev, Elham Pejhan, Joakim Nivre)
8. A Corpus for Large-Scale Phonetic Typology. (from Elizabeth Salesky, Eleanor Chodroff, Tiago Pimentel, Matthew Wiesner, Ryan Cotterell, Alan W Black, Jason Eisner)
9. Exploring aspects of similarity between spoken personal narratives by disentangling them into narrative clause types. (from Belen Saldias, Deb Roy)
10. The Discussion Tracker Corpus of Collaborative Argumentation. (from Christopher Olshefski, Luca Lugini, Ravneet Singh, Diane Litman, Amanda Godley)

10 CV Papers.mp300:0022:59

本週 10 篇 CV 精選論文是:

1. Symbolic Pregression: Discovering Physical Laws from Raw Distorted Video. (from Silviu-Marian Udrescu, Max Tegmark)
2. Learning to Simulate Dynamic Environments with GameGAN. (from Seung Wook Kim, Yuhao Zhou, Jonah Philion, Antonio Torralba, Sanja Fidler)
3. Detecting Scatteredly-Distributed, Small, andCritically Important Objects in 3D OncologyImaging via Decision Stratification. (from Zhuotun Zhu, Ke Yan, Dakai Jin, Jinzheng Cai, Tsung-Ying Ho, Adam P Harrison, Dazhou Guo, Chun-Hung Chao, Xianghua Ye, Jing Xiao, Alan Yuille, Le Lu)
4. Robust Object Detection under Occlusion with \\Context-Aware CompositionalNets. (from Angtian Wang, Yihong Sun, Adam Kortylewski, Alan Yuille)
5. Novel Human-Object Interaction Detection via Adversarial Domain Generalization. (from Yuhang Song, Wenbo Li, Lei Zhang, Jianwei Yang, Emre Kiciman, Hamid Palangi, Jianfeng Gao, C.-C. Jay Kuo, Pengchuan Zhang)
6. Hashing-based Non-Maximum Suppression for Crowded Object Detection. (from Jianfeng Wang, Xi Yin, Lijuan Wang, Lei Zhang)
7. Region-adaptive Texture Enhancement for Detailed Person Image Synthesis. (from Lingbo Yang, Pan Wang, Xinfeng Zhang, Shanshe Wang, Zhanning Gao, Peiran Ren, Xuansong Xie, Siwei Ma, Wen Gao)
8. Towards Fine-grained Human Pose Transfer with Detail Replenishing Network. (from Lingbo Yang, Pan Wang, Chang Liu, Zhanning Gao, Peiran Ren, Xinfeng Zhang, Shanshe Wang, Siwei Ma, Xiansheng Hua, Wen Gao)
9. A Convolutional Neural Network with Parallel Multi-Scale Spatial Pooling to Detect Temporal Changes in SAR Images. (from Jia-Wei Chen, Rongfang Wang, Fan Ding, Bo Liu, Licheng Jiao, Jie Zhang)
10. Fine-Grain Few-Shot Vision via Domain Knowledge as Hyperspherical Priors. (from Bijan Haney, Alexander Lavin)

10 ML Papers.mp300:0022:27

本週 10 篇 ML 精選論文是:


1. Instability, Computational Efficiency and Statistical Accuracy. (from Nhat Ho, Koulik Khamaru, Raaz Dwivedi, Martin J. Wainwright, Michael I. Jordan, Bin Yu)
2. Non-IID Graph Neural Networks. (from Yiqi Wang, Yao Ma, Charu Aggarwal, Jiliang Tang)
3. Parameter Sharing is Surprisingly Useful for Multi-Agent Deep Reinforcement Learning. (from Justin K Terry, Nathaniel Grammel, Ananth Hari, Luis Santos, Benjamin Black, Dinesh Manocha)
4. Accelerating Antimicrobial Discovery with Controllable Deep Generative Models and Molecular Dynamics. (from Payel Das, Tom Sercu, Kahini Wadhawan, Inkit Padhi, Sebastian Gehrmann, Flaviu Cipcigan, Vijil Chenthamarakshan, Hendrik Strobelt, Cicero dos Santos, Pin-Yu Chen, Yi Yan Yang, Jeremy Tan, James Hedrick, Jason Crain, Aleksandra Mojsilovic)
5. A Feature-map Discriminant Perspective for Pruning Deep Neural Networks. (from Zejiang Hou, Sun-Yuan Kung)
6. Multi-Source Deep Domain Adaptation with Weak Supervision for Time-Series Sensor Data. (from Garrett Wilson, Janardhan Rao Doppa, Diane J. Cook)
7. Incidental Supervision: Moving beyond Supervised Learning. (from Dan Roth)
8. Approximation in shift-invariant spaces with deep ReLU neural networks. (from Yunfei Yang, Yang Wang)
9. FedPD: A Federated Learning Framework with Optimal Rates and Adaptivity to Non-IID Data. (from Xinwei Zhang, Mingyi Hong, Sairaj Dhople, Wotao Yin, Yang Liu)
10. COVID-19 and Your Smartphone: BLE-based Smart Contact Tracing. (from Pai Chet Ng, Petros Spachos, Konstantinos Plataniotis)

相關文章