深度學習頂會 ICLR 2019 的兩篇最佳論文現已放出,來自蒙特利爾大學、微軟研究院和 MIT CSAIL 的研究者獲得了最佳論文獎。其中一篇最佳論文探討自然語言處理問題,提出利用神經元排序將對自然語言層級結構的考慮納入網路。另一篇最佳論文探討了模型壓縮問題,提出了一個新的概念:彩票假設。
一年一度的深度學習盛會 ICLR 將於當地時間 5 月 6 日-9 日在新奧爾良舉行。據統計,ICLR 2019 共收到 1591 篇論文投稿,相比去年的 996 篇增長了 60%,其中 oral 論文 24 篇,poster 論文 476 篇。
目前,ICLR 2019 的最佳論文已經發布。來自蒙特利爾大學 MILA 研究所、微軟研究院的論文《Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks》和來自 MIT CSAIL 研究者的論文《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》奪得本屆大會的最佳論文獎項。
論文:Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks
作者:Yikang Shen、Shawn Tan、Alessandro Sordoni、Aaron Courville(蒙特利爾大學 MILA 研究所、微軟研究院)
論文地址:https://openreview.net/forum?id=B1l6qiR5F7
摘要:自然語言是層級結構的:較小的單元(如片語)被巢狀在較大的單元(如子句)內。當較大的成分結束時,巢狀在其內部的較小成分也必須是封閉的。儘管標準 LSTM 架構允許不同神經元以不同時間尺度追蹤資訊,但它對建模句子成分層級沒有明確的偏置(explicit bias)。
本文提出透過對神經元排序的方式新增此類歸納偏置;master input 向量和遺忘門確保在給定神經元更新時,緊隨其後的所有神經元也都得到更新。這一新型迴圈架構 ordered neurons LSTM (ON-LSTM) 在四種不同任務上獲得了優秀效能,分別是:語言建模、無監督解析、目標句法評估和邏輯推理。
圖 2:句子成分解析樹和 ON-LSTM 隱藏狀態之間的對應。
表 1:在 Penn Treebank 語言建模任務上,ON-LSTM、LSTM 等模型在驗證集和測試集上的模型困惑度對比。
表 2:ON-LSTM 等模型在完整 WSJ10 和 WSJ 測試集上的無標註解析 F1 結果。
表 3:ON-LSTM 和 LSTM 在每個測試案例中的整體準確率。
圖 3:在邏輯資料中的短序列 (≤ 6) 上訓練模型的測試準確率。
論文:The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks
作者:Jonathan Frankle、Michael Carbin
論文地址:https://openreview.net/forum?id=rJl-b3RcF7
摘要:神經網路剪枝技術可將網路引數量減少 90%,進而在不犧牲準確率的前提下減少儲存需求、提升推斷的計算效能。然而現有經驗表明,剪枝生成的解析架構從一開始就很難訓練,儘管解析架構同樣可以提升訓練效能。
我們發現,標準的剪枝技術會自然地發現子網路,這些子網路經過初始化後能夠有效進行訓練。基於這些結果,我們提出了「彩票假設」(lottery ticket hypothesis):密集、隨機初始化的前饋網路包含子網路(「中獎彩票」),當獨立訓練時,這些子網路能夠在相似的迭代次數內達到與原始網路相當的測試準確率。
「中獎彩票」贏得了「初始化彩票」:它們的連線具有使訓練非常高效的初始權重。我們提出了一種識別中獎彩票的演算法,並用一系列實驗來支援彩票假設以及這些偶然初始化的重要性。我們發現在 MNIST 和 CIFAR10 資料集上,「中獎彩票」網路的大小不及全連線、卷積前饋架構的 10%-20%。而且,這種「中獎彩票」比原始網路學習速度更快,測試準確率也更高。
那麼,應該如何確定「中獎彩票」呢?該研究提出了以下四個步驟:
圖 5:當迭代剪枝並再次隨機初始化時,Conv-2/4/6 架構的早停迭代、測試和訓練準確率。每條實線是五次試驗的平均結果;每條虛線是 15 次再初始化(每次試驗 3 次再初始化)的平均結果。
圖 6:當用 dropout 迭代剪枝和訓練時,Conv-2/4/6 在早停時的測試準確率和早停迭代。虛線代表的是沒用 dropout 訓練的相同網路(圖 5 中的實線)。Conv-2 的學習率為 0.0003,Conv-4 和 Conv-6 的學習率為 0.0002。
圖 7:VGG-19 在迭代剪枝時的測試準確率(分別是 3 萬次、6 萬次、11.2 萬次迭代)。
圖 8:Resnet-18 在迭代剪枝時的測試準確率(分別是 1 萬次、2 萬次、3 萬次迭代)。