選自leogao.dev
作者:Leo Gao
參與:一鳴、澤南、蛋醬
2020 新年快樂!
當今天的太陽昇起時,我們正式告別了上一個十年。
在這十年中,伴隨著計算能力和大資料方面的發展,深度學習已經攻克了許多曾經讓我們感到棘手的問題,尤其是計算機視覺和自然語言處理方面。此外,深度學習技術也越來越多地走進我們的生活,變得無處不在。
這篇文章總結了過去十年中在深度學習領域具有影響力的論文,從 ReLU、AlexNet、GAN 到 Transformer、BERT 等。每一年還有很多榮譽提名,包括了眾多名聲在外的研究成果。
2011 年:啟用函式 ReLU
《Deep Sparse Rectifier Neural Networks(ReLU)》
論文連結:(被引用量 4071)
早期的神經網路大多使用 sigmoid 啟用函式。雖然它具有很好的效果,但是,隨著層數的增加,這種啟用函式使得梯度很容易出現衰減。在 2011 年的這篇論文中,ReLU 被正式提出。它能夠幫助解決梯度消失的問題,為神經網路增加深度鋪路。
Sigmoid 及其導數。
當然,ReLU 也有一些缺點。在函式為 0 的時候不可微,而神經元可能會「死亡」。在 2011 年之後,很多針對 ReLU 的改進也被提了出來。
年度榮譽提名:(這一年的大部分研究集中於對啟用函式的改進)
1、《Rectifier Nonlinearities Improve Neural Network Acoustic Models(Leaky ReLU)》
基於對 ReLU 進行了改進的啟用函式,在 x 為負時不取 0。
論文連結:~amaas/papers/relu_hybrid_icml2013_final.pdf
2、《Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs)》
論文連結:
3、《Self-Normalizing Neural Networks(SELUs)》
論文連結:
4、《Gaussian Error Linear Units (GELUs)》
這一啟用函式已證明比 ReLU 效果更好,BERT 等模型已使用。
論文連結:
2012 年:掀起深度學習浪潮的 AlexNet
《ImageNet Classification with Deep Convolutional Neural Networks(AlexNet)》
論文連結:https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks(被引用量 52025)
AlexNet 架構。
AlexNet 經常被認為是這一波人工智慧浪潮的起點,該網路在 ImageNet 挑戰賽中的錯誤率與前一屆冠軍相比減小了 10% 以上,比亞軍高出 10.8 個百分點。AlexNet 是由多倫多大學 SuperVision 組設計的,由 Alex Krizhevsky, Geoffrey Hinton 和 Ilya Sutskever 組成。
AlexNet 是一個 8 層的卷積神經網路,使用 ReLU 啟用函式,總共有 6 千萬引數量。AlexNet 的最大貢獻在於證明了深度學習的能力。它也是第一個使用平行計算和 GPU 進行加速的網路。
在 ImageNet 上,AlexNet 取得了很好的表現。它將識別錯誤率從 26.2% 降到了 15.3%。顯著的效能提升吸引了業界關注深度學習,使得 AlexNet 成為了現在這一領域引用最多的論文。
年度榮譽提名:
1、《ImageNet: A Large-Scale Hierarchical Image Database(ImageNet)》
ImageNet 是史丹佛大學李飛飛等人完成的一個用於影像識別的資料集,是計算機視覺領域檢驗模型效能的基準資料集。
論文連結:http://www.image-net.org/papers/imagenet_cvpr09.pdf
ImageNet
2、《Flexible, High Performance Convolutional Neural Networks for Image Classification(Jurgen Schmidhuber 為通訊作者)》
論文連結:
3、《Gradient-Based Learning Applied to Document Recognition》
論文連結: http://vision.stanford.edu/cs598_spring07/papers/Lecun98.pdf
2013 年:NLP 的經典 word2vec;開啟深度強化學習時代
《Distributed Representations of Words and Phrases and their Compositionality(word2vec)》
論文連結:(被引用量 16923)
Word2vec 是由谷歌研究團隊裡 Thomas Mikolov 等人提出的模型,該模型能從非常大的資料集中計算出用以表示詞的連續型向量。word2vec 成為了 NLP 領域的深度學習主要的文字編碼方式。它基於在相同語境中同時出現詞具有相似含義的思路,使文字可以被嵌入為向量,並用於其他下游任務。
年度榮譽提名:
1、《GloVe: Global Vectors for Word Representation》
論文連結:
2、《Playing Atari with Deep Reinforcement Learning》
論文連結:~vmnih/docs/dqn.pdf(被引用量 3251)
DeepMind 的 DQN 模型玩雅達利遊戲
DeepMind 在這一年提出的用 DQN 玩雅達利遊戲開啟了深度強化學習研究的大門。強化學習過去大多數情況下用在低維環境中,很難在更復雜的環境中使用。雅達利遊戲是第一個強化學習在高維環境中的應用。這一研究提出了 Deep Q-learning 演算法,使用了一個基於價值的獎勵函式。
年度榮譽提名:
1、《Learning from Delayed Rewards(Q-Learning)》
論文連結:~chrisw/new_thesis.pdf
2014 年:GAN;Adam;Attention 機制
《Generative Adversarial Networks》
論文連結:(被引用量 13917)
生成對抗網路(Generative Adversarial Network,簡稱 GAN)是 Ian Goodefellow 等人提出的非監督式學習方法,透過讓兩個神經網路相互博弈的方式進行學習。自 2014 年 GAN 網路提出以來,其在 Computer Vision(計算機視覺)等領域獲得了廣泛的關注
生成對抗網路(GAN)的成功在於它能夠生成逼真圖片。這一網路透過使用生成器和判別器之間的最小最大(minimax)博弈,GAN 能夠建模高緯度、複雜的資料分佈。在 GAN 中,生成器用於生成假的樣本,而判別器進行判斷(是否為生成資料)。
年度榮譽提名:
1、《Wasserstein GAN & Improved Training of Wasserstein GANs(WGAN)》
WGAN 是 GAN 的改進版本,取得了更好的效果。
論文連結:
2、《StyleGAN》
StyleGAN 生成的影像
論文連結:
3、《Neural Machine Translation by Jointly Learning to Align and Translate(attention 機制)》
論文連結:(被引用量 9882)
注意力的視覺化結果
這篇論文介紹了注意力機制的思路。與其將所有資訊壓縮到一個 RNN 的隱層中,不如將整個語境儲存在記憶體中。這使得所有的輸出都能和輸入對應。除了在機器翻譯中使用外,attention 機制還被用於 GAN 等模型中。
《Adam: A Method for Stochastic Optimization》
論文連結:(被引用量 34082)
Adam 由於其易微調的特性而被廣泛使用。它基於對每個引數的不同學習率進行適應這種思想。雖然近來有對 Adam 效能提出質疑的論文出現,但它依然是深度學習中最受歡迎的目標函式最佳化器。
年度榮譽提名:
1、《Decoupled Weight Decay Regularization》
論文地址:
2、《RMSProp》
和 Adam 一樣出名的目標函式最佳化器。
論文地址 ~tijmen/csc321/slides/lecture_slides_lec6.pdf*
2015:超越人類的 ResNet;神奇的批歸一化
《Deep Residual Learning for Image Recognition》
論文連結:(被引用量 34635)
Residual Block 結構。
大名鼎鼎的 ResNet,從 ResNet 開始,神經網路在視覺分類任務上的效能第一次超越了人類。這一方法贏得了 ImageNet 2015、以及 COCO 競賽的冠軍,也獲得了 CVPR2016 的最佳論文獎:該研究的作者是何愷明、張祥雨、任少卿和孫劍。
最初 ResNet 的設計是用來處理深層 CNN 結構中梯度消失和梯度爆炸的問題,如今 Residual Block 已經成為了幾乎所有 CNN 結構中的基本構造。
這個想法很簡單:將輸入(input)從卷積層的每個塊新增到輸出(output)。殘差網路之後的啟示是,神經網路不應分解為更多的層數,在最不理想的情況下,其他層可以簡單設定為恆等對映(identity mapping)。但在實際情況中,更深層的網路常常在訓練上遇到困難。殘差網路讓每一層更容易學習恆等對映,並且還減少了梯度消失的問題。
儘管並不複雜,但殘差網路很大程度上優於常規的 CNN 架構,尤其在應用於更深層的網路上時。
幾種 CNN 之間的對比。
眾多 CNN 架構都在爭奪「頭把交椅」,以下是一部分具有代表意義的樣本:
Inceptionv1 結構。
年度榮譽提名:
1、《Going Deeper with Convolutions》
論文連結:
2、《Very Deep Convolutional Networks for Large-Scale Image Recognition》
論文連結:
3、《Neural Ordinary Differential Equations》
論文連結: (NIPS 2018 最佳論文獎)
《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift(批歸一化)》
論文連結:(14384 次引用)
批歸一化(Batch normalization)是如今幾乎所有神經網路的主流趨勢。批歸一基於另外一個簡單但是很棒的想法:在訓練過程中保持均值和方差統計,藉此將 activation 的範圍變換為零均值和單位方差。
關於批歸一化效果的確切原因還未有定論,但從實踐上說確實有效的。
年度榮譽提名:
不同歸一化技術的視覺化呈現。
1、《層歸一化(Layer Normalization)》
論文連結:
2、《例項歸一化(Instance Normalization)》
論文連結:
3、《組歸一化(Group Normalization)》
論文連結:
2016 年:攻陷最複雜的遊戲——AlphaGo
登上 Nature 的 AlphaGo 論文 《Mastering the game of Go with deep neural networks and tree search》
論文連結:(被引用量 6310)
很多人對於現代 AI 的理解始於 DeepMind 的圍棋程式 AlphaGo。AlphaGo 研究專案始於 2014 年,目的是為了測試一個使用深度學習的神經網路如何在 Go 上競爭。
AlphaGo 比以前的 Go 程式有了顯著的改進,在與其他可用圍棋程式(包括 Crazy Stone 和 Zen)的 500 場比賽中,在單臺計算機上執行的 AlphaGo 贏得了除一個之外的所有勝利,而執行在多臺計算機上的 AlphaGo 贏得了與其他 Go 程式對戰的所有 500 場比賽,在與單臺計算機上執行的 AlphaGo 比賽中贏下了 77%的對陣。2015 年 10 月的分散式版本使用了 1,202 個 CPU 和 176 個 GPU,當時它以 5: 0 的比分擊敗了歐洲圍棋冠軍樊麾(職業 2 段選手),轟動一時。
這是計算機圍棋程式第一次在全域性棋盤(19 × 19)且無讓子的情況下擊敗了人類職業棋手。2016 年 3 月,透過自我對弈進行練習的加強版 AlphaGo 在比賽中以 4: 1 擊敗了世界圍棋冠軍李世石,成為第一個在無讓子情況下擊敗圍棋職業九段棋手的計算機程式,載入史冊。賽後,AlphaGo 被韓國棋院授予名譽職業九段的稱號。
年度榮譽提名:
1、DeepMind 的另一篇 AlphaGo Nature 論文《Mastering the game of Go without human knowledge》
論文連結:
作為 AlphaGo 的後繼版本,2017 年 10 月,DeepMind 釋出最新強化版的 AlphaGo Zero,這是一個無需用到人類專業棋譜的版本,比之前的版本都強大。透過自我對弈,AlphaGo Zero 經過三天的學習就超越了 AlphaGo Lee 版本的水平,21 天后達到 AlphaGo Maseter 的實力,40 天內超越之前所有版本。
2017 年:幾乎人人都用的 Transformer
《Attention Is All You Need》
論文連結:(被引用量 5059)
著名的 Transformer 架構出現了。2017 年 6 月,谷歌宣佈又在機器翻譯上更進了一步,實現了完全基於 attention 的 Transformer 機器翻譯網路架構,並且還在 WMT 2014 的多種語言對的翻譯任務上超越了之前 Facebook 的成績,實現了新的最佳水平。
在編碼器-解碼器配置中,顯性序列顯性轉導模型(dominant sequence transduction model)基於複雜的 RNN 或 CNN。表現最佳的模型也需透過注意力機制(attention mechanism)連線編碼器和解碼器。
谷歌提出了一種新型的簡單網路架構——Transformer,它完全基於注意力機制,徹底放棄了迴圈和卷積。兩項機器翻譯任務的實驗表明,這些模型的翻譯質量更優,同時更並行,所需訓練時間也大大減少。新的模型在 WMT 2014 英語轉德語的翻譯任務中取得了 BLEU 得分 28.4 的成績,領先當前現有的最佳結果(包括整合模型)超過 2 個 BLEU 分值。在 WMT 2014 英語轉法語翻譯任務上,在 8 塊 GPU 上訓練了 3.5 天之後,新模型獲得了新的單模型頂級 BLEU 得分 41.0,只是目前文獻中最佳模型訓練成本的一小部分。
Transformer 在其他任務上也泛化很好,把它成功應用到了有大量訓練資料和有限訓練資料的英語組別分析上。
《Neural Architecture Search with Reinforcement Learning》
論文連結:(被引用量 1186)
神經結構搜尋(NAS)表示自動設計人工神經網路(ANN)的過程,人工神經網路是機器學習領域中廣泛使用的模型。NAS 的各種方法設計出的神經網路,其效能與手工設計的架構相當甚至更優越。可以根據搜尋空間,搜尋策略和效能評估策略三個方面對 NAS 的方法進行分類。其他方法,如《Regularized Evolution for Image Classifier Architecture Search》(即 AmoebaNet)使用了進化演算法。
2018 年:預訓練模型大熱
當然是谷歌的 NLP 預訓練模型 BERT: 《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》,這篇論文現在已經有 3025 次引用量了。
論文連結:
本文介紹了一種新的語言表徵模型 BERT——來自 Transformer 的雙向編碼器表徵。與最近的語言表徵模型不同,BERT 旨在基於所有層的左、右語境來預訓練深度雙向表徵。BERT 是首個在大批句子層面和 token 層面任務中取得當前最優效能的基於微調的表徵模型,其效能超越許多使用任務特定架構的系統,重新整理了 11 項 NLP 任務的當前最優效能記錄。
BERT 與 GPT-2 和 ELMo 的模型結構對比。
年度榮譽提名:
自 BERT 被提出以來,基於 Transformer 的語言模型呈井噴之勢。這些論文尚需時間考驗,還很難說哪一個最具影響力。
1、《Deep contextualized word representations》
論文連結:
2、《Improving Language Understanding by Generative Pre-Training》
論文連結:
3、《Language Models are Unsupervised Multitask Learners》——即 OpenAI 在 2 月份推出的,引數量高達 15 億的預訓練模型 GPT-2。
論文連結:
4、《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》
以往的 Transformer 網路由於受到上下文長度固定的限制,學習長期以來關係的潛力有限。本文提出的新神經架構 Transformer-XL 可以在不引起時間混亂的前提下,可以超越固定長度去學習依賴性,同時還能解決上下文碎片化問題。
論文連結:
5、《XLNet: Generalized Autoregressive Pretraining for Language Understanding》
BERT 帶來的影響還未平復,CMU 與谷歌大腦 6 月份提出的 XLNet 在 20 個任務上超過了 BERT 的表現,並在 18 個任務上取得了 SOTA。
論文連結:
6、《Neural Machine Translation of Rare Words with Subword Units》
論文連結:
2019 年:深度學習的原理改進
論文 《Deep Double Descent: Where Bigger Models and More Data Hurt》,本文討論的 Double Descent 現象與經典機器學習和現代深度學習中的流行觀點背道而馳。
論文連結:
在本文中研究者證明,各種現代深度學習任務都表現出「雙重下降」現象,並且隨著模型尺寸的增加,效能首先變差,然後變好。此外,他們表明雙重下降不僅作為模型大小的函式出現,而且還可以作為訓練時間點數量的函式。研究者透過定義一個新的複雜性度量(稱為有效模型複雜性,Effective Model Complexity)來統一上述現象,並針對該度量推測一個廣義的雙重下降。此外,他們對模型複雜性的概念使其能夠確定某些方案,在這些方案中,增加(甚至四倍)訓練樣本的數量實際上會損害測試效能。
來自 MIT CSAIL 研究者的論文 《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》,它也獲得了 ICLR 2019 的最佳論文獎。
論文連結:
研究者們發現,標準的神經網路剪枝技術會自然地發現子網路,這些子網路經過初始化後能夠有效進行訓練。基於這些結果,研究者提出了「彩 票假設」(lottery ticket hypothesis):密集、隨機初始化的前饋網路包含子網路(「中獎彩 票」),當獨立訓練時,這些子網路能夠在相似的迭代次數內達到與原始網路相當的測試準確率。
未來?
因為深度學習和基於梯度的神經網路出現技術突破,過去十年是人工智慧高速發展的一段時期。這很大程度上是因為晶片算力的顯著提高,神經網路正在變得越來越大,效能也越來越強。從計算機視覺到自然語言處理,新的方法已經大面積取代了傳統的 AI 技術。
但是神經網路也有其缺點:它們需要大量已標註資料進行續聯,無法解釋自身的推斷機制,難以推廣到單個任務之外。不過因為深度學習的推動,AI 領域快速發展,越來越多的研究者正在致力於應對這些挑戰。
在未來的幾年裡,人們對於神經網路的理解還會不斷增加。人工智慧的前景還是一片光明:深度學習是 AI 領域裡最有力的工具,它會使我們進一步接近真正的智慧。
讓我們期待 2020 年的新成果吧。
參考連結: https://leogao.dev/2019/12/31/The-Decade-of-Deep-Learning/
http://blog.itpub.net/69946223/viewspace-2671639/