學界 | 2018年下半年,別錯過這些深度學習專案!

大資料文摘發表於2018-12-14

學界 | 2018年下半年,別錯過這些深度學習專案!

大資料文摘出品

編譯:fuma、倪倪、蔣寶尚

深度學習現在是一個非常火爆的領域,很難對其快速的發展一一記錄。

今年早些時候,作為嘗試記錄深度學習領域進展的第一步,本文作者Ross Taylor建立了網站Papers With Code。該網站是一個將深度學習研究論文與其實現程式碼相連線的社群。

Papers With Code:

www.paperswithcode.com

這個網站也使得作者對深度學習領域有了一個全面的瞭解。基於此,通過本文我們可以看到AI的研究趨勢是什麼,社群正在採用哪些框架,以及哪些技術正在受到青睞。


最受歡迎的釋出:BERT,vid2vid和graph_nets

學界 | 2018年下半年,別錯過這些深度學習專案!

Google AI的BERT論文在10月份引起了深度學習界的關注。本文提出了一種深度雙向編碼器模型,該模型可實現11種NLP任務的最先進效能,包括史丹佛問答(SQUAD)資料集。 Google AI開源了他們論文的程式碼,這是深度學習庫類別中,獲得最多的“星星”的開原始碼。

論文下載地址:

https://arxiv.org/abs/1810.04805

論文程式碼:

https://github.com/google-research/bert

學界 | 2018年下半年,別錯過這些深度學習專案!

NVIDIA的一篇關於視訊到視訊合成的論文,是生成建模的又一個驚人結果,生成模型是過去幾年中最受歡迎的深度學習領域之一。該文利用新穎的順序生成器體系結構,以及諸如前景和背景先驗等許多其他設計特徵,修復了時間不連貫的問題、提高效能。 NVIDIA開源了他們的程式碼,歡迎程度位居第二。

論文下載地址:

https://arxiv.org/abs/1808.06601/

程式碼地址:

https://github.com/NVIDIA/vid2vid/

學界 | 2018年下半年,別錯過這些深度學習專案!

谷歌DeepMind關於圖形網路的論文在今年年中受到了很多關注。圖形網路是深度學習開始嘗試的新型結構化資料(大多數深度學習應用都是基於向量和序列)。此開源庫的受歡迎程度排列第三。

論文下載地址:

https://arxiv.org/abs/1806.01261v3

程式碼:

https://github.com/deepmind/graph_nets/


最受歡迎的社群:DeOldify,BERT和Fast R-CNN

學界 | 2018年下半年,別錯過這些深度學習專案!

DeOldify

DeOldify使用SA-GAN,這是一個從PG-GAN獲得靈感的架構,應用兩個時間尺度的更新規則。

DeOldify專案非常迷人。作者Jason Antic復現了許多生成建模領域的論文,包括自注意力GAN,逐步增長的GAN和兩個時間尺度的更新規則。在撰寫本文時,該專案的程式碼在GitHub上有超過4,000顆星。

DeOldify:

https://github.com/jantic/DeOldify

BERT

基於PyTorch框架而實現的BERT也非常受歡迎。深度學習社群不斷湧現的程式碼往往不是基於Tensorflow就是基於PyTorch,同時用兩個框架實現的需求越來越大,這樣可以方便整個深度學習社群使用它們。 作者Junseong Kim的工作清楚地說明了這一點。目前,這個專案的程式碼在github上享有超過1,500個星星。

BERT:

https://github.com/codertimo/bert-pytorch

學界 | 2018年下半年,別錯過這些深度學習專案!

Mask R-CNN

最後,Waleed Abdulla的基於Keras / TensorFlow實現Mask R-CNN是GitHub第三個獲得星數最多的程式碼。在架構上,該實現使用特徵金字塔網路和ResNet101基礎網路,並且該庫可用於許多應用,例如3D建築物重建,自動駕駛汽車的物體檢測,地圖中的建築物型別探測等。該庫在GitHub上有超過8,000顆星。

論文下載地址:

https://arxiv.org/abs/1703.06870

程式碼:

https://github.com/matterport/Mask_RCNN


最熱門應用:NLP和GAN

學界 | 2018年下半年,別錯過這些深度學習專案!

在前50個流行的實現應用中,生成模型和自然語言處理(NLP)是兩大最熱門領域。對生成模型而言,GitHub上的流行實現包括:vid2vid,DeOldify,CycleGAN和faceswaps。而在NLP中,流行的GitHub庫包括BERT,HanLP,jieba,AllenNLP和fastText。

7篇新論文中1篇有程式碼

你的研究沒有程式碼,你在社群上就不會備受關注,規則就是這樣簡單。以下是作者分析他自己平臺上的論文程式碼復現情況:

分析基數是過去5年中60,000多份機器學習論文,在6萬篇論文中,將近12%有程式碼實現。在過去的6個月中,約15%的新發表論文(即七分之一的論文)都發布了實現程式碼。

每隔20分鐘,就有一篇新的機器學習論文

學界 | 2018年下半年,別錯過這些深度學習專案!

自7月以來,機器學習論文的增長率一直在每月3.5%左右,以此計算,每年的增長率約為50%。這意味著每月大約2,200篇機器學習論文,預計明年將有大約30,000篇新的機器學習論文。

在過去3年中,作者網站上的機器學習論文的數量似乎比摩爾定律的增長速度更快,這讓你感覺人們相信這將是未來計算技術價值的出處。

框架雙頭壟斷:TensorFlow和PyTorch

學界 | 2018年下半年,別錯過這些深度學習專案!

雖然PyTorch並不落後,但網站上的大多數實現似乎都是基於TensorFlow的。其他的框架(MXNet,Torch和Caffe2)在生態系統中的存在要小得多。鑑於兩個框架中都發生了變化:TensorFlow正朝著即刻執行和由Keras激發靈感的新API方向發展;PyTorch則希望能夠更輕鬆地把模型產品化。

相關報導:

https://medium.com/atlas-ml/state-of-deep-learning-h2-2018-review-cc3e490f1679

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2285309/,如需轉載,請註明出處,否則將追究法律責任。

相關文章