深度學習在CV領域已觸及天花板?

Oliver_Wang發表於2019-07-16

1. 深度學習從未停止前進

影像資料的特徵設計,即特徵描述,在過去一直是計算機視覺(Computer Vision, CV)頭痛的問題,而深度學習計算機視覺領域的興起使得這一領域不再需要很多的人為干預,大大降低了對專業知識的需求(見下圖)。對應的,圍繞著深度學習開始出現大量的炒作,這樣的炒作使得很多人開始對深度學習產生懷疑,但是同樣不得忽視的是深度學習計算機視覺任務上已經獲得的大量成功。

深度學習在CV領域已觸及天花板?

(圖源:https://trantorinc.com/blog/top-computer-vision-trends-2019/)

CNN 從 AlexNet 之後,新模型以肉眼可見的速度在增長,比較經典的如 LeNet(1998)、AlexNet(2012)、ZF-net(2013)、GoogleNet(2014)、VGG(2014)、ResNet(2015);2014 年提出的 GAN 更是一個里程碑式的突破。但近年來,CV 領域雖然新論文不斷,但更多的是在填前人挖好的坑(改進模型),比如 2018 的 BigGAN 以及今年的的 Mask Scoring RCNN 等,都沒有引起很大的轟動。相比之下,NLP 繼 BERT 之後又出現了 XLNet,就顯得熱鬧的多。對應的,對於 Deep Learning 在 CV 領域是否觸頂的質疑聲也開始變得更加強烈。

對此問題,本文不會做直接評判,而是首先簡單介紹什麼是 Deep Learning,再介紹 Deep Learning 的優勢,然後介紹當下較為主流的對於 Deep Learning 的批判,最後兩個部分會對 Deep Learning 可能的應對方法和未來展開討論。

1.1 什麼是深度學習

想要了解什麼是深度學習,最簡單的方法莫過於開啟一個深度學習課程或者入門書籍,看一下它的目錄,就大概瞭解深度學習包括什麼了。本文引用 Lecun 在 2015 年曾經給深度學習下過的定義——深度學習方法由多個層組成,用於學習具有多個等級的資料特徵。所以有些學者也把深度學習叫做分級學習(Hierarchical Learning)。

如今的深度學習不只是本文在開頭提及的 Deep CNN,它還包括 Deep AE(AutoEncoder,如 Variational Autoencoders, Stacked Denoising Autoencoders, Transforming Autoencoders 等)、R-CNN(Region-based Convolutional Neural Networks,如 Fast R-CNN,Faster R-CNN,Mask R-CNN,Multi-Expert R-CNN 等)、Deep Residual Networks(如 Resnet,ResNeXt)、Capsule Networks、GAN(Generative Adversarial Network) 等,以及 RNN、LSTM 等處理用於處理序列類資料的 Recurrent 類模型。

相關文章