CS231n winter 2016 學習筆記lecture 1

liuchen2333發表於2016-07-29

        今天剛剛開始自學CS231n的相關內容,在此也想把每一次的一些體會和想法記錄下來與大家分享交流,互相進步。當然想法中可能有出現錯誤或者偏差,希望大家能夠包容指正,我的郵箱是895849256@qq.com。

         lecture1的主要內容是是對計算機視覺發展史的簡介和對現況的一個概論。Fei-Fei  Li教授以寒武紀生命大爆發開頭講述了視覺的重要性,之後又通過Hubel&Wiesel在1959年的研究引出了視神經觀測物體時是對一些簡單的邊緣產生響應訊號。David Marr又提出了一個新的重要觀點,即視覺識別是分層進行的。基於此,1979年Brooks&Binford提出了Generalized Cylinder,主要思想是世界由一些基本立體圖形不斷組合而成,1973年Fischler和Elschlager提出了更偏向概率說法的Pictorial Structure。1997年Shi&Malik開始第一次處理彩色圖片,嘗試將圖片分割成有意義的幾部分。之後,視覺領域的研究偏向了影象識別方面,主要採用設計特徵並結合SVM的方法來進行各類影象的識別和分類。早期的PACSAL Visual Object Challenge擁有20個類別的影象,吸引了大量的學者也研究機構參加比賽,驗證自己的演算法。後來的ImageNet更是擁有1000個分類和14M已經分類好的圖片,供參加者來測試各類演算法。值得一提的是,在2012年的ImageNet上,卷積神經網路極大地降低了錯誤率,奪得桂冠(卷積神經網路早就被髮明,但是由於計算機的效能等種種原因沒有被廣泛應用),開啟了深度學習的革命。

        介紹完了這些歷史之後,Fei-Fei Li教授說明了CS231n研究的主要問題是圖片的識別與分類,但是計算機視覺的內容遠不止此。計算機視覺還可以做到很多更酷的事情,比如她的團隊正在努力的讓電腦看到一張圖片之後能夠像人一樣寫出幾段話,電腦可以識別出圖片中各個內容之間的聯絡(即像人一樣真正讀懂圖片)等等。由此可見,計算機視覺還有很大的發展餘地,並且像人腦一樣的識別視覺資訊還很遙遠,希望這一天在所有科學家和研究人員的推動下並不遙遠。



本文引用了CS231n視訊以及講義部分內容,另感謝知乎智靖遠提供的中文字幕。

引用文獻有:Fei-Fei Li&Andrej Karpathy&Justin Johnson CS231n winter1516_lecture1 notes

Hubel, David H., and Torsten N. Wiesel. "Receptive fields, binocular interaction and functional architecture in the cat's visual cortex." The Journal of physiology 160.1 (1962)

Marr, David. "Vision.The MIT Press, 1982
Brooks, Rodney A., and Creiner, Russell and Binford, Thomas O. "The ACRONYM model-based vision system. " In Proceedings of the 6th International Joint Conference on Artificial Intelligence (1979): 105-113. 
Fischler, Martin A., and Robert A. Elschlager. "The representation and matching of pictorial structures."IEEE Transactions on Computers 22.1 (1973): 67-92.


相關文章