2017CS231n學習筆記——計算機視覺的概述

xingoo發表於2018-09-01

本節課主要講述了cs231n課程的背景和計算機視覺的歷史,也主要介紹了目前很重要的一個計算機視覺資料集——IMAGENET。

更多內容參考我的AI學習之路

課程簡介

這門課程是由stanford大學計算機視覺李飛飛以及她的學生製作的,也叫做CS231n,是偏專業性的深度學習+計算機視覺課程。

目前計算機視覺越來越火,因為網際網路中大量的資訊都是通過影象或者視訊來傳播的,在計算機視覺中也涉及到了各個學科的內容,比如機器學習、資訊檢索、系統架構、圖形學、演算法、神經學、影象處理、自然語言處理、機器人等等。

計算機視覺的歷史和發展

從微生物進化,到照相機,再到生物學對視覺的研究,1963年計算機視覺發表了第一篇論文《Block world》,其中視覺世界被簡化為簡單的幾何形狀。1966年MIT暑期開啟了一個視覺專案,之後很多的視覺科學家開始加入到視覺研究中。David Marr在70年代寫了一本視覺很有影響的書《VISION》,描述了視覺的抽象過程:構建草圖、形成2.5D的分層、構建3D模型。70年代另一個非常重要的工作是提出一個通過簡單的方塊連線世界的問題。

60年代到70年代,解決物體識別非常困難,因為沒有樣本。1997年Berkeley的Jitendra Malik和他的學生Jianbo Shi完成了影象的分割Normalized Cut。。2001年Viola&Jones研究了Face Detection,Paul Viola基於AdaBoost進行實時面部檢測,後來直接應用到了照相機中。。1999年 David Lowe剔除SIFT演算法,用於物體的識別。。2006年Schmid&Ponce剔除空間金字塔 Spatial Pyramid Matching 。2005年Dalal&Triggs剔除HOG,histogram of gradients HoG。2009年Felzenswlb McAllester Ramanan剔除肢體模型

2006年,公開了一個資料集用於專門測試物體識別演算法,PASCAL,Visual Object Challenge,有20個物體類別。同時,普林斯頓和史丹佛開始著手做了另一個資料集——IMAGENET,裡面包含了22K個類別,14M的圖片。每個圖片中會包含很多物品,如果輸出最大概率的5個物品,其中包含正確物品,就認為是識別成功,以此來衡量準確性。2012年IMAGENET的錯誤率明顯下降,因為使用了卷積神經網路,從此深度學習開始大放光彩。

不過卷積網路實際上是90年代就提出的:
2017CS231n學習筆記——計算機視覺的概述

計算機視覺常用的資料集

PASCAL

PASCAL從2005年開始到2012年,每年都會推出一個新的資料集,這些資料除了05和06,其他的都是20個分類。

其中提供了幾個方向的資料集:影象分類、影象分割、動作分類、人體主要部位識別等等。

IMAGENET

這個資料集是普林斯頓和史丹佛發起的,每年都會舉辦一次比賽——超越 ILSVRC,Beyond ImageNet Large Scale Visual Recogition Challenge。不過2017年貌似是最後一屆了。

IMAGENET比賽中每年都會公開Top5的錯誤率,在2015年已經達到了3.57%,這些主要都是由於深度學習的發展,尤其是2012年的卷積網路,也使得深度學習開始流行起來。

也是在這個比賽中,各種深度學習網路模型出現:AlexNet,GoogleNet,ResNet等等。
2017CS231n學習筆記——計算機視覺的概述

相關文章