人,是感官的動物。
我們的大腦,像一塊複雜度極高的CPU,每天在接收著各種格式的資料,進行著無休止的計算,我們以各種感官接觸著這個世界,抽取著不同感官下的資訊,從而認知了世界。而影象作為承載資訊最為豐富的一種媒介,在人類探索智慧的歷史中,一直佔據著重要的位置。人用這樣一雙肉眼如何識別不同類別的影象(image classification and pattern recognition),如何在影象中分割出形形色色的物體(semantic segmentation and object detection),如何從模糊的影象中想象出物體的輪廓(image super-resolution),如何創作出天馬行空的圖畫(image synthesis),都是目前機器視覺影象處理領域關注的熱點問題。全世界的研究者都希望有朝一日,計算機能代替人眼來識別這一幅幅影象,發現在影象中隱藏的密碼。
影象分類
影象分類是影象處理中的一個重要任務。在傳統機器學習領域,去識別分類一個一個影象的標準流程是特徵提取、特徵篩選,最後將特徵向量輸入合適的分類器完成特徵分類。直到2012年Alex Krizhevsky突破性的提出AlexNet的網路結構,藉助深度學習的演算法,將影象特徵的提取、篩選和分類三個模組整合於一體,設計5層卷積層加3層全連線層的深度卷積神經網路結構,逐層對影象資訊進行不同方向的挖掘提取,譬如淺層卷積通常獲取的是影象邊緣等通用特徵,深層卷積獲取的一般是特定資料集的特定分佈特徵。AlexNet以15.4%的創紀錄低失誤率奪得2012年ILSVRC(ImageNet大規模視覺識別挑戰賽)的年度冠軍,值得一提的是當年亞軍得主的錯誤率為26.2%。AlexNet超越傳統機器學習的完美一役被公認為是深度學習領域裡程碑式的歷史事件,一舉吹響了深度學習在計算機領域爆炸發展的號角。
(圖為李飛飛博士和她的ImageNet資料集) 時間轉眼來到了2014年,GoogleNet橫空出世,此時的深度學習,已經歷ZF-net, VGG-net的進一步精煉,在網路的深度,卷積核的尺寸,反向傳播中梯度消失問題等技術細節部分已有了詳細的討論,Google在這些技術基礎上引入了Inception單元,大破了傳統深度神經網路各計算單元之間依次排列,即卷積層->啟用層->池化層->下一卷積層的正規化,將ImageNet分類錯誤率提高到了6.7%的高水平。
在網路越來越深,網路結構越來越複雜的趨勢下,深度神經網路的訓練越來越難,2015年Microsoft大神何愷明(現就職於Facebook AI Research)為了解決訓練中準確率先飽和後降低的問題,將residual learning的概念引入深度學習領域,其核心思想是當神經網路在某一層達到飽和時,利用接下來的所有層去對映一個f(x)=x的函式,由於啟用層中非線性部分的存在,這一目標幾乎是不可能實現的。
但ResNet中,將一部分卷積層短接,則當訓練飽和時,接下來的所有層的目標變成了對映一個f(x)=0的函式,為了達到這一目標,只需要訓練過程中,各訓練變數值收斂至0即可。Resdiual learning的出現,加深網路深度提高模型表現的前提下保證了網路訓練的穩定性。2015年,ResNet也以3.6%的超低錯誤率獲得了2015年ImageNet挑戰賽的冠軍,這一技術也超越了人類的平均識別水平,意味著人工智慧在人類舞臺中崛起的開始。
影象中的物體檢測
影象分類任務的實現可以讓我們粗略的知道影象中包含了什麼型別的物體,但並不知道物體在影象中哪一個位置,也不知道物體的具體資訊,在一些具體的應用場景比如車牌識別、交通違章檢測、人臉識別、運動捕捉,單純的影象分類就不能完全滿足我們的需求了。 這時候,需要引入影象領域另一個重要任務:物體的檢測與識別。在傳統機器領域,一個典型的案例是利用HOG(Histogram of Gradient)特徵來生成各種物體相應的“濾波器”,HOG濾波器能完整的記錄物體的邊緣和輪廓資訊,利用這一濾波器過濾不同圖片的不同位置,當輸出響應值幅度超過一定閾值,就認為濾波器和圖片中的物體匹配程度較高,從而完成了物體的檢測。這一項工作由Pedro F. Felzenszalb, Ross B. Girshick, David Mcallester還有Deva Ramanan以Object Detection with Discriminatively Trained Part-Based Models共同發表在2010年9月的IEEETransactions on Pattern Analysis and Machine Interlligence期刊上。
(傳統機器學習典型案例,HOG特徵濾波器完整的記錄了人的整體輪廓以及一些如眼睛、軀幹、四肢等特徵部位的細節資訊)時間如白駒過隙,驚鴻一瞥,四年過去,Ross B. Girishick已由當年站在巨人肩膀上的IEEE Student Member成長為了AI行業內獨當一面的神級人物,繼承了深度學習先驅的意志,在2014年CVPR會議上發表題為Rich Feature Hirarchies for Accurate Object Detection and SemanticSegmentation文章。RCNN,一時無兩,天下皆知。
(圖為深度學習“上古四傑”,從左向右依次為[1]卷積神經網路的提出者Yan Lecun,[2]被譽為“深度學習之父”,深度學習領路人,近期逆流而行提出深度網路Capsule概念的Geoffery Hinton,[3]《Deep Learning》一書作者Yoshua Bengio, [4]前史丹佛人工智慧實驗室主任Andrew Ng(吳恩達))RCNN的核心思想在於將一個物體檢測任務轉化為分類任務,RCNN的輸入為一系列利用selectivesearch演算法從影象中抽取的影象塊,我們稱之為region proposal。 經過warping處理,region proposals被標準化到相同的尺寸大小,輸入到預先訓練好並精細調參的卷積神經網路中,提取CNN特徵。得到了每一個proposal的CNN特徵後,針對每一個物體類別,訓練一個二分類器,判斷該proposal是否屬於該物體類別。2015年,為了縮短提取每一個proposal的CNN特徵的時間,Girishick借鑑了Spatial Pooling Pyramid Network(SPPnet)中的pooling技術,首先利用一整幅影象提取CNN特徵圖譜,再在這張特徵圖譜上擷取不同的位置的proposal,從而得到不同尺寸的feature proposals,最後將這些feature proposals通過SPPnet標準化到相同的尺寸,進行分類。這種改進,解決了RCNN中每一個proposal都需要進行CNN特徵抽取的弊端,一次性在整圖上完成特徵提取,極大的縮短了模型的執行時間,因而被稱作“Fast R-CNN”,同名文章發表於ICCV 2015會議。
2015年,Girishick大神持續發力,定義RPN(region-proposal-network)層,取代傳統的regionproposal擷取演算法,將region proposal的擷取嵌入深度神經網路中,進一步提高了fast R-CNN的模型效率,因而被稱作“Faster R-CNN”,在NIPS2015上Girishick發表了題為“Faster R-CNN: Towards Real-Time Object Detection with RegionProposal Networks”的關鍵文章,完成了RCNN研究領域的三級跳壯舉。
(圖為RCNN演算法流程,最終可識別“馬”以及騎在馬背上的“人”)影象生成
隨著時代的發展,科學家們不僅僅是技術的研究者,更是藝術的創造者。 在人工智慧領域的另一位新一代靈魂人物,Ian Goodfellow在2014年提出了Generative Adversarial Net的概念,通過定義一個生成器(generator)和一個判別器(discriminator)來完成影象生成任務。其原理在於生成器的任務是從隨機噪聲中“創造”出接近目標影象的“假影象”去欺騙判別器,而判別器的任務是去甄別哪一些影象是來自於真實的資料集,哪一些影象是來自於生成器,在生成器和判別器的互相對抗中,通過合理的損失函式設計完成訓練,最終模型收斂後,判別器的概率輸出為常數0.5,即一幅影象來自於生成器和真實資料集的概率相同,生成器生成的影象的概率分佈無限趨近於真實資料集。
GAN技術成為2015,2016年深度學習研究的熱門領域,在影象恢復、降噪、超分辨重建等方向獲得了極佳的表現,衍生出一系列諸如WGAN,Info-GAN,DCGAN,Conditional-GAN等技術,引領了一波風潮。
(圖為利用Cycle-GAN技術,由一幅普通的照片生成莫奈、梵高等風格的油畫)
影象的故事才剛剛開始。
當我們把一幀幀影象串聯在一起,變成流動的光影,我們研究的問題就從空間維度上擴充套件到了時間維度,我們不僅需要關心物體在影象中的位置、類別、輪廓形狀、語義資訊,我們更要關心影象幀與幀之間的時間關係,去捕捉、識別一個物體的運動,去提取視訊的摘要,去分析視訊所表達的含義,去考慮除了影象之外的聲音、文字標註,去處理一系列的自然語言,我們的研究一步一步,邁向了更廣闊的星辰與大海。
影象和視訊,都是虛擬的一串串數字,一個個位元組,但卻讓這個世界更加真實。(微信搜尋tucodec,即可聯絡我們)