「技術綜述」影象與CNN發家簡史,集齊深度學習三巨頭

dicksonjyl560101發表於2019-07-15


https://www.toutiao.com/a6713550229796291083/


作者 | 言有三

編輯 | 言有三

沒有一個經典的發現會是突然之間橫空出世,它總是需要一些積澱。提起卷積神經網路,我們總會從LeNet5開始說起,但是LeNet5不是起點也不是終點,這一期 扒一下影象和CNN的發家歷史

影象

1.1 什麼是影象

人們睜眼看世界,看的就是影象。影象的英文名是image,來於拉丁文imago,image如果用英文來定義,包含"representation, reflection, apparition, semblance, copy, visible form"等。

影象有圖有像,兩者是有差別的。圖,是客觀世界的存在,從物理上說,是物體反射或透射光的分佈。而像,則是人的視覺系統所接受的圖在人腦中形成的認識。

所以先有圖,後有像。

人類的文明歷史,經過了從 結繩記事,文字記事,到如今的圖片,視訊記事的發展歷史 ,正所謂一 圖勝 千言,我們不妨將圖片的發展史看作人類文明的發展史的一個縮影,並不過分。

「技術綜述」影象與CNN發家簡史,集齊深度學習三巨頭

1.2 模擬影象

所謂模擬影象:就是通過某種 物理量(如光、電等)的強弱變化 來記錄影象亮度資訊。

模擬影象的出現應該從1826年前後法國科學家Joseph Nicéphore Niépce發明 第一張可以永久記錄的照片 開始,到如今已將近兩百年,那一張圖片如下。

「技術綜述」影象與CNN發家簡史,集齊深度學習三巨頭

從19世紀30年代到20世紀中期計算機的出現,中間有一百多年的歷史。那時候的影象的發展史, 實際上差不多就是攝影的發展史,所以我為什麼要玩攝影呢?

「技術綜述」影象與CNN發家簡史,集齊深度學習三巨頭

當然,年紀大一點的肯定看過模擬電視。那一種 沒有訊號就拍一拍 的感覺,自己懂。

「技術綜述」影象與CNN發家簡史,集齊深度學習三巨頭

1.3 數字影象

數字影象的誕生並不與計算機完全掛鉤。

「技術綜述」影象與CNN發家簡史,集齊深度學習三巨頭

戰爭往往是催生技術發展的最好外部因素,在第一次世界大戰(1914年7月28日至1918年11月11日)後的兩年,也就是1920年數字影象被髮明瞭,用於報紙行業。

當時為了傳輸這一幅影象, 巴特蘭有線電檢視像傳輸系統

(Bartlane cable picture transmission system) 被髮明,實際上主體就是一根海底電纜,從英國倫敦連線到美國紐約。

1921年實現了第一幅數字影象的傳送 ,耗時3小時,編碼解碼都是用印表機來完成的。

當時用了5個灰度級進行編碼,大家知道現在用的是8個灰度級。

為什麼是5個灰度級呢 ,實際上這是因為人眼就只能分辨這麼多,分的再細也沒有用,可以感受一下下圖,5個灰度級和6個灰度級的差別。

「技術綜述」影象與CNN發家簡史,集齊深度學習三巨頭

20世紀50年代電子計算機被髮明,人們開始利用計算機來處理影象,數字影象處理則開始正式作為一門學科在20世紀60年代初期誕生。

早期的影象處理的目的是改善影象的質量,美國噴氣推進實驗室(JPL)對航天探測器徘徊者7號在1964年發回的幾千張月球照片使用了影象處理技術,包括幾何校正、灰度變換、去除噪聲等方法進行處理,成功地繪製出月球表面地圖,這可以算是最早的數字影象處理了。

然後慢慢的全世界人民就一起研究影象了。

「技術綜述」影象與CNN發家簡史,集齊深度學習三巨頭

模擬影象和數字影象的區別,大家可以感受一下。

「技術綜述」影象與CNN發家簡史,集齊深度學習三巨頭

扯的有點多,總之影象就是這麼來的。

2 視覺機制

影象被髮明瞭,接下來就需要解析人眼到底是如何分析影象,這個非常複雜。我們不做過多的講述,只描述與我們們的主題,也就是 計算機視覺和神經網路 有關的部分。

2.1 感受野

現在每個人都知道卷積神經網路中的感受野,但是要研究並證實到這一點,並不是誰都能做到。

大腦的基本感知單元就是神經元,一個神經元所影響的刺激區域就叫做神經元的感受野,即receptive field,不同神經元感受野的大小和性質都不同。

視覺感受野的研究來自於美國神經科學家哈特蘭(Keffer Hartline)和匈牙利裔美國神經科學家庫夫勒(Stephen W. Kuffler),1953年他們發現貓視網膜神經節細胞的感受野具有同心圓結構。

「技術綜述」影象與CNN發家簡史,集齊深度學習三巨頭

很簡單很直觀是吧,但是需要驗證。如果今天你說你的眼睛或者某卷積核的感受野的不是一箇中心對稱的形狀,那麼恭喜你,可能要從源頭挖了計算機視覺的根了。

2.2 朝向敏感

儘管有了感受野,但是視覺感知的機制仍然沒有被得到更深刻地理解,直到視覺功能柱的發現。

加拿大神經生理學家David Hunter Hubel和瑞典神經科學家Torsten Nils Wiesel在20世紀50年代和60年代開始研究視覺機制,他們發現: 有些細胞對某些處在一個角度上的線條或者明顯的邊緣線有特別的反應,這就是絕大多數視皮層細胞都具有的強烈的方位選擇性。

不僅如此,要引起這個細胞反應, 直線的朝向還只能落在一個很小的角度範圍裡,也就是該細胞的感受野內。

相鄰的細胞還具有相似且重疊的感受野,隨著感受野的大小和位置在皮質上系統地變化,就形成了完整的視覺空間圖。

「技術綜述」影象與CNN發家簡史,集齊深度學習三巨頭

聽起來有點拗口,但是如果你願意去看論文【1】,會有收穫。

結論就是,貓眼對於灰度的絕對值不敏感,對於邊緣和朝向很敏感,這一點就是 “Marr視覺分層機制” 的基礎。

從1960年到1980年,兩人合作了20多年,細緻科學地研究了人眼視覺的機制,因此他們被認為是現代視覺科學之父,並於1981年一起獲得了諾貝爾生理學與醫學獎。

2.3 總結

David Hunter Hubel和Torsten Nils Wiesel在1968年發表的論文確定了大腦中兩種基本的視覺細胞型別:

(1)簡單單元,感知具有特定方向的特徵,對應LeNet5中的S卷積網路層。

(2)複雜細胞,對簡單單元的結果做出反應,提高對位置,旋轉的不變性,對應LeNet5中的C池化層。

總之,視覺機制揭示了視覺的本質。感知是通過從低層細胞到高層細胞不斷抽象來完成,更高層的細胞,擁有更高階的感受野,並且對一些偏移等具有一定的不變性。

MIT的科學家馬爾(David Marr)基於此提出了他的視覺分層理論,即視覺包含初級視覺、中級視覺和高階視覺三個層次,感興趣可以自行了解。

「技術綜述」影象與CNN發家簡史,集齊深度學習三巨頭

卷積神經網路發家

我們在這裡,不說神經網路的基礎,因為一說,就又需要扯一大堆的東西。

「技術綜述」影象與CNN發家簡史,集齊深度學習三巨頭

直接上卷積神經網路。

3.1 neocognitron【2】

neocognitron也是有前身,但那個就不說了。1980年推出的neocognitron是 第一個真正意義上的級聯卷積神經網路 ,不過它並不完全是現在的卷積的形式。

「技術綜述」影象與CNN發家簡史,集齊深度學習三巨頭

麻雀雖小,該有的其實都有了。

從上圖可以看出,這是一個cascade結構,按照S,C模組進行重複串接,而且, 訊號的幅度是模擬的,即具有非負性

它已經有了卷積神經網路的基本特徵,比如輸入是原始的影象訊號,大小為19*19,說明學習是一個無監督的過程。

第一個S層,大小為19*19*12,通道數為12,卷積的大小為5*5。

第一個C層,大小為21*21*8,可知道進行了一個畫素的邊界補齊,從S層到C層,進行了通道的融合,輸入通道為12,輸出為8。

依次串接S層和C層,直到最終的輸入1*10,即分類結果,這是用於識別0~9的手寫數字。

值得注意的從,從S到C層,輸入輸出神經元的連線並不是通過一個標準的滑動視窗的卷積來完成,下圖展示了其中的一個案例。

「技術綜述」影象與CNN發家簡史,集齊深度學習三巨頭

neocognitron對於要識別目標的小的形狀變化和位移擁有不變性,S層提取的區域性特徵被輸入C層,完成了低層區域性特徵到高層的整合。

從提出後,neocognitron也進行了多次的迭代。1988年為時間訊號開發了新版本,1998年進行了改進,在2003年形成了通用版本並在同一年簡化。如果你感興趣,不妨去讀以前的文章,別有一番風味。

3.2 TDNN【3】

深度學習的突破其實是從語音開始的,卷積神經網路早期一樣被用於語音。

時間延遲神經網路(TDNN)是 第一個用於聲音訊號處理的卷積網路,被Hinton組於1989年提出 ,三巨頭被稱為三巨頭,自然是有歷史功績的。

網路結構如下,其實就是想辦法將語音訊號變成影象,這裡就是一個頻譜圖。

「技術綜述」影象與CNN發家簡史,集齊深度學習三巨頭

正好筆者最近開始做語音,有時間,我回來細講。

3.3 LeNet-1【4】

終於,到了1989年,Yann LeCun和Y. Bengio等人(集齊三巨頭了吧)開始認真研究卷積神經網路。後來10年的時間裡, LeNet系列網路 開始迭代,直到最後1998年的LeNet5。

LeNet5大家早就說爛了,我們也說過,下面就說說LeNet1吧。

其實LeNet1之前還有一個網路,使用的輸入大小為16*16,有9298個樣本,網路結構共包含3個隱藏層,分別是H1,H2,H3,感興趣可以去對應文末參考連結找資料。

「技術綜述」影象與CNN發家簡史,集齊深度學習三巨頭

LeNet1的結構長上面這樣,一看就是 “LeCun親生的兒子” ,和大家見慣不慣的LeNet5很像了吧,下面把LeNet5也放出來看看。

「技術綜述」影象與CNN發家簡史,集齊深度學習三巨頭

無非就是輸入影象大小,網路寬度,深度的調整,這其實反映了當時束縛神經網路發展的一個關鍵,硬體計算能力,因為反向傳播理論早就成熟了。

看來,出來混,還得有一身好裝備。

「技術綜述」影象與CNN發家簡史,集齊深度學習三巨頭

後面要說的,就不在這篇文章裡了,盡情期待。

參考資料

[1] Hubel D H, Wiesel T N. Receptive fields, binocular interaction and functional architecture in the cat's visual cortex[J]. The Journal of physiology, 1962, 160(1): 106-154.

[2] Fukushima K. Neocognitron: A hierarchical neural network capable of visual pattern recognition[J]. Neural networks, 1988, 1(2): 119-130.

[3] Waibel A, Hanazawa T, Hinton G, et al. Phoneme recognition using time-delay neural networks[M]//Readings in speech recognition. 1990: 393-404.

[4] https://medium.com/@sh.tsang/paper-brief-review-of-lenet-1-lenet-4-lenet-5-boosted-lenet-4-image-classification-1f5f809dbf17


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2650527/,如需轉載,請註明出處,否則將追究法律責任。

相關文章