卷積網路雖動人,膠囊網路更傳“神”

博文視點發表於2018-07-13

江山代有才人出,各領風騷數百年。但在電腦科學領域,風騷數十年都非常難。卷積神經網路在短短三十多年裡,幾起幾落。別看它現在依然如日沖天,要知道,浪潮之巔的下一步,就是衰落。而加快推動這一趨勢的,正是卷積神經網路得以雄起的大功臣——Geoffrey Hinton。他提出了全新的“神經膠囊”理論,這“膠囊”裡到底裝的是什麼“藥”呢? 相關圖書《深度學習之美:AI時代的資料處理與最佳實踐》。

從神經元到神經膠囊

在大計算和大資料的背景下,深度學習大行其道、大受歡迎,究其原因,卷積神經網路的出色表現,可謂居功至偉。儘管如此,卷積神經網路也有其侷限性,如訓練資料需求大、環境適應能力、可解釋性差、資料分享難等不足。

2017年10月,Hinton教授和他的團隊在機器學習的頂級會議“神經資訊處理系統大會(NIPS)”上發表論文,超越了自己前期的理論研究——反向傳播演算法(BP),提出了一種全新的神經網路——膠囊網路(CapsNet)。

2017年9月(論文發表的前一個月),在多倫多舉行的人工智慧會議上,Hinton對他參與構建的反向傳播(BP)理論表示深深的懷疑。Hinton還引用了著名物理學家馬克斯•普朗克的名言:“科學之道,不破不立”,來為自己的新理論站臺。

在這次會議上,Hinton最後總結:

科學是踩著葬禮前行的,未來由極其質疑我所說的一切的那批學生所決定。

卷積神經網路面臨的挑戰

Hinton對CNN的“深深的質疑”是有原因的。CNN的內在缺陷主要體現在3個方面。

CNN生物學基礎不足,難以“熟能生巧”。

CNN全連線模式過於冗餘而低效。

CNN勝在特徵檢測,但窮於特徵理解。

Hinton評價說:“CNN分類正確率很高,看似一個大好局面,實則是一場災難。”據此,Hinton也斷言:“卷積神經網路註定是沒有前途的!”

神經膠囊的提出

Hinton在批判CNN不足的同時,已然備好了解決方案,這就是我們即將討論的“膠囊神經網路(Capsule Network,簡稱CapsNet)。”

Hinton認為CNN的不變性並不理想,“同變性”才是我們想要的。不變性指的是物件的表徵,不隨物件X的“變換”而變化。從計算機視覺的角度來看,這裡的變換包括平移、旋轉、放縮等。

由於CNN具有不變特性,它對物體的平移、旋轉和縮放等並不敏感。以北京故宮紫禁城門前的那尊獅子為例,這類變化並不影響CNN對方框內獅子的識別。這自然大大提高了分類的魯棒性。

然而,任何效能的提升,通常都以犧牲某項效能為代價。CNN對分類效能的提升,同樣要付出成本。Hinton認為,平移、旋轉及縮放等變換之所以可以做到區域性不變性,其實是以丟棄“座標框架”為代價的。沒有了座標的約束,自然也就用判斷影像是否發生平移、旋轉或縮放。

而“同變性”則不會丟失這些資訊,它只是對內容做了一種變換。這就好比,畫紙相當於座標框架,當畫家畫了一個人合適大小的嘴巴時,具有格局觀的畫家(抽象派除外),就能知道臉的大致位置和大小該怎麼畫。當嘴巴畫斜了,臉自然也得傾斜才算是一張正常的臉。

類似地,在下圖中,當數字“7”的位置發生變化時,人的視覺系統會自動建立“座標框架”,在此處,“座標框架”屬於先驗知識。座標框架會參與到識別過程中,識別過程受到了空間概念的支配,因此,它並不是一個獨立的過程。

不變性與同變性對比示意圖

在(a)子圖中,平移前的7和平移後的7的表徵是一樣的(可以通過CNN的池化操作實現),這樣位置變了我們依然識別出7,但代價是我們根本無法判斷出7在影像所處的位置。

在(b)子圖頭部所示的公式描述的是,物件x的表徵,在經過轉換(平移)之後,其結果等同於轉換之後物件的表徵,這就是所謂的“同變性”。具體說到數字“7”的平移,平移前的7和平移後的7的表徵裡,包含有位置這個資訊(這個可以通過後文即將講到神經膠囊做到),這樣一來,我們不但能識別出7,還能判斷出7在影像所處的位置。

於是,Hinton教授提出了一個設想:觀察者和物體之間的關係,應該由一整套啟用的神經元來表徵,而不是由單個神經元或一組粗編碼的神經元表徵。只有這樣,有關“座標框架”之類的先驗知識才能有機會被表達出來。而這一整套神經元,Hinton將其取名為“神經膠囊”。

那麼在神經膠囊框架下,又是如何體現同變性呢?Hinton認為,同變性大致包括兩種型別:

位置編碼:當內容的位置發生較大變化時,則由不同的“膠囊”表示其內容。

速率編碼:當內容的位置發生較小變化時,則由相同的“膠囊”表示其內容,但是內容有所改變。

二者的關聯是,高層的“膠囊”有更廣的域,低層的“位置編碼”資訊通過彙總,抵達高層變成“速率編碼”。對這兩種編碼的理解,可以想象成兩種不同比例尺的地圖。“位置編碼”相當於小比例尺的地圖(比如說街道級別),而“速率編碼”相當於大比例尺的地圖(比如說地區級別)。

相比CNN,使用膠囊網路的一大優勢在於,它需要的訓練資料量遠小於CNN,而效果卻毫不遜色於CNN。從這個意義上來講,神經膠囊實際上更接近人腦的行為。我們知道,為了學會區分阿貓阿狗,小孩子也不過就學習了幾十個例子就可以做到。而當前的CNN,動輒需要幾萬甚至幾十萬的案例才能取得很好的效果。這看起來,CNN的工作更像是在暴力破解,其工作機理顯然要比大腦低階,行為更是一點也不優雅。

此外,和其他模型相比,膠囊網路在不同角度的圖片分類上,有著更好的辨識度。例如,在下圖中,對應的,上一列和下一列的圖片屬於同一類,它們僅僅是呈現的視角不同。最新的研究論文表明,相比於其他同類演算法,使用膠囊網路,錯誤識別率顯著降低。

膠囊網路的多角度圖片識別

神經膠囊網路t既然這麼好用,勢必有強大的理論為之支撐。那麼,它的理論基礎又是什麼呢?

神經膠囊理論基礎

1 神經膠囊的生物學基礎

我們知道,人工神經網路在很大程度上是模仿生物神經網路而來的。作為“仿生派”的代表人物Hinton,他提出的“神經膠囊”,同樣受益於腦科學的研究進展。

目前,大多數神經解剖學研究都支援這樣一個結論——大部分哺乳類,特別是靈長類大腦皮層中存在大量稱為皮層微柱的柱狀結構,其內部包含上百個神經元,並存在內部分層。

這些小模組,非常擅長處理不同型別的視覺化刺激。生物學家推測,大腦一定有某種機制,以某些權重“穿針引線”般組合低層次的視覺化特徵,從而構建出我們“看到”的五彩繽紛的大千世界。

大腦皮層中普遍存在的皮層微柱這一研究發現,極大啟發了Hinton。於是,Hinton提出了一個假想,物體和觀察者之間的關係,應該由一整套而非一個啟用的神經元表徵。

於是,在人工神經網路中,Hinton提出了一個對應的結構,它就是我們前面提到的神經膠囊。簡單來說,神經膠囊是一組被打包的神經元,它們在內部做了大量運算,而後僅輸出一個被壓縮的結果——一個高維向量。

2 神經膠囊網路的哲學基礎

其實,人工智慧領域也是哲學家們最愛光顧的地方之一。因為說到“智慧”,就離不開“意識”“存在性”等基本問題。而這類問題,本來就是哲學的傳統地盤。

古話說,“形而下者為器,形而上者為道”。如果我們總是低頭看路,看到的都是具體的“器”,那我們肯定難以看到哲學的影子。但如果我們仰望星空,不再關注具體有形的事物,將研究視角提升到“道”的層面,Hinton提出的神經膠囊,在哲學層面的意義,已然若隱若現。Hinton提出的理論,實際上踐行了哲學中的“本體論(Ontology)”。

簡單來說,本體論研究的問題,就是“什麼是‘存在’”。拿香蕉來舉例,“香蕉”就是本體,而香蕉的圖片,香蕉的視訊,中文“香蕉”二字,英文單詞“banana”等,都是描述“本體”的外在符號。於是,這個世界上的所有影像、音訊、視訊、語言等,都成為某種符號到實體的對映,這就是哲學意義上的“本體”。

事實上,哲學上的“本體論”,對資訊科學是有啟發意義的。

回到神經膠囊的討論上來。我們知道,一個活動的膠囊內的神經元活動,表示了特定實體的各種屬性。這些屬性包括但不限於不同型別的例項化引數,例如前面提到的位姿(pose,包括位置、大小、方向等),形變,速度,反照率,色相,紋理等。某些特殊屬性的存在,就能表明某個類別例項的存在。

在機器學習領域,判斷存在性的一個簡易方法是,使用一個獨立的邏輯迴歸單元,其輸出值是連續的,輸出範圍在[0,1]之間,其大小是實體存在的概率。比如,0表示肯定沒出現,1表示確定出現,中間值就是一個出現的概率。

有意思的是,Hinton等人提出了一個更加巧妙的替代方法。他們提出的神經膠囊,其輸出值是一個高維向量,通過歸一化處理,可以用向量模長(length)表示實體存在的概率,同時用向量的各種“位姿”表示實體的各類屬性。如果一個向量在各個方向表現得都很顯著,那麼它的模長自然也就越大,判定這個本體存在性概率就越高。

在這裡面就蘊含了使用實體的屬性來定義實體存在性的本體論精髓。如果發現一個實體的各種屬性都有難以忽略的存在,那麼該實體也必然存在。據此做分類依據,自然也就非常靠譜。

在傳統的深度學習模型(如CNN、RNN及DBN等)中,是沒有這樣的性質的。

這是因為,在傳統深度學習網路中,一個神經元的啟用只能表示某個實體(可理解為標量神經元),其維度的單一性決定了神經元本身不能同時表示多個屬性。於是,不得不退而求其次事物的性質只能隱含到茫茫的網路引數之中。這樣一來,網路的引數調整,動機就難以單純,它必須需要顧及到各類樣本的輸入,故此調參異常繁瑣而耗時,就在所難免了。

而現在就不同了,利用神經膠囊,我們可以判定實體存在的各種性質統統封裝在一個膠囊之內,於是,調參的約束條件就會大大減少,自然而然的結果,調參變得優雅了,最佳的引數容易獲取了。

今天我們為大家帶來了AI領域非常前沿的“神經膠囊”理論的分享,相信各位也意猶未盡,要想繼續探索“神經膠囊”更深層的奧祕,請關注博文視點新書《深度學習之美:AI時代的資料處理與最佳實踐》。

本書深入淺出地介紹了深度學習的相關理論和實踐,零入門 | 高可讀| 重實戰 | 抓前沿!是一本準受用的深度學習入門教程,集各項前沿技術之大成,含Hinton神經膠囊網路的詳細解讀!

作者簡介

張玉巨集,2012年於電子科技大學獲計算機專業博士學位,2009—2011年美國西北大學聯合培養博士,現執教於河南工業大學,電子科技大學博士後。中國計算機協會(CCF)會員,YOCSEF鄭州2018—2019年度副主席,ACM/IEEE會員。《品味大資料》一書作者。





本文節選自《深度學習之美:AI時代的資料處理與最佳實踐》一書

京東有售:https://item.jd.com/12382640.html?dist=jd

相關文章