NeurIPS 2018提前看:生物學與學習演算法

Joni發表於2018-12-02

本文介紹了三篇關於生物學與學習演算法的 NeurIPS 2018 論文。

分析師簡介

Joni 目前是日本國立產業綜合研究所的研究員。在中國大陸本科本行是自動化,後來對機器人研究有興趣,在香港就讀了電機工程的 Mphil 學位。博士時開始著迷生物學和腦科學的機器人研究,因此在德國漢堡大學參與了認知機器人的歐盟專案。此後一直歐洲,英國,日本和中國研究和討論神經科學,生物學和機器人之間共通之處。

機器之心主頁: https://www.jiqizhixin.com/users/24e7c39e-98c4-4dd9-8d36-26d6207e1b67

本文從 NeurIPS 的會議論文中選取了 3 篇非主流的學習演算法文章:

  1. Assessing the Scalability of Biologically-Motivated Deep Learning Algorithms and Architectures。作者太多不盡列,都是來自 Google Brain 和 Deep mind 的研究人員,最有名當然是 Hinton 教授。

  2. Modelling sparsity, heterogeneity, reciprocity and community structure in temporal interaction data。作者是來自牛津大學統計系的 X Miscouridou, F Caron, YW Teh。其中 Prof Teh 也在 Deepmind 兼職研究科學家。

  3. Mental Sampling in Multimodal Representations。作者是來自英國華威大學的 J Zhu,A Sanborn 和 N Chater。

論文: Assessing the Scalability of Biologically-Motivated Deep Learning Algorithms and Architectures

論文連結:https://arxiv.org/abs/1807.04587

第三篇文章來自著名的 Hinton 教授和他的合作者。在方法上是實驗上驗證深度網路的演算法,與前兩篇的統計學背景是有不一樣。但眾所周知,Hinton 教授忠實地支援建立生物學基礎的機器學習模型。這篇論文正是在這一論調下,採取實驗分析的方法比較深度網路下,比較各種有生物學基礎的深度模型優化演算法(feedback alignment FA、target propagation TP 兩家族演算法)與 Back-Propagation 演算法的效能。據說這篇文章本來是投稿到了 ICLR 裡,後來因為程式碼有錯誤原因主動撤稿了。

文中指出 BP 演算法的兩點主要與神經科學違背的地方:1) 反向傳播中的權值是與正向傳播的權值共享;2)錯誤傳播後,上一層的神經元活動不能馬上更新,因此與生物學的神經通訊的實驗結果相違背。文中也介紹了另外一個比 BP 演算法比較符合神經科學的 FA (feedback alignment) 演算法。但仍沒解決第二個問題。

相對來說,TP(target-propagation)演算法是比較符合生物學實驗結果的。TP 演算法其中一個主要特徵是每一層的神經活動都會盡量符合目標活動(問題 2)。因此有時會需要計算傳遞函式的反函式。如果在某些情況反函式不能取得,我們一般用近似的反變換代替NeurIPS 2018提前看:生物學與學習演算法 (1)。

TP 演算法也隱含了正向和反向的權值不一定共享,這樣也解決了問題 1。

上面介紹了最基本的 TP,而本文也介紹兩個改進的 TP 演算法:

一個是 difference target propagation(DTP)。DTP 演算法把神經的目標活動表示為

NeurIPS 2018提前看:生物學與學習演算法 (2)

相比起基本的 TP,DTP 後面所增加了一個修正項,表示神經元在反向的神經活動中的誤差。這個修正項更加保證了 DTP 的穩定性。

另一個是 Simplified difference target propagation (SDTP). 神經的目標活動表示為

NeurIPS 2018提前看:生物學與學習演算法 (3)

其中,NeurIPS 2018提前看:生物學與學習演算法 就是在分類問題中的正確類別。正如圖(1c)所示,SDTP 完全移除權值的梯度演算法和權值共享這些不符合生物規律的演算法。SDTP 的詳細演算法如下:

NeurIPS 2018提前看:生物學與學習演算法

NeurIPS 2018提前看:生物學與學習演算法

BP 與 TP 演算法的比較示意圖。

另外文中也介紹了另外一個 AO-SDTP(auxiliary output SDTP)演算法,與一般 SDTP 演算法不同之處是它有額外的輸出 z,所以完整的輸出為NeurIPS 2018提前看:生物學與學習演算法。$z$在這裡可以看成是上一層 $h_{L-1}$ 的一個輸出對映。因此在訓練過程中,尤其在 one-hot 分類問題中,SDTP 不再用一個一單元的弱訊號對上一層進行訓練。而這種小竅門在之後的實驗過程有一定的幫助作用。

接著本文比較了 BP 演算法和 FA、TP 演算法在深度網路的表現。為公平起見,以及凸顯生物學事實,在卷積網路測試中,權值不再共享。

實驗結論有點失望,雖然本文主要力推與生物類似的 TP(target-propagation),但在 MNIST 和 CIFAR10 仍比不上如今流行的 BP 演算法和 FA 演算法。另外在 ImageNet 也是 BP 完勝。但是可以留意到採用 AO-SDTP,所以提高網路輸出的多樣性,可以在一定程度上提高訓練效果。

NeurIPS 2018提前看:生物學與學習演算法

NeurIPS 2018提前看:生物學與學習演算法

雖然結果不能令人滿意,但負面的實驗結果也對後來的實驗有指導作用。尤其是生物學基礎的學習演算法和傳統 BP 演算法並非公平比較,因為所有的網路結構和一些訓練方法,基本都是為 BP 設計的。如果更多人投入對生物演算法的研究,隨著更多優化方法的推出,實驗結果可能會有變化。

但作者也指出,另一方面 TP 和 FA 也不是完全的符合生物學規律。比如說神經科學上並沒有實驗指出有明確的正向和反向的傳播過程。

個人覺得這篇論文的有趣之處在於指出了 BP 演算法不是唯一可以依賴的優化方法。雖然在方法論上,我們是否真的需要生物學證據來發展機器學習還是值得討論的課題。但繼 CapsuleNet 後,Hinton 在自己的生物學機器學習道路又挖了一個坑,看看以後各位怎樣跟隨。

後兩篇文章其實有相通之處,一篇是針對社交網路(social network)中人人之間的通訊溝通,尤其是他們的稀疏性,異構性,互惠性和社群結構進行建模,另外一篇是針對人心智思考中的覓食行為進行建模。這種對時空中事件的建模,我們一般採取統計學模型。

論文:Modelling sparsity, heterogeneity, reciprocity and community structure in temporal interaction data

論文連結:https://arxiv.org/abs/1803.06070

本文的主要目的是針對社交網路的交流事件進行統計學上的建模。雖然我們在社交網路的互動交流看似隨機,但隨機中其實也藏著一些特性和規律。而找出這部分統計學上的規律是社會學家和心理學家感興趣的話題。廣義上的社交網路分析(social network analysis)是一個獨立的研究課題。主要是利用網路理論和圖論對社會的結構和發生的時間,比如人際合作關係、資訊流傳、朋友網路等進行分析。

而在本文中的 social network 的交流,主要是針對線上的資料(比如 Facebook,電子郵件等)進行分析。文中提出總結出了 4 個基本原則,是跟先前研究 (比如 Pinto 2016) 不一樣的地方。

1)稀疏性:在人群中一般只有很小比率的人(無論在同一時間點或者總體來說)進行交流

2)異構性:有一部分人經常在社交網路進行交流,而另外一部分人很少交流

3)互惠性: 當節點 i 到節點 j 一個交流產生時,通常會有反向的交流接著發生

4)社群結構:同一個社群屬性的人通常會進行交流。這裡的社群屬性指同一個學校,公司等等。

由於這種社交網路事件本質上是估計(t, i, j)這個序列(表示在時間 t 發生某使用者 i 對使用者 j 交流了),一般做法是直接對時間點發生的事件進行建模來估計先驗分佈。這就是所謂的「點過程(Point Process)」建模。其中最著名的就是泊松過程Poisson process)。而 Hawkes Process 的思路是說當前發生的事件會對未來的概率密度函式(PDF)有影響,只是隨著時間流逝這種影響會逐漸減弱,在社交網路上的體現就是對於一個當前發起的交流,很有可能對未來不久後的交流會有影響,但是越往後影響會越少。在數學上一般用 kernel 函式實現。

首先,此論文的最核心結論是以下兩個函式:

NeurIPS 2018提前看:生物學與學習演算法(1)

其中,NeurIPS 2018提前看:生物學與學習演算法(2)。

因為(2)的等號左邊就表示在 dt 裡面這個事件發生的概率,所以等式右邊大家可以估計出$\lamda$ 表示是條件強度函式 conditional intensity function。具體到某兩個節點(i 到 j 或者 j 到 i)之間的交流(強度),可以用(1)來定義。而(1)中的 g 函式就是剛剛提到的 kernel 函式,是隨著時間遞減的冪函式。

NeurIPS 2018提前看:生物學與學習演算法(3)

另外值得注意的是 $\lamda_{ij}$函式(使用者 i 到 j 的交流)是跟使用者 j 到 i 之間的交流次數的時間積分也有關。所以這種社群互動會引起互相興奮 (mutally excited). 大致上可以在下圖體現:

NeurIPS 2018提前看:生物學與學習演算法

最後為了保證模型中的社群結構(community structure),需要再引入一個關係矩陣。具體來說就是同屬於一個社群的兩個個體的交流會增多。所以作者引入了 latent communities 的概念在矩陣裡面,就是用潛變數來表示各個社團群體的從屬關係。數學表現就是(1)裡面的 $\mu$,稱為基強度 (base intensity)。

NeurIPS 2018提前看:生物學與學習演算法(4)

其中 p 表示社群的數量。$w_ik$的含義是某個體 i 對於這個群體社群 k 的附屬程度。

NeurIPS 2018提前看:生物學與學習演算法

其中 $w_{io}$ 是屬於個體 i 的程度修正量。具體的物理含義就是屬於個體 i 的社交程度/受歡迎程度。而 $\beta_{ik}$ 是遵從引數($a_k$,$b_k$)的 Gamma 過程。所以這種社群結構,如果只有單變數在數學上實際也是泊松過程,而當它涉及多變數時,叫做 CRM(compound random measure) 模型(Kingman 1967),而

$ W \sim CRM (\rho, H)$。

所以 W 就是遵循以 $(\rho, H)$ 的 CRM 模型。文章假設 H 也是遵循勒貝格測度(Lebesgue measure),所以 W 簡化成

$ W \sim CRM (\rho)$

而當 $\rho$ 遵循萊維測度(Levy measure)時,Gamma 過程可以寫成

NeurIPS 2018提前看:生物學與學習演算法

其中,NeurIPS 2018提前看:生物學與學習演算法

文章的數學上寫的很曲折,但如果結合到社交網路的上下文,概率函式的主要功用是保證了人群中使用社交網路的異構性和稀疏性。某些人的 w 參與度比較多,他的 $w_{io}$ 也比較多。但其餘的人比較少。

總結來說,這個模型結合了社交網路的 4 個客觀特性,選取了適當的模型來迎合這些特性。雖然不少 paper 也是利用 Hawkes 過程建立社交網路模型(e.g. Pinto 2016),相比之前提出的一些類似模型(比如文中多次提到的 Todeshini 2016),這篇論文更強調了凸顯社交網路中存在的一些客觀性質。這些性質就要擴充已有的模型,而要體現不同群體不同興趣的人群的社交交流,就要再結合 CRM 模型來實現。

  • Kingman, John. "Completely random measures." Pacific Journal of Mathematics 21.1 (1967): 59-78.

  • Pinto, JC Louzada, Tijani Chahed, and Eitan Altman. "A framework for information dissemination in social networks using Hawkes processes." Performance Evaluation 103 (2016): 86-107.

  • Todeschini, Adrien, Xenia Miscouridou, and François Caron. "Exchangeable random measures for sparse and modular graphs with overlapping communities." arXiv preprint arXiv:1602.02114 (2016).

論文: Mental Sampling in Multimodal Representations

論文連結:https://arxiv.org/abs/1710.05219

這篇文章想回答一個問題,當我們假設我們大腦遵循貝葉斯法則,做出的判斷是遵循看到的現象和根據先驗經驗而估計出一個後驗經驗。而總所周知,我們不能在很快時間總結出所以過去發生的時間。所以一般人總是從後驗分佈中根據假設進行取樣 (sampling)。先前的研究一般是採用直接取樣 (Direct Sampling) 或者馬爾可夫鏈蒙地卡羅 (MCMC)。本文提出因為一般心智空間的內容分佈是塊狀的,而且取樣中的某些噪聲擾動對於一些生物現象是很重要的,所以作者提出了新的取樣方法。

文章涉及的統計學知識也跟前一篇有相關,但想解決的問題不一樣。第一篇文章是建立一個統計學模型,而這一篇是在建立好模型基礎上的取樣演算法問題。具體來說,這篇文章建立在人的心智思考(基於貝葉斯定理的假設)中其實也存在這類似取樣過程。

關於大腦的貝葉斯推理過程,可以表示成:

$ p(h|d) = \frac{p(d|h)p(h)}{\sum_{h \in H}p(d|h)p(h)} $(1)

這個推理過程如果人腦覺得在假設集合 H 裡面可以解釋現象 d,另外在集合 H 裡面各個假設 h 是有一定的先驗分佈 $p(h)$, 而$p(d|h)$假設 h 下現象發生的概率 likelihood。

因為心智的計算跟我們平時計算貝葉斯定理差不多,不能把所有的過去的經驗都逐一回憶(在算式裡是積分或者求和)。所以怎樣把統計學裡的取樣(sampling)解釋人的心智思考,就是本文想解決的內容。

作者首先假設人的思考在心智空間(Mental Space)裡是塊狀(「patchy」)分佈的,塊與塊之間存在大量的空白。這種塊可以解釋為類似語義內容(semantic)是在心智空間裡是以概念的形式聚合分佈,類似的概念會聚集到附近。因此人的心理思考可以解釋為類似覓食過程(文中稱為 internal forage),在心智空間裡面尋找符合的內容元素。

要描述這種覓食過程,文中假設了它在時間和空間都是遵循萊維過程(Levy Process):

NeurIPS 2018提前看:生物學與學習演算法(2)

其中 $\mu$ 是固定值,$l$ 表示每次跳躍的長度。$1<\mu \leq 3$,所以冪函式解釋了人思考的取樣很大機率都是以短距離的 l 附近進行思考。這種例子可以在一些遊戲測試中體現出來。(比如讓參加者說出動物,人們說出的大部分都是有類似性質的聚類的動物,例如寵物,非洲動物等。)

而在時間結構上,類似的萊維過程也存在。

NeurIPS 2018提前看:生物學與學習演算法(3)

NeurIPS 2018提前看:生物學與學習演算法(4)

算式(3)代表自相關函式 (autocorrelation function)(4)表示頻譜功率 (spectral power)。因此他們隨著時間 k 和頻率 f 都會對於當前的狀態有一定的相關性。具體來說,論文也列舉了以下生物學的現象來體現這種 $\frac{1}{f}$的「噪聲」波動的規律(Gilden 1995)。比如說人估計「一秒」的時間長度,他們的估計總在一秒實際時間之間以 1/f 擾動。另外人的視覺感知在某些錯檢視形面前也會來回更改(比如奈克方塊 Necker cube(圖 1)),這些都可以用心智模型中的 1/f 視域擾動來解釋。

NeurIPS 2018提前看:生物學與學習演算法

Necker Cube

接著文章提出了下一個問題,我們的心智決策中是通過什麼的取樣演算法來實現這種時空裡的萊維過程?文中比較了 3 種取樣演算法直接取樣(Direct Sampling,DS),Random Walk Metropolis(RwM)和 Metropolis-coupled MCMC(MC3)。其中 DS 直接取樣是最直接簡易的蒙地卡羅方法,利用可得到的概率分佈來估計未知變數的概率分佈(如圖 2)。但它的缺點是同樣是不能求出算式(1)中的求和項。而 MCMC 演算法因為假設了每個狀態之間遵照馬科夫鏈分佈,估計完新的狀態後然後再計算接受度(acceptance rate)來決定當前的取樣是否接受。

NeurIPS 2018提前看:生物學與學習演算法

通過在 F(x)上的取樣,估計 x 的分佈。

而本文重點介紹的 Metropolis-coupled MCMC(MC3)比 RwM 又多幾個步驟,來符合萊維過程中的多模態特性(Geyer 1991)。首先,演算法假設多條馬爾可夫鏈同時存在,而狀態在多條馬爾可夫鏈的取樣,是通過與溫度引數(Temperature)相關的分佈 $\pi^{\frac{1}{T}}$, 其中 $\pi ()$是先驗密度函式。因此我們可以計算與接受度函式類似的交換函式

NeurIPS 2018提前看:生物學與學習演算法(5)

在算式 5 中,當 $A^{swap}$ 大於某個平均分佈隨機值 u 時,編號第 i 和 j 的馬爾可夫鏈生成的取樣就會交換。因此越高溫度的馬爾可夫鏈,可以更有機率被交換。在心智空間裡面,這種取樣方法可以有機會到達更加遠的高概率空間。完整的 MC3 演算法如下:

NeurIPS 2018提前看:生物學與學習演算法

論文當然也模擬的萊維過程對三種取樣方法進行了比較。主要比較了三種方法能否跟蹤生成的狀態:

NeurIPS 2018提前看:生物學與學習演算法

但似乎 DS 方法的跟蹤多模態分佈比 MC3 還要好,不知是否跟文中只用 T=1 的馬爾可夫鏈有關。

當然論文另一個推薦 MC3 的原因是 1/f 噪聲擾動,似乎 MC3 表現不錯。

NeurIPS 2018提前看:生物學與學習演算法

個人評價:這篇文章標題很吸引,但看到最後覺得在最後只是針對 mental sampling 應用一個已有的演算法。當然在實驗中如今也只能用數學模擬實驗。但如果能跟行為心理學的實驗合作,檢測參與者結合多模態的先驗經驗來在演算法上新意不大,只是利用了現成的取樣演算法來實現貝葉斯心智過程的預估。當然在應用上來說,這種取樣可能也能應用到其他多模態分佈領域。

  • Gilden, David L., Thomas Thornton, and Mark W. Mallon. "1/f noise in human cognition." Science 267.5205 (1995): 1837-1839.

  • Geyer, Charles J. "Markov chain Monte Carlo maximum likelihood." (1991).

相關文章