圖文並茂的神經網路架構大盤點:從基本原理到衍生關係

機器之心發表於2016-09-18

隨著新型神經網路架構如雨後春筍般地時不時出現,我們已經很難再跟蹤全部網路了。要是一下子看到各種各樣的縮寫(DCIGN、BiLSTM、DCGAN……),真的會讓人有點招架不住。

為此,Fjodor Van Veen 寫出了一篇包含了大量架構(主要是神經網路)的盤點性文章,並繪製了直觀的示意圖進行說明。

圖文並茂的神經網路架構大盤點:從基本原理到衍生關係

將這些架構繪製成節點圖的一個問題:它並沒有真正展示這些架構的工作方式。比如說,變自編碼器(VAE)可能看起來和自編碼器(AE)一樣,但其訓練過程卻相當不同。訓練好的網路的使用案例之間的差別甚至更大,因為 VAE 是生成器(generator),你可以在其中插入噪聲來得到新樣本;而 AE 只是簡單地將它們的輸入對映到其所「記得」的最接近的訓練樣本。所以必須強調:這篇概覽中的不同節點結構並不能反映出這些架構的內在工作方式。

列出一份完整的列表實際上是不可能的,因為新架構一直在不斷出現。即使已經發表了,我們可能很難找到它們,而且有時候還會不自覺地忽略一些。所以儘管這份清單能為你提供人工智慧世界的一些見解,但無論如何請不要認為這份清單是全面的;尤其是當你在這篇文章寫出後很久才讀到時(注:本文原文發表於 2016 年 9 月 14 日)。

對於本文中圖片所描繪的架構,作者都寫了一點非常非常簡短的說明。如果你很熟悉其中一些架構,但不熟悉另一些,你可能會覺得這些說明會有用處。

圖文並茂的神經網路架構大盤點:從基本原理到衍生關係

前饋神經網路(FF 或 FFNN:Feed Forward neural networks)是非常簡單的:它們從前向後饋送資訊(從輸入到輸出)。神經網路常被描述為層級形式,其中的層(layer)可能是輸入層、隱藏層或輸出層。一個單獨的層不存在什麼連線(connection),而通常相鄰的兩個層是完全連線的(一個層的每一個神經元都連線到另一個層的每一個神經元)。其中可以說是最簡單的實際網路具有兩個輸入單元和一個輸出單元,其可用於對邏輯閘進行建模。人們常常通過反向傳播(back-propagation)來訓練 FFNN,從而讓該網路獲得配對的資料集——「輸入的內容」和「我們想要得到的輸出」。這被稱為監督學習(supervised learning),其相反的方法被稱為無監督學習(unsupervised learning),其中我們只需要給出輸入然後讓網路自己填補空白。被反向傳播的誤差(error)常常是輸入和輸出之間差分(difference)的某種變體(如 MSE 或只是線性差分)。如果該網路有足夠的隱藏神經元,那麼理論上它總是能夠建模出輸入和輸出之間的關係。實際上它們的使用存在很大的限制,但它們常被用來與其它網路結合以構建新的網路。

圖文並茂的神經網路架構大盤點:從基本原理到衍生關係

徑向基函式(RBF: Radial basis function)網路是使用徑向基函式作為啟用函式(activation function)的 FFNN。沒什麼其它的了。但這不意味著它沒有用處,但大部分帶有其它啟用函式的 FFNN 都沒有自己的專用名稱。這主要是因為人們在正確的時間發明了它。

圖文並茂的神經網路架構大盤點:從基本原理到衍生關係

霍普菲爾德網路(HN: Hopfield Network)是一種每一個神經元和其它每一個神經元都有連線的網路;它是完全糾纏在一起的義大利麵條,其中所有的節點都是全功能的。在訓練之前,每一個節點都是輸入;在訓練過程中,每一個節點都是隱藏;之後它們都是輸出。這種網路的訓練是:將神經元的值設定成我們想要的模式,從而計算出權重(weight)。之後權重便不再變化。一旦為一種或多種模式進行了訓練之後,這種網路總是會收斂成其學習過的一種模式,因為這種網路只能穩定在這些狀態。請注意它並不是符合預期的狀態(悲傷的是它並不是魔法黑箱)。因為該網路的總「能量(energy)」或「溫度(temperature)」在訓練過程中會逐漸減小,所以它總會一部分接一部分地穩定下來。每一個神經元都一個可以擴充套件到這個溫度的啟用閾值,而如果該神經元的輸入總和超過了該閾值,那麼輸入就會使神經元從兩個狀態(通常是 -1 或 1,有時候是 0 或 1)之中選擇一個。網路的更新可以同步完成,但更常見的是一個接一個更新神經元。如果是一個接一個地更新,就會建立一個公平隨機(fair random)的序列來組織哪些單元以哪種順序更新(公平隨機是指所有(n)的選擇在每 n 個項中只恰好發生一次)。這樣你就能分辨網路何時達到了穩定(收斂完成):一旦每一單元都被更新後而其中沒有任何改變,那麼該網路就是穩定的(即退火了的(annealed))。這些網路常被稱為聯想記憶(associative memory),因為其會收斂到與輸入最相似的狀態;人類看到半張桌子就能想象出另一半,類似地,如果給這種網路提供半張桌子和一半噪聲,那麼該網路就能收斂出一張桌子。

圖文並茂的神經網路架構大盤點:從基本原理到衍生關係

馬爾可夫鏈(MC:Markov Chain)或離散時間馬爾可夫鏈(DTMC: discrete time Markov Chain)是 BM 和 HN 的某種前輩。可以這樣理解:從我目前所處的節點開始,到達我周圍任何節點的概率是多少?它們是無記憶的(即馬爾可夫特性(Markov Property)),這意味著你所得到的每一個狀態都完全依賴於其之前的一個狀態。儘管算不上是神經網路,但它們確實類似於神經網路,並提供了 BM 和 HN 的理論基礎。

圖文並茂的神經網路架構大盤點:從基本原理到衍生關係

玻爾茲曼機(BM:Boltzmann machines)和 HN 非常相似,除了:一些神經元被標記為輸入神經元,而其它的仍然是「隱藏的」。這些輸入神經網路會在整個網路更新結束時變成輸出神經元。其開始時是隨機權重,然後通過反向傳播學習,最近也有人使用對比發散(contrastive divergence)的方法(使用一個馬爾可夫鏈來確定兩個資訊增益之間的梯度)。和 HN 相比,BM 的神經元有時也有二元啟用模式(binary activation patterns),但其它時間它們是隨機的:一個單元處在一個特定狀態的可能性。BM 的訓練和執行過程非常類似於 HN:首先為輸入神經元設定特定的鉗位值(clamped values),然後該網路就自由了(不需要外力了)。自由了之後這些單元能得到任何值,然後我們在輸入和隱藏神經元之間反覆來回。它最後會在合適的溫度下達到平衡。

圖文並茂的神經網路架構大盤點:從基本原理到衍生關係

受限玻爾茲曼機(RBM:Restricted Boltzmann machines)類似於 BM(這毫不奇怪),所以也類似於 HN。BM 和 RBM 之間的最大不同之處是 RBM 是更受限的,所以也可被更好地使用。它們並不將每一個神經元和其它每一個神經元連線起來,而是隻將每組不同的神經元和其它每一組連線起來,所以輸入神經元不會直接連線到其它輸入神經元,隱藏神經元之間也沒有連線。RBM 可以以類似 FFNN 的方式訓練,但也有一點不同:不是前向通過資料然後反向傳播誤差,而是前向通過資料之後再將這些資料反向傳回(回到第一層)。在那之後再使用前向和反向傳播進行訓練。

圖文並茂的神經網路架構大盤點:從基本原理到衍生關係

自編碼器(AE:Autoencoders)有一點類似於 FFNN,因為 AE 更像是 FFNN 的一種不用的用例,而非一種根本上不同的架構。自編碼器背後的基本思想是自動編碼資訊,也因此得名。其整個網路有一種沙漏般的形狀——其隱藏層比輸入層和輸出層都小。AE 也是圍繞中間層對稱的(根據層的數量是奇數或偶數,中間層有 1 層或 2 層)。最小層總是位於中間,這裡的資訊得到了最大的壓縮(該網路的阻塞點( chokepoint))。中間以上的所有部分被稱為編碼(encoding)部分,中間以下的所有部分則被稱解碼(decoding)部分,中間部分則被稱為程式碼(code)。人們可以通過饋送輸入以及將誤差設定成輸入和輸出之間的差異的方式,使用反向傳播來訓練它們。當涉及到權重時, AE 還可以對稱式的構建,所以編碼權重和解碼權重一樣。

圖文並茂的神經網路架構大盤點:從基本原理到衍生關係

稀疏自編碼器(SAE: Sparse autoencoders)在某種程度上是 AE 的反面。它不是在更少的「空間(space)」或節點中教一個網路表徵一些資料,而我們試圖在更多空間中編碼資訊。所以不再是網路在中間收斂然後擴充套件回輸入大小,我們直接消除了中間內容。這些型別的網路可被用於從資料集中提取許多小特徵。如果我們以類似於 AE 的方式訓練一個 SAE,在幾乎所有情況下你都只會得到一個相當無用的恆等網路(輸入即是輸出,沒有任何變換或分解)。為了防止這種情況,我們不反饋輸入,而是反饋輸入加稀疏驅動器(sparsity driver)。這個稀疏驅動器可以以閾過濾器(threshold filter)的形式,其中只有一個特定的誤差會被傳播回去和訓練,在這次通過過程中其它的誤差都將是「無關的」,會被設定為 0。在某種程度上這類似於脈衝神經網路(spiking neural networks),其中並不是所有的神經元在所有時間都在放電(以及為生物合理性給出分數)。

圖文並茂的神經網路架構大盤點:從基本原理到衍生關係

變自編碼器(VAE:Variational autoencoders )的架構和 AE 一樣,但被「教授」了不同的東西:輸入樣本的一個近似概率分佈。這有點回到本源的感覺,因為它們和 BM 及 RBM 的聯絡更緊密一點。但它們確實依賴於貝葉斯數學來處理概率推理和獨立(probabilistic inference and independence),以及依靠重新引數化(re-parametrisation)來實現這種不同的表徵。這種推理和獨立部件理解起來很直觀,但它們或多或少依賴於複雜的數學。其基礎可以歸結為:將影響考慮在內。如果某種事物在一個位置發生,而其它地方則發生其它事物,那麼它們不一定是相關的。如果它們不相關,那麼誤差傳播應該考慮一下這一點。這是一種有用的方法,因為神經網路是大型的圖(graph,從某種角度來看),所以在深入到更深的層時如果排除掉一些節點對其它節點的影響,就會帶來幫助。

圖文並茂的神經網路架構大盤點:從基本原理到衍生關係

去噪自編碼器(DAE: denoising autoencoders)是一種輸入中不僅包含資料,也包含噪聲(比如使影象更有顆粒感)的自動編碼器。但我們以同樣的方式計算誤差,所以該網路的輸出是與不帶噪聲的原始輸入進行比較。這能讓網路不會學習細節,而是學習更廣泛的特徵,因為學習更小的特徵往往會被證明是「錯誤的」,因為更小的特徵會不斷隨噪聲變化。

圖文並茂的神經網路架構大盤點:從基本原理到衍生關係

深度信念網路(DBN: deep belief networks )基本上是 RBM 或 VAE 堆疊起來的架構。事實已經證明這些網路可以堆疊起來高效地訓練,其中的每一個 AE 或 REM 只必須編碼編碼之前的網路即可。這種技術也被稱為貪婪訓練(greedy training),其中貪婪是指得到區域性最優的解決方案,從而得到一個合理的但可能並非最優的答案。DBN 可通過對比發散(contrastive divergence)或反向傳播進行訓練,以及學習將資料表徵為概率模型,就像普通的 RBM 或 VAE 一樣。一旦通過無監督學習訓練或收斂成了一個(更)穩定的狀態,該模型就可被用於生成新資料。如果採用對比發散進行訓練,它甚至可以對已有的資料進行分類,因為其神經元已經學會了尋找不同的特徵。

圖文並茂的神經網路架構大盤點:從基本原理到衍生關係

卷積神經網路(CNN:convolutional neural networks)或深度卷積神經網路(DCNN:deep convolutional neural networks)和其它大多數網路非常不同。它們主要被用於影象處理,但也可應用於音訊等其它型別的輸入。CNN 的一種典型的用例是讓網路對輸入的影象進行分類,比如,當輸入的影象上有貓時輸出「cat」、有狗時輸出「dog」。CNN 往往開始帶有一個輸入「掃描器(scanner)」,其目的是不一次性解析所有的訓練資料。比如要輸入一張 200×200 畫素的影象,你並不需要一個帶有 40000 個節點的層。事實上,你只需要建立一個比如說 20×20 的掃描輸入層,這樣你就可以從該影象的一個 20×20 畫素的部分開始輸入(通常是從左上角開始);一旦這個輸入完成後(可能是用於訓練),你再輸入下一個 20×20 畫素:將該掃描器向右移 1 個畫素。注意人們不會一次性移動 20 個畫素(掃描器的寬度),也不是將影象分解成 20×20 的塊;相反,而是讓掃描器在影象上「爬行」。然後這些輸入資料被送入卷積層(convolutional layers),這和普通的層不一樣,其中所有的節點並非連線到所有的節點。每一個節點僅將它自己與其近鄰的單元連線起來(到底多近取決於具體的實現,但通常不止一點點)。這些卷積層往往會隨著網路越來越深而縮小,大部分是按照輸入可以輕鬆整除的因子(所以 20 後面的層可能是 10 ,然後是 5)。這方面常使用 2 的冪,因為它們可以通過 32, 16, 8, 4, 2, 1 這樣的定義完全整除。除了這些卷積層,它們常常還有池化層(pooling layer)。池化是一種濾除細節的方法:一種常見的池化技術是最大池化(max pooling)——其中我們取比如 2×2 的畫素,然後根據最大量的紅色傳遞這些畫素。為了將 CNN 應用到音訊上,基本上是輸入音訊波然後緩慢移動音訊片段,一段接一段。CNN 的真實世界實現往往會在末端連線一個 FFNN 以便進一步處理資料,這可以實現高度非線性的抽象。這樣的網路被稱為 DCNN,但這兩者的名字和縮寫往往可以混用。

圖文並茂的神經網路架構大盤點:從基本原理到衍生關係

解卷積神經網路(DNN:Deconvolutional neural networks)也被稱為逆圖形網路(IGN: inverse graphics networks),是反向的卷積神經網路。比如給網路輸入一個詞「cat」,然後訓練它生成一張類似貓的影象(通過將其與真實的貓圖片進行比較)。和普通的 CNN 一樣,DNN 也能和 FFNN 結合使用,但我們就不給這種網路縮寫了。我們也許可以將其稱之為深度解卷積神經網路,但你也可以認為當你在 DNN 的前端和後端都接上 FFNN 時,你得到的架構應該有一個新名字。請注意在大多數應用中,人們實際上並不會為該網路送入類似文字的輸入,而更多的是一個二元的分類輸入向量。比如設 <0, 1> 是貓,<1, 0> 是狗,<1, 1> 是貓和狗。CNN 中常見的池化層往往會被相似的逆向運算替代,主要使用偏差假設(biased assumptions)做插值和外推(interpolation and extrapolation )(如果一個池化層使用的是最大池化,你可以通過其逆向過程產生特定度更低的新資料)。

圖文並茂的神經網路架構大盤點:從基本原理到衍生關係

深度卷積逆向圖網路(DCIGN:Deep convolutional inverse graphics networks)的名字比較有誤導性,因為它們實際是 VAE,但有 CNN 和 DNN 分別作為編碼器和解碼器。這些網路試圖在編碼中將特徵建模為概率,以便於它能在曾經分別看到貓和狗的情況下,學習產生同時帶有貓和狗的圖片。類似的,你能給它輸入一張帶有貓和狗的圖片,要求網路去掉圖片中的狗,即使之前你未曾做過這樣的操作。已有演示表明這些網路也能學習模型圖片上的複雜變化,比如改變光源或者 3D 目標的旋轉。這些網路往往通過反向傳播訓練。

圖文並茂的神經網路架構大盤點:從基本原理到衍生關係

生成式對抗網路(GAN:Generative adversarial networks)源於不同的網路型別,它們是雙胞胎:兩個網路一起工作。GAN 包含任意兩種網路(儘管通常是 FF 和 CNN),一個網路的任務是生成內容,另一個是用於評判內容。判別網路要麼獲取訓練資料,要麼獲取來自生成網路的內容。判別網路能夠多好地準確預測資料來源的程度然後被用來作為生成網路的誤差。這創造了一種競爭方式,判別器區別真實資料與生成資料上做得越來越好,而生成器也變得對判別器而言越來越難以預測。這效果很好的部分原因是即使相當複雜的類噪音模式最終也是可預測的,但生成的類似於輸入資料的內容更難以學習進行區別。GAN 訓練起來相當難,因為不僅要訓練兩個網路(每個解決各自的問題),兩個網路的動態也要平衡好。如果預測或生成相比於對方更好,GAN 收斂不好,因為存在有內在的分歧。

圖文並茂的神經網路架構大盤點:從基本原理到衍生關係

迴圈神經網路(RNN:Recurrent neural networks)是帶有時間聯結的 FFNN:它們不是無狀態的,它們隨時間變化在通路與連線之間有聯絡。神經元不只從前面層中被輸入資訊,也從來自它們自己的之前的通過中獲得資訊。這意味著你輸入資訊和訓練網路的順序很重要:輸入「牛奶」然後是「甜餅」與輸入「甜餅」然後是「牛奶」相比可能會產生不同的結果。RNN 的一個重大問題是梯度消失(或爆炸)問題,取決於使用的啟用函式,資訊隨時間漸漸損失,就像很深的 FFNN 隨深度變化消失資訊一樣。直觀上這看起來不是大問題,因為這些只是權重,不是神經元狀態,但隨時間變化的權重正是來自過去資訊的儲存。如果權重達到 0 或 1,000,000 的值,先前的狀態就不在具有資訊性。RNN 理論上可被用於多個領域,因為大部分的資料形式沒有時間線上的變化(也就是不像聲音和視訊),所以時間決定的權重被用於序列之前的東西,不是多少秒之前發生的內容。大體上,迴圈網路是發展或完善資訊的較好選擇,比如 autocompletion(自動完成)任務。

圖文並茂的神經網路架構大盤點:從基本原理到衍生關係

長短期記憶網路(LSTM:Long / short term memory)試圖通過引入門(gate)和明顯定義的記憶單元對抗梯度消失(爆炸)問題。這個思路受到電路圖的啟發,而不是生物學上的概念,每個神經元有一個記憶單元和 3 個門:輸入、輸出、遺忘( input, output, forget)。這些門的功能是通過禁止或允許其流通確保資訊。輸入門決定來自上層的資訊有多少被該單元儲存。輸出層在另一端做同樣的事,並決定下一層多麼瞭解該細胞的狀態。遺忘門看起來像是一個奇怪的東西,但有時被遺忘反而更好。已有實驗表明 LSTM 能夠學習複雜的序列,比如像莎士比亞一樣寫作,或者創造交響樂。注意每個門在之前神經元中都有一個權重,所以執行起來需要更多的資源。

圖文並茂的神經網路架構大盤點:從基本原理到衍生關係

門迴圈單元(GRU:Gated Recurrent Units)是 LSTM 的一種輕量級變體。它們有一個門,連線方式也稍微不同:沒有輸入、輸出、遺忘門,它們有一個更新門(update gate)。該更新門既決定來自上個狀態的資訊保留多少,也決定允許進入多少來自上個層的資訊。重置的門函式很像 LSTM 中遺忘門函式,但位置稍有不同。GRU 的門函式總是發出全部狀態,它們沒有一個輸出門。在大多案例中,它們的職能與 LSTM 很相似。最大的不同就是 GRU 更快、更容易執行(但表達力也更弱)。在實踐中,可能彼此之間要做出平衡,當你需要具有更大表達力的大型網路時,你可能要考慮效能收益。在一些案例中,額外的表達力可能就不再需要,GRU 就要比 LSTM 好。

圖文並茂的神經網路架構大盤點:從基本原理到衍生關係

神經圖靈機(NTM:Neural Turing machines)可被理解為 LSTM 的抽象化,並試圖將神經網路去黑箱化( un-black-box,讓我們洞見裡面到底發生了什麼。)NTM 中並非直接編碼記憶單元到神經元中,裡面的記憶是分離的。這種網路試圖想將常規數字儲存的功效與永久性和神經網路的效率與表達力結合起來。這種網路的思路是有一個可內容定址的記憶庫,神經網路可以直接從中讀取並編寫。NTM 中的「Turing」來自於圖靈完備(Turing complete):基於它所讀取的內容讀取、編寫和改變狀態的能力,意味著它能表達一個通用圖靈機可表達的一切事情。

雙向迴圈神經網路(BiRNN:Bidirectional recurrent neural networks)、雙向長短期記憶網路(BiLSTM:bidirectional long / short term memory networks )和雙向門控迴圈單元(BiGRU:bidirectional gated recurrent units)在詞表中並未展現,因為它們看起來和各自單向的結構一樣。不同的是這些網路不僅連線過去,也連線未來。舉個例子,通過一個接一個的輸入 fish 這個詞訓練單向 LSTM 預測 fish,在這裡面迴圈連線隨時間記住最後的值。而一個 BiLSTM 在後向通路(backward pass)的序列中就被輸入下一個詞,給它通向未來的資訊。這訓練該網路填補空白而非預報資訊,也就是在影象中它並非擴充套件影象的邊界,而是可以填補一張圖片中的缺失。

圖文並茂的神經網路架構大盤點:從基本原理到衍生關係

深度殘差網路(DRN:Deep residual networks)是非常深度的 FFNN 網路,有著額外的連線將輸入從一層傳到後面幾層(通常是 2 到 5 層)。DRN 並非是要發現將一些輸入(比如一個 5 層網路)對映到輸出的解決方案,而是學習將一些輸入對映到一些輸出 + 輸入上。大體上,它在解決方案中增加了一個恆等函式,攜帶舊的輸入作為後面層的新輸入。有結果顯示,在超過 150 層後,這些網路非常擅長學習模式,這要比常規的 2 到 5 層多得多。然而,有結果證明這些網路本質上只是沒有基於具體時間建造的 RNN ,它們總是與沒有 gate 的 LSTM 相對比。

圖文並茂的神經網路架構大盤點:從基本原理到衍生關係

回聲狀態網路(ESN:Echo state networks)是另一種不同型別的網路。它不同於其他網路的原因在於它在不同神經元之間有隨機連線(即,不是在層之間整齊連線。),而且它們訓練方式也不同。在這種網路中,我們先給予輸入,向前推送並對神經元更新一段時間,然後隨時間觀察輸出,而不是像其他網路那樣輸入資訊然後反向傳播誤差。ESN 的輸入和輸出層有一些輕微的卷積,因為輸入層被用於準備網路,輸出層作為隨時間展開的啟用模式的觀測器。在訓練過程中,只有觀測器和隱藏單元之間連線會被改變。

圖文並茂的神經網路架構大盤點:從基本原理到衍生關係

液態機(LSM:Liquid state machines)看起來與 ESN 非常類似。不同的是,LSM 是脈衝神經網路(spiking neural networks)這一型別的:用閾值函式取代 sigmoid 啟用函式,每個神經元也是一個累加記憶細胞。所以當更新神經元的時候,裡面的值並不是被設為臨近值的總和,也不是增加到它自身上。一旦達到閾值,它將能量釋放到其他神經元。這就創造出了一種類似 spiking 的模式——在突然達到閾值的之前什麼也不會發生。

圖文並茂的神經網路架構大盤點:從基本原理到衍生關係

支援向量機(SVM:Support Vctor Machines)能發現分類問題的最佳解決方案。傳統上只能夠分類線性可分的資料,比如說發現哪個影象是加菲貓,哪張圖片是史努比,不可能有其他輸出。在訓練過程中,SVM 可被視為在一張圖上(2D)標繪所有資料(加菲貓和史努比),並搞清楚如何在這些資料點間畫條線。這條線將分割資料,以使得加菲貓在一邊,史努比在一邊。調整這條線到最佳的方式是邊緣位於資料點之間,這條線最大化到兩端。分類新資料可通過在這張圖上標繪一個點來完成,然後就簡單看到這個點位於線的哪邊。使用核(kernel)方法,它們可被教授進行 n 維資料的分類。這要在 3D 圖上標繪資料點,從而讓其可分類史努比、加菲貓、Simon’s cat,甚至分類更多的卡通形象。

圖文並茂的神經網路架構大盤點:從基本原理到衍生關係

最後,我們介紹 Kohonen 網路(KN,也稱自組織(特徵)對映(SOM/SOFM:self organising (feature) map))。KN 利用競爭學習在無監督情況下分類資料。向網路輸入資訊,然後網路評估那個神經元最匹配該輸入資訊。然後調整這些神經元以更好地匹配輸入,在這個過程中拖帶(drag along)著臨近神經元。臨近神經元能移動多少取決於它們與最好的匹配單元之間的距離。

相關文章