動量（Momentum）

Momentum是Gradient Descent演算法的擴充套件、可加速或抑制引數更新。

1、徵

多層感知器（MLP）

多層感知器是一種前饋神經網路，具有多個完全連線的層，使用非線性來處理不可線性分離的資料。MLP是多層神經網路的最基本形式，如果它超過2層，則是深度神經網路。

神經機器翻譯（NMT）

NMT系統使用神經網路在不同語言之間進行翻譯，例如英語和法語。NMT系統可以使用雙語語料庫進行端到端的訓練，這與需要手工製作的特徵的傳統機器翻譯系統不同。NMT系統通常使用編碼器和解碼器遞在歸神經網路來實現，該編碼器和解碼器分別是編碼源句子和產生目標句子。

1、

2、

神經網路圖靈機（NTM）

NMT是神經網路架構，可以從示例中推斷出簡單的演算法。例如，NTM可以透過示例輸入和輸出來學習排序演算法。NTM通常學習某種形式的記憶和注意力機制來在程式執行期間處理狀態。

1、

噪聲對比估計（NCE）

噪聲對比估計是通常用於訓練具有大輸出詞彙的分類器取樣損耗。在大量可能的類別上計算非常昂貴，但使用NCE，我們可以透過訓練分類器將問題從“實際”分佈和人為生成的噪聲分佈區分開來，將問題簡化為二元分類問題。

1、

2、

受限玻爾茲曼機（RBN）

RBM是一種機率圖形模型，也可以解釋為隨機人工神經網路，RBN以無監督的方式學習資料的表徵。RBN由可見層和隱藏層以及這些層中的二進位制神經元之間的連線組成。RBN可以使用（進行有效訓練，這是梯度下降的近似值。

1、

2、受限玻爾茲曼機器簡介

遞迴神經網路（RNN）

RNN透過隱藏狀態順序互動，它最多需要N個輸入併產生多達N個輸出。例如，輸入可以是句子，輸出是句子的情感分類（N-to-1）。輸入可以是單個影像，輸出可以是與影像的描述（1到N）對應的單詞序列。在每個時間步，RNN基於當前輸入和先前隱藏狀態計算新的隱藏狀態（“儲存器”）。“遞迴性”就是源於這樣的事實：在每個步驟中使用相同的引數並且網路基於不同的輸入執行相同的計算操作。

結構遞迴神經網路

結構遞迴神經網路是結合樹狀結構的推廣。它也在每次遞迴時應用相同的權重，但結構遞迴神經網路可以使用反向傳播進行端到端的訓練。雖然可以將樹結構作為最佳化問題的一部分來學習，但結構遞迴神經網路通常應用於已經具有預定義結構的問題，如自然語言處理中的解析樹。

1、用結構遞迴神經網路解析自然場景和自然語言處理

RELU

線性整流函式的簡稱。ReLU通常用作深度神經網路中的，它們的定義是f(x)=max(0,x)。ReLU函式在效能上是優於tanh函式，並且它們對影響較小。ReLUs是卷積神經網路中最常用的啟用函式。存在若干變體，例如，或更平滑的近似。

1、；

2、；

3、；

RESNET

Deep Residual Networks贏得了2015年ILSVRC的挑戰。它透過在層的堆疊之間引入快捷方式連線來工作，允許最佳化器學習“更容易”的殘差對映，而不是更復雜的原始對映。ResNet在ImageNet測試集上實現了3.57％的錯誤率。

1、；

RMSProp

RMSProp是一種基於梯度的最佳化演算法，它與類似，但引入了額外的衰減方法來抵消Adagrad學習率的快速下降。

1、用於機器學習的神經網絡

2、

3、

Seq2Seq

序列到序列模型將序列（例如句子）作為輸入讀取併產生另一序列作為輸出。它與標準不同之處在於，在網路開始產生任何輸出之前完全讀取輸入序列。通常，seq2seq模型使用兩個RNN實現，用作編碼器和解碼器。是seq2seq模型的典型示例。

1、

SGD

隨機梯度下降是一種基於梯度的最佳化演算法，用於在訓練階段學習網路引數，通常使用演算法計算梯度。在實踐中，人們使用SGD的小批次版本，其中引數更新是基於批次而不是單個示例來執行的，從而提高了計算效率。存在許多對vanilla SGD的擴充套件，包括、、、或。

1、；

2、；

3、；

SOFTMAX

通常用於將原始分數的向量轉換成在一個神經網路的機率類用於分類的輸出層。它透過取冪和除以標準化常數來對分數進行標準化。如果我們正在處理大量的類，例如機器翻譯中的大量詞彙表，標準化這些常量的計算成本很高。這就需要各種替代方案以使計算更有效，包括或使用基於取樣的損失，例如。

TensorFlow

是一個開源的C++/Python軟體庫，使用資料流圖進行數值計算。它是由Google建立，在設計方面，它與最相似。

Theano

是一個Python庫，允許你自定義、最佳化和評估數學表示式。它包含許多用於深度神經網路的基礎塊。Theano是一個類似於的低階庫，高階庫包括和。

梯度消失問題

消失梯度問題通常出現在非常深的神經網路中，通常是遞迴神經網路，因為它使用了使梯度趨於很小的啟用函式（在0到1的範圍內）。而這些小梯度在反向傳播期間成倍增加，所以它們傾向於在整個層中“消失”，從而阻止網路學習遠端依賴性。解決此問題的常用方法是使用不受小梯度影響的啟用函式或使用明確消除梯度消失的架構，與此問題相反的是。

1、；

VGG

VGG指的是一種卷積神經網路模型，這個模型分別在2014年ImageNet影像定位和分類中獲得第一名和第二名。VGG模型由16-19個權重層組成，並使用尺寸為3×3和1×1的小卷積濾波器。

1、

word2vec

word2vec是一種演算法和，透過嘗試預測文件中單詞的上下文來學習詞。例如，生成的單詞向量具有一些有趣的屬性vector(‘queen') ~= vector('king')-vector('man')+vector('woman')。可以使用兩個不同的目標來學習這些嵌入：Skip-Gram目標嘗試從單詞上預測上下文，並且CBOW目標嘗試從其上下文預測單詞。

1、；

2、；

3、；

這些深度學習術語，你瞭解多少？（下）

相關文章