Google釋出機器學習術語表 (中英對照)

AI科技大本營發表於2018-03-15

Google釋出機器學習術語表 (中英對照)


來源 | TensorFlow


Google 工程教育團隊已經發布了多語種的 Google 機器學習術語表,該術語表中列出了一般的機器學習術語和 TensorFlow 專用術語的定義。語言版本包括西班牙語,法語,韓語和簡體中文。<wbr>


機器學習術語表地址:<wbr>

https://developers.google.cn/machine-learning/glossary/?hl=zh-CN



A


A/B 測試 (A/B testing)


一種統計方法,用於將兩種或多種技術進行比較,通常是將當前採用的技術與新技術進行比較。A/B 測試不僅旨在確定哪種技術的效果更好,而且還有助於瞭解相應差異是否具有顯著的統計意義。A/B 測試通常是採用一種衡量方式對兩種技術進行比較,但也適用於任意有限數量的技術和衡量方式。


準確率 (accuracy)


分類模型的正確預測所佔的比例。在多類別分類中,準確率的定義如下:


Google釋出機器學習術語表 (中英對照)


在二元分類中,準確率的定義如下:


Google釋出機器學習術語表 (中英對照)


請參閱真正例和真負例。


啟用函式 (activation function)


一種函式(例如 ReLU 或 S 型函式),用於對上一層的所有輸入求加權和,然後生成一個輸出值(通常為非線性值),並將其傳遞給下一層。


AdaGrad


一種先進的梯度下降法,用於重新調整每個引數的梯度,以便有效地為每個引數指定獨立的學習速率。如需檢視完整的解釋,請參閱如下論文(http://www.jmlr.org/papers/volume12/duchi11a/duchi11a.pdf)


ROC 曲線下面積 (AUC, Area under the ROC Curve)


一種會考慮所有可能分類閾值的評估指標。


ROC 曲線下面積是,對於隨機選擇的正類別樣本確實為正類別,以及隨機選擇的負類別樣本為正類別,分類器更確信前者的概率。


B


反向傳播演算法 (backpropagation)


在神經網路上執行梯度下降法的主要演算法。該演算法會先按前向傳播方式計算(並快取)每個節點的輸出值,然後再按反向傳播遍歷圖的方式計算損失函式值相對於每個引數的偏導數。


基準 (baseline)


一種簡單的模型或啟發法,用作比較模型效果時的參考點。基準有助於模型開發者針對特定問題量化最低預期效果。


批次 (batch)


模型訓練的一次迭代(即一次梯度更新)中使用的樣本集。


另請參閱批次規模。


批次規模 (batch size)


一個批次中的樣本數。例如,SGD 的批次規模為 1,而小批次的規模通常介於 10 到 1000 之間。批次規模在訓練和推斷期間通常是固定的;不過,TensorFlow 允許使用動態批次規模。


偏差 (bias)


距離原點的截距或偏移。偏差(也稱為偏差項)在機器學習模型中以 b 或 w0 表示。例如,在下面的公式中,偏差為 :


Google釋出機器學習術語表 (中英對照)


請勿與預測偏差混淆。


二元分類 (binary classification)


一種分類任務,可輸出兩種互斥類別之一。例如,對電子郵件進行評估並輸出“垃圾郵件”或“非垃圾郵件”的機器學習模型就是一個二元分類器。


分箱 (binning) 請參閱分桶


分桶 (bucketing)


將一個特徵(通常是連續特徵)轉換成多個二元特徵(稱為桶或箱),通常是根據值區間進行轉換。例如,您可以將溫度區間分割為離散分箱,而不是將溫度表示成單個連續的浮點特徵。假設溫度資料可精確到小數點後一位,則可以將介於 0.0 到 15.0 度之間的所有溫度都歸入一個分箱,將介於 15.1 到 30.0 度之間的所有溫度歸入第二個分箱,並將介於 30.1 到 50.0 度之間的所有溫度歸入第三個分箱。


C


校準層 (calibration layer)


一種預測後調整,通常是為了降低預測偏差。調整後的預測和概率應與觀察到的標籤集的分佈一致。


候選取樣 (candidate sampling)


一種訓練時進行的優化,會使用某種函式(例如 softmax)針對所有正類別標籤計算概率,但對於負類別標籤,則僅針對其隨機樣本計算概率。例如,如果某個樣本的標籤為“小獵犬”和“狗”,則候選取樣將針對“小獵犬”和“狗”類別輸出以及其他類別(貓、棒棒糖、柵欄)的隨機子集計算預測概率和相應的損失項。這種取樣基於的想法是,只要正類別始終得到適當的正增強,負類別就可以從頻率較低的負增強中進行學習,這確實是在實際中觀察到的情況。候選取樣的目的是,通過不針對所有負類別計算預測結果來提高計算效率。


分類資料 (categorical data)


一種特徵,擁有一組離散的可能值。以某個名為 house style 的分類特徵為例,該特徵擁有一組離散的可能值(共三個),即 Tudor, ranch, colonial。通過將 house style 表示成分類資料,相應模型可以學習 Tudor、ranch 和 colonial 分別對房價的影響。


有時,離散集中的值是互斥的,只能將其中一個值應用於指定樣本。例如,car maker 分類特徵可能只允許一個樣本有一個值 (Toyota)。在其他情況下,則可以應用多個值。一輛車可能會被噴塗多種不同的顏色,因此,car color 分類特徵可能會允許單個樣本具有多個值(例如 red 和 white)。

分類特徵有時稱為離散特徵。與數值資料相對。


檢查點 (checkpoint)


一種資料,用於捕獲模型變數在特定時間的狀態。藉助檢查點,可以匯出模型權重,跨多個會話執行訓練,以及使訓練在發生錯誤之後得以繼續(例如作業搶佔)。請注意,圖本身不包含在檢查點中。


類別 (class)


為標籤列舉的一組目標值中的一個。例如,在檢測垃圾郵件的二元分類模型中,兩種類別分別是“垃圾郵件”和“非垃圾郵件”。在識別狗品種的多類別分類模型中,類別可以是“貴賓犬”、“小獵犬”、“哈巴犬”等等。


分類不平衡的資料集 (class-imbalanced data set)


一種二元分類問題,在此類問題中,兩種類別的標籤在出現頻率方面具有很大的差距。例如,在某個疾病資料集中,0.0001 的樣本具有正類別標籤,0.9999 的樣本具有負類別標籤,這就屬於分類不平衡問題;但在某個足球比賽預測器中,0.51 的樣本的標籤為其中一個球隊贏,0.49 的樣本的標籤為另一個球隊贏,這就不屬於分類不平衡問題。


分類模型 (classification model)


一種機器學習模型,用於區分兩種或多種離散類別。例如,某個自然語言處理分類模型可以確定輸入的句子是法語、西班牙語還是義大利語。請與迴歸模型進行比較。


分類閾值 (classification threshold)


一種標量值條件,應用於模型預測的得分,旨在將正類別與負類別區分開。將邏輯迴歸結果對映到二元分類時使用。以某個邏輯迴歸模型為例,該模型用於確定指定電子郵件是垃圾郵件的概率。如果分類閾值為 0.9,那麼邏輯迴歸值高於 0.9 的電子郵件將被歸類為“垃圾郵件”,低於 0.9 的則被歸類為“非垃圾郵件”。


協同過濾 (collaborative filtering)


根據很多其他使用者的興趣來預測某位使用者的興趣。協同過濾通常用在推薦系統中。


混淆矩陣 (confusion matrix)


一種 NxN 表格,用於總結分類模型的預測成效;即標籤和模型預測的分類之間的關聯。在混淆矩陣中,一個軸表示模型預測的標籤,另一個軸表示實際標籤。N 表示類別個數。在二元分類問題中,N=2。例如,下面顯示了一個二元分類問題的混淆矩陣示例:


Google釋出機器學習術語表 (中英對照)


多類別分類問題的混淆矩陣有助於確定出錯模式。例如,某個混淆矩陣可以揭示,某個經過訓練以識別手寫數字的模型往往會將 4 錯誤地預測為 9,將 7 錯誤地預測為 1。混淆矩陣包含計算各種效果指標(包括精確率和召回率)所需的充足資訊。上面的混淆矩陣顯示,在 19 個實際有腫瘤的樣本中,該模型正確地將 18 個歸類為有腫瘤(18 個真正例),錯誤地將 1 個歸類為沒有腫瘤(1 個假負例)。同樣,在 458 個實際沒有腫瘤的樣本中,模型歸類正確的有 452 個(452 個真負例),歸類錯誤的有 6 個(6 個假正例)。


連續特徵 (continuous feature)


一種浮點特徵,可能值的區間不受限制。與離散特徵相對。


收斂 (convergence)


通俗來說,收斂通常是指在訓練期間達到的一種狀態,即經過一定次數的迭代之後,訓練損失和驗證損失在每次迭代中的變化都非常小或根本沒有變化。也就是說,如果採用當前資料進行額外的訓練將無法改進模型,模型即達到收斂狀態。在深度學習中,損失值有時會在最終下降之前的多次迭代中保持不變或幾乎保持不變,暫時形成收斂的假象。


另請參閱早停法。


另請參閱 Boyd 和 Vandenberghe 合著的 Convex Optimization(《凸優化》)。


凸函式 (convex function)


一種函式,函式影像以上的區域為凸集。典型凸函式的形狀類似於字母 U。例如,以下都是凸函式:


Google釋出機器學習術語表 (中英對照)


相反,以下函式則不是凸函式。請注意影像上方的區域如何不是凸集:


Google釋出機器學習術語表 (中英對照)


嚴格凸函式只有一個區域性最低點,該點也是全域性最低點。經典的 U 形函式都是嚴格凸函式。不過,有些凸函式(例如直線)則不是這樣。


很多常見的損失函式(包括下列函式)都是凸函式:


  • L2 損失函式

  • 對數損失函式

  • L1 正則化

  • L2 正則化


梯度下降法的很多變體都一定能找到一個接近嚴格凸函式最小值的點。同樣,隨機梯度下降法的很多變體都有很高的可能效能夠找到接近嚴格凸函式最小值的點(但並非一定能找到)。


兩個凸函式的和(例如 L2 損失函式 + L1 正則化)也是凸函式。

深度模型絕不會是凸函式。值得注意的是,專門針對凸優化設計的演算法往往總能在深度網路上找到非常好的解決方案,雖然這些解決方案並不一定對應於全域性最小值。


凸優化 (convex optimization)


使用數學方法(例如梯度下降法)尋找凸函式最小值的過程。機器學習方面的大量研究都是專注於如何通過公式將各種問題表示成凸優化問題,以及如何更高效地解決這些問題。


如需完整的詳細資訊,請參閱 Boyd 和 Vandenberghe 合著的 Convex Optimization(《凸優化》)。


凸集 (convex set)


歐幾里得空間的一個子集,其中任意兩點之間的連線仍完全落在該子集內。例如,下面的兩個圖形都是凸集:



Google釋出機器學習術語表 (中英對照)


相反,下面的兩個圖形都不是凸集:


Google釋出機器學習術語表 (中英對照)


成本 (cost)


是損失的同義詞。


交叉熵 (cross-entropy)


對數損失函式向多類別分類問題進行的一種泛化。交叉熵可以量化兩種概率分佈之間的差異。另請參閱困惑度。


自定義 Estimator (custom Estimator)


您按照這些說明自行編寫的 Estimator。


與預建立的 Estimator 相對。


D


資料集 (data set)


一組樣本的集合。


Dataset API (tf.data)


一種高階別的 TensorFlow API,用於讀取資料並將其轉換為機器學習演算法所需的格式。tf.data.Dataset 物件表示一系列元素,其中每個元素都包含一個或多個張量。tf.data.Iterator 物件可獲取 Dataset 中的元素。


如需詳細瞭解 Dataset API,請參閱《TensorFlow 程式設計人員指南》中的匯入資料。


決策邊界 (decision boundary)


在二元分類或多類別分類問題中,模型學到的類別之間的分界線。例如,在以下表示某個二元分類問題的圖片中,決策邊界是橙色類別和藍色類別之間的分界線:

Google釋出機器學習術語表 (中英對照)

密集層 (dense layer)


是全連線層的同義詞。


深度模型 (deep model)


一種神經網路,其中包含多個隱藏層。深度模型依賴於可訓練的非線性關係。


與寬度模型相對。


密集特徵 (dense feature)


一種大部分數值是非零值的特徵,通常是一個浮點值張量。參照稀疏特徵。

衍生特徵 (derived feature)


是合成特徵的同義詞。


離散特徵 (discrete feature)


一種特徵,包含有限個可能值。例如,某個值只能是“動物”、“蔬菜”或“礦物”的特徵便是一個離散特徵(或分類特徵)。與連續特徵相對。


丟棄正則化 (dropout regularization)


一種形式的正則化,在訓練神經網路方面非常有用。丟棄正則化的運作機制是,在神經網路層的一個梯度步長中移除隨機選擇的固定數量的單元。丟棄的單元越多,正則化效果就越強。這類似於訓練神經網路以模擬較小網路的指數級規模整合學習。


如需完整的詳細資訊,請參閱 Dropout: A Simple Way to Prevent Neural Networks from Overfitting(《丟棄:一種防止神經網路過擬合的簡單方法》)。


動態模型 (dynamic model)


一種模型,以持續更新的方式線上接受訓練。也就是說,資料會源源不斷地進入這種模型。


E


早停法 (early stopping)


一種正則化方法,涉及在訓練損失仍可以繼續減少之前結束模型訓練。使用早停法時,您會在基於驗證資料集的損失開始增加(也就是泛化效果變差)時結束模型訓練。


巢狀 (embeddings)


一種分類特徵,以連續值特徵表示。通常,巢狀是指將高維度向量對映到低維度的空間。例如,您可以採用以下兩種方式之一來表示英文句子中的單詞:


  • 表示成包含百萬個元素(高維度)的稀疏向量,其中所有元素都是整數。向量中的每個單元格都表示一個單獨的英文單詞,單元格中的值表示相應單詞在句子中出現的次數。由於單個英文句子包含的單詞不太可能超過 50 個,因此向量中幾乎每個單元格都包含 0。少數非 0 的單元格中將包含一個非常小的整數(通常為 1),該整數表示相應單詞在句子中出現的次數。

  • 表示成包含數百個元素(低維度)的密集向量,其中每個元素都包含一個介於 0 到 1 之間的浮點值。這就是一種巢狀。


在 TensorFlow 中,會按反向傳播損失訓練巢狀,和訓練神經網路中的任何其他引數時一樣。


經驗風險最小化 (ERM, empirical risk minimization)


用於選擇可以將基於訓練集的損失降至最低的模型函式。與結構風險最小化相對。


整合學習 (ensemble)


多個模型的預測結果的並集。您可以通過以下一項或多項來建立整合學習:

  • 不同的初始化

  • 不同的超引數

  • 不同的整體結構

深度模型和寬度模型屬於一種整合學習。


週期 (epoch)


在訓練時,整個資料集的一次完整遍歷,以便不漏掉任何一個樣本。因此,一個週期表示(N/批次規模)次訓練迭代,其中 N 是樣本總數。


Estimator


tf.Estimator 類的一個例項,用於封裝負責構建 TensorFlow 圖並執行 TensorFlow 會話的邏輯。您可以建立自己的自定義 Estimator(如需相關介紹,請點選此處),也可以將其他人預建立的 Estimator 例項化。


樣本 (example)


資料集的一行。一個樣本包含一個或多個特徵,此外還可能包含一個標籤。另請參閱有標籤樣本和無標籤樣本。


F


假負例 (FN, false negative)


被模型錯誤地預測為負類別的樣本。例如,模型推斷出某封電子郵件不是垃圾郵件(負類別),但該電子郵件其實是垃圾郵件。


假正例 (FP, false positive)


被模型錯誤地預測為正類別的樣本。例如,模型推斷出某封電子郵件是垃圾郵件(正類別),但該電子郵件其實不是垃圾郵件。


假正例率(false positive rate, 簡稱 FP 率)


ROC 曲線中的 x 軸。FP 率的定義如下:


Google釋出機器學習術語表 (中英對照)


數+假正例率=假正例數假正例數+真負例數


特徵 (feature)


在進行預測時使用的輸入變數。


特徵列 (FeatureColumns)


一組相關特徵,例如使用者可能居住的所有國家/地區的集合。樣本的特徵列中可能包含一個或多個特徵。


TensorFlow 中的特徵列內還封裝了後設資料,例如:


  • 特徵的資料型別

  • 特徵是固定長度還是應轉換為巢狀


特徵列可以包含單個特徵。


“特徵列”是 Google 專用的術語。特徵列在 Yahoo/Microsoft 使用的 VW 系統中稱為“名稱空間”,也稱為場。


特徵組合 (feature cross)


通過將單獨的特徵進行組合(相乘或求笛卡爾積)而形成的合成特徵。特徵組合有助於表示非線性關係。


特徵工程 (feature engineering)


指以下過程:確定哪些特徵可能在訓練模型方面非常有用,然後將日誌檔案及其他來源的原始資料轉換為所需的特徵。在 TensorFlow 中,特徵工程通常是指將原始日誌檔案條目轉換為 tf.Example proto buffer。另請參閱 tf.Transform。


特徵工程有時稱為特徵提取。


特徵集 (feature set)


訓練機器學習模型時採用的一組特徵。例如,對於某個用於預測房價的模型,郵政編碼、房屋面積以及房屋狀況可以組成一個簡單的特徵集。


特徵規範 (feature spec)


用於描述如何從 tf.Example proto buffer 提取特徵資料。由於 tf.Example proto buffer 只是一個資料容器,因此您必須指定以下內容:


  • 要提取的資料(即特徵的鍵)

  • 資料型別(例如 float 或 int)

  • 長度(固定或可變)


Estimator API 提供了一些可用來根據給定 FeatureColumns 列表生成特徵規範的工具。


完整 softmax (full softmax)


請參閱 softmax。與候選取樣相對。


全連線層 (fully connected layer)


一種隱藏層,其中的每個節點均與下一個隱藏層中的每個節點相連。


全連線層又稱為密集層。


G


泛化 (generalization)


指的是模型依據訓練時採用的資料,針對以前未見過的新資料做出正確預測的能力。


廣義線性模型 (generalized linear model)


最小二乘迴歸模型(基於高斯噪聲)向其他型別的模型(基於其他型別的噪聲,例如泊松噪聲或分類噪聲)進行的一種泛化。廣義線性模型的示例包括:


  • 邏輯迴歸

  • 多類別迴歸

  • 最小二乘迴歸


可以通過凸優化找到廣義線性模型的引數。


廣義線性模型具有以下特性:


  • 最優的最小二乘迴歸模型的平均預測結果等於訓練資料的平均標籤。

  • 最優的邏輯迴歸模型預測的平均概率等於訓練資料的平均標籤。


廣義線性模型的功能受其特徵的限制。與深度模型不同,廣義線性模型無法“學習新特徵”。


梯度 (gradient)


偏導數相對於所有自變數的向量。在機器學習中,梯度是模型函式偏導數的向量。梯度指向最速上升的方向。


梯度裁剪 (gradient clipping)


在應用梯度值之前先設定其上限。梯度裁剪有助於確保數值穩定性以及防止梯度爆炸。


梯度下降法 (gradient descent)


一種通過計算並且減小梯度將損失降至最低的技術,它以訓練資料為條件,來計算損失相對於模型引數的梯度。通俗來說,梯度下降法以迭代方式調整引數,逐漸找到權重和偏差的最佳組合,從而將損失降至最低。


圖 (graph)


TensorFlow 中的一種計算規範。圖中的節點表示操作。邊緣具有方向,表示將某項操作的結果(一個張量)作為一個運算元傳遞給另一項操作。可以使用 TensorBoard 直觀呈現圖。


H


啟發法 (heuristic)


一種非最優但實用的問題解決方案,足以用於進行改進或從中學習。


隱藏層 (hidden layer)


神經網路中的合成層,介於輸入層(即特徵)和輸出層(即預測)之間。神經網路包含一個或多個隱藏層。


合頁損失函式 (hinge loss)


一系列用於分類的損失函式,旨在找到距離每個訓練樣本都儘可能遠的決策邊界,從而使樣本和邊界之間的裕度最大化。 KSVM 使用合頁損失函式(或相關函式,例如平方合頁損失函式)。對於二元分類,合頁損失函式的定義如下:


Google釋出機器學習術語表 (中英對照)


其中“y'”表示分類器模型的原始輸出:


Google釋出機器學習術語表 (中英對照)


y=b+w1x1+w2x2+wnxn


“y”表示真標籤,值為 -1 或 +1。


因此,合頁損失與 (y * y') 的關係圖如下所示:


Google釋出機器學習術語表 (中英對照)



維持資料 (holdout data)


訓練期間故意不使用(“維持”)的樣本。驗證資料集和測試資料集都屬於維持資料。維持資料有助於評估模型向訓練時所用資料之外的資料進行泛化的能力。與基於訓練資料集的損失相比,基於維持資料集的損失有助於更好地估算基於未見過的資料集的損失。


超引數 (hyperparameter)


在模型訓練的連續過程中,您調節的“旋鈕”。例如,學習速率就是一種超引數。


與引數相對。


超平面 (hyperplane)


將一個空間劃分為兩個子空間的邊界。例如,在二維空間中,直線就是一個超平面,在三維空間中,平面則是一個超平面。在機器學習中更典型的是:超平面是分隔高維度空間的邊界。核支援向量機利用超平面將正類別和負類別區分開來(通常是在極高維度空間中)。


I


獨立同分布 (i.i.d, independently and identically distributed)


從不會改變的分佈中提取的資料,其中提取的每個值都不依賴於之前提取的值。i.i.d. 是機器學習的理想氣體 - 一種實用的數學結構,但在現實世界中幾乎從未發現過。例如,某個網頁的訪問者在短時間內的分佈可能為 i.i.d.,即分佈在該短時間內沒有變化,且一位使用者的訪問行為通常與另一位使用者的訪問行為無關。不過,如果將時間視窗擴大,網頁訪問者的分佈可能呈現出季節性變化。


推斷 (inference)


在機器學習中,推斷通常指以下過程:通過將訓練過的模型應用於無標籤樣本來做出預測。在統計學中,推斷是指在某些觀測資料條件下擬合分佈引數的過程。(請參閱維基百科中有關統計學推斷的文章。)


輸入函式 (input function)


在 TensorFlow 中,用於將輸入資料返回到 Estimator 的訓練、評估或預測方法的函式。例如,訓練輸入函式用於返回訓練集中的批次特徵和標籤。


輸入層 (input layer)


神經網路中的第一層(接收輸入資料的層)。


例項 (instance)


是樣本的同義詞。


可解釋性 (interpretability)


模型的預測可解釋的難易程度。深度模型通常不可解釋,也就是說,很難對深度模型的不同層進行解釋。相比之下,線性迴歸模型和寬度模型的可解釋性通常要好得多。


評分者間一致性信度 (inter-rater agreement)


一種衡量指標,用於衡量在執行某項任務時評分者達成一致的頻率。如果評分者未達成一致,則可能需要改進任務說明。有時也稱為註釋者間一致性信度或評分者間可靠性信度。另請參閱 Cohen's kappa(最熱門的評分者間一致性信度衡量指標之一)。


迭代 (iteration)


模型的權重在訓練期間的一次更新。迭代包含計算引數在單個批量資料上的梯度損失。


K


Keras


一種熱門的 Python 機器學習 API。Keras 能夠在多種深度學習框架上執行,其中包括 TensorFlow(在該框架上,Keras 作為 tf.keras 提供)。


核支援向量機 (KSVM, Kernel Support Vector Machines)


一種分類演算法,旨在通過將輸入資料向量對映到更高維度的空間,來最大化正類別和負類別之間的裕度。以某個輸入資料集包含一百個特徵的分類問題為例。為了最大化正類別和負類別之間的裕度,KSVM 可以在內部將這些特徵對映到百萬維度的空間。KSVM 使用合頁損失函式。


L


L1 損失函式 (L₁ loss)


一種損失函式,基於模型預測的值與標籤的實際值之差的絕對值。與 L2 損失函式相比,L1 損失函式對離群值的敏感性弱一些。


L1 正則化 (L₁ regularization)


一種正則化,根據權重的絕對值的總和來懲罰權重。在依賴稀疏特徵的模型中,L1 正則化有助於使不相關或幾乎不相關的特徵的權重正好為 0,從而將這些特徵從模型中移除。與 L2 正則化相對。


L2 損失函式 (L₂ loss)


請參閱平方損失函式。


L2 正則化 (L₂ regularization)


一種正則化,根據權重的平方和來懲罰權重。L2 正則化有助於使離群值(具有較大正值或較小負值)權重接近於 0,但又不正好為 0。(與 L1 正則化相對。)線上性模型中,L2 正則化始終可以改進泛化。


標籤 (label)


在監督式學習中,標籤指樣本的“答案”或“結果”部分。有標籤資料集中的每個樣本都包含一個或多個特徵以及一個標籤。例如,在房屋資料集中,特徵可以包括臥室數、衛生間數以及房齡,而標籤則可以是房價。在垃圾郵件檢測資料集中,特徵可以包括主題行、發件人以及電子郵件本身,而標籤則可以是“垃圾郵件”或“非垃圾郵件”。


有標籤樣本 (labeled example)


包含特徵和標籤的樣本。在監督式訓練中,模型從有標籤樣本中進行學習。


lambda


是正則化率的同義詞。


(多含義術語,我們在此關注的是該術語在正則化中的定義。)


層 (layer)


神經網路中的一組神經元,處理一組輸入特徵,或一組神經元的輸出。


此外還指 TensorFlow 中的抽象層。層是 Python 函式,以張量和配置選項作為輸入,然後生成其他張量作為輸出。當必要的張量組合起來,使用者便可以通過模型函式將結果轉換為 Estimator。


Layers API (tf.layers)


一種 TensorFlow API,用於以層組合的方式構建深度神經網路。通過 Layers API,您可以構建不同型別的層,例如:


  • 通過 tf.layers.Dense 構建全連線層。

  • 通過 tf.layers.Conv2D 構建卷積層。


在編寫自定義 Estimator 時,您可以編寫“層”物件來定義所有隱藏層的特徵。


Layers API 遵循 [Keras](#Keras) layers API 規範。也就是說,除了字首不同以外,Layers API 中的所有函式均與 Keras layers API 中的對應函式具有相同的名稱和簽名。


學習速率 (learning rate)


在訓練模型時用於梯度下降的一個變數。在每次迭代期間,梯度下降法都會將學習速率與梯度相乘。得出的乘積稱為梯度步長。


學習速率是一個重要的超引數。


最小二乘迴歸 (least squares regression)


一種通過最小化 L2 損失訓練出的線性迴歸模型。


線性迴歸 (linear regression)


一種迴歸模型,通過將輸入特徵進行線性組合,以連續值作為輸出。


邏輯迴歸 (logistic regression)


一種模型,通過將 S 型函式應用於線性預測,生成分類問題中每個可能的離散標籤值的概率。雖然邏輯迴歸經常用於二元分類問題,但也可用於多類別分類問題(其叫法變為多類別邏輯迴歸或多項迴歸)。


對數損失函式 (Log Loss)


二元邏輯迴歸中使用的損失函式。


損失 (Loss)


一種衡量指標,用於衡量模型的預測偏離其標籤的程度。或者更悲觀地說是衡量模型有多差。要確定此值,模型必須定義損失函式。例如,線性迴歸模型通常將均方誤差用於損失函式,而邏輯迴歸模型則使用對數損失函式。


M


機器學習 (machine learning)


一種程式或系統,用於根據輸入資料構建(訓練)預測模型。這種系統會利用學到的模型根據從分佈(訓練該模型時使用的同一分佈)中提取的新資料(以前從未見過的資料)進行實用的預測。機器學習還指與這些程式或系統相關的研究領域。


均方誤差 (MSE, Mean Squared Error)


每個樣本的平均平方損失。MSE 的計算方法是平方損失除以樣本數。TensorFlow Playground 顯示的“訓練損失”值和“測試損失”值都是 MSE。


指標 (metric)


您關心的一個數值。可能可以也可能不可以直接在機器學習系統中得到優化。您的系統嘗試優化的指標稱為目標。


Metrics API (tf.metrics)


一種用於評估模型的 TensorFlow API。例如,tf.metrics.accuracy 用於確定模型的預測與標籤匹配的頻率。在編寫自定義 Estimator 時,您可以呼叫 Metrics API 函式來指定應如何評估您的模型。


小批次 (mini-batch)


從訓練或推斷過程的一次迭代中一起執行的整批樣本內隨機選擇的一小部分。小批次的規模通常介於 10 到 1000 之間。與基於完整的訓練資料計算損失相比,基於小批次資料計算損失要高效得多。


小批次隨機梯度下降法 (SGD, mini-batch stochastic gradient descent)

一種採用小批次樣本的梯度下降法。也就是說,小批次 SGD 會根據一小部分訓練資料來估算梯度。Vanilla SGD 使用的小批次的規模為 1。


ML


機器學習的縮寫。


模型 (model)


機器學習系統從訓練資料學到的內容的表示形式。多含義術語,可以理解為下列兩種相關含義之一:


  • 一種 TensorFlow 圖,用於表示預測計算結構。

  • 該 TensorFlow 圖的特定權重和偏差,通過訓練決定。


模型訓練 (model training)


確定最佳模型的過程。


動量 (Momentum)


一種先進的梯度下降法,其中學習步長不僅取決於當前步長的導數,還取決於之前一步或多步的步長的導數。動量涉及計算梯度隨時間而變化的指數級加權移動平均值,與物理學中的動量類似。動量有時可以防止學習過程被卡在區域性最小的情況。


多類別分類 (multi-class classification)


區分兩種以上類別的分類問題。例如,楓樹大約有 128 種,因此,確定楓樹種類的模型就屬於多類別模型。反之,僅將電子郵件分為兩類(“垃圾郵件”和“非垃圾郵件”)的模型屬於二元分類模型。


多項分類 (multinomial classification)


是多類別分類的同義詞。


N


NaN 陷阱 (NaN trap)

模型中的一個數字在訓練期間變成 NaN,這會導致模型中的很多或所有其他數字最終也會變成 NaN。


NaN 是“非數字”的縮寫。


負類別 (negative class)


在二元分類中,一種類別稱為正類別,另一種類別稱為負類別。正類別是我們要尋找的類別,負類別則是另一種可能性。例如,在醫學檢查中,負類別可以是“非腫瘤”。在電子郵件分類器中,負類別可以是“非垃圾郵件”。另請參閱正類別。


神經網路 (neural network)


一種模型,靈感來源於腦部結構,由多個層構成(至少有一個是隱藏層),每個層都包含簡單相連的單元或神經元(具有非線性關係)。


神經元 (neuron)


神經網路中的節點,通常是接收多個輸入值並生成一個輸出值。神經元通過將啟用函式(非線性轉換)應用於輸入值的加權和來計算輸出值。


節點 (node)


多含義術語,可以理解為下列兩種含義之一:


  • 隱藏層中的神經元。

  • TensorFlow 圖中的操作。


標準化 (normalization)


將實際的值區間轉換為標準的值區間(通常為 -1 到 +1 或 0 到 1)的過程。例如,假設某個特徵的自然區間是 800 到 6000。通過減法和除法運算,您可以將這些值標準化為位於 -1 到 +1 區間內。


另請參閱縮放。


數值資料 (numerical data)


用整數或實數表示的特徵。例如,在房地產模型中,您可能會用數值資料表示房子大小(以平方英尺或平方米為單位)。如果用數值資料表示特徵,則可以表明特徵的值相互之間具有數學關係,並且與標籤可能也有數學關係。例如,如果用數值資料表示房子大小,則可以表明面積為 200 平方米的房子是面積為 100 平方米的房子的兩倍。此外,房子面積的平方米數可能與房價存在一定的數學關係。


並非所有整數資料都應表示成數值資料。例如,世界上某些地區的郵政編碼是整數,但在模型中,不應將整數郵政編碼表示成數值資料。這是因為郵政編碼 20000 在效力上並不是郵政編碼 10000 的兩倍(或一半)。此外,雖然不同的郵政編碼確實與不同的房地產價值有關,但我們也不能假設郵政編碼為 20000 的房地產在價值上是郵政編碼為 10000 的房地產的兩倍。郵政編碼應表示成分類資料。


數值特徵有時稱為連續特徵。


Numpy


一個開放原始碼數學庫,在 Python 中提供高效的陣列操作。Pandas 就建立在 Numpy 之上。


O


目標 (objective)


演算法嘗試優化的指標。


離線推斷 (offline inference)


生成一組預測,儲存這些預測,然後根據需求檢索這些預測。與線上推斷相對。


one-hot 編碼 (one-hot encoding)


一種稀疏向量,其中:


  • 一個元素設為 1。

  • 所有其他元素均設為 0。


one-hot 編碼常用於表示擁有有限個可能值的字串或識別符號。例如,假設某個指定的植物學資料集記錄了 15000 個不同的物種,其中每個物種都用獨一無二的字串識別符號來表示。在特徵工程過程中,您可能需要將這些字串識別符號編碼為 one-hot 向量,向量的大小為 15000。


一對多 (one-vs.-all)


假設某個分類問題有 N 種可能的解決方案,一對多解決方案將包含 N 個單獨的二元分類器 - 一個二元分類器對應一種可能的結果。例如,假設某個模型用於區分樣本屬於動物、蔬菜還是礦物,一對多解決方案將提供下列三個單獨的二元分類器:


  • 動物和非動物

  • 蔬菜和非蔬菜

  • 礦物和非礦物


線上推斷 (online inference)


根據需求生成預測。與離線推斷相對。


操作 (op, Operation)


TensorFlow 圖中的節點。在 TensorFlow 中,任何建立、操縱或銷燬張量的過程都屬於操作。例如,矩陣相乘就是一種操作,該操作以兩個張量作為輸入,並生成一個張量作為輸出。


優化器 (optimizer)


梯度下降法的一種具體實現。TensorFlow 的優化器基類是 tf.train.Optimizer。不同的優化器(tf.train.Optimizer 的子類)會考慮如下概念:


  • 動量 (Momentum)

  • 更新頻率 (AdaGrad = ADAptive GRADient descent; Adam = ADAptive with Momentum;RMSProp)

  • 稀疏性/正則化 (Ftrl)

  • 更復雜的計算方法 (Proximal, 等等)


甚至還包括 NN 驅動的優化器。


離群值 (outlier)


與大多數其他值差別很大的值。在機器學習中,下列所有值都是離群值。


  • 絕對值很高的權重。

  • 與實際值相差很大的預測值。

  • 值比平均值高大約 3 個標準偏差的輸入資料。


離群值常常會導致模型訓練出現問題。


輸出層 (output layer)


神經網路的“最後”一層,也是包含答案的層。


過擬合 (overfitting)


建立的模型與訓練資料過於匹配,以致於模型無法根據新資料做出正確的預測。


P


Pandas


面向列的資料分析 API。很多機器學習框架(包括 TensorFlow)都支援將 Pandas 資料結構作為輸入。請參閱 Pandas 文件。


引數 (parameter)


機器學習系統自行訓練的模型的變數。例如,權重就是一種引數,它們的值是機器學習系統通過連續的訓練迭代逐漸學習到的。與超引數相對。


引數伺服器 (PS, Parameter Server)


一種作業,負責在分散式設定中跟蹤模型引數。


引數更新 (parameter update)


在訓練期間(通常是在梯度下降法的單次迭代中)調整模型引數的操作。


偏導數 (partial derivative)


一種導數,除一個變數之外的所有變數都被視為常量。例如,f(x, y) 對 x 的偏導數就是 f(x) 的導數(即,使 y 保持恆定)。f 對 x 的偏導數僅關注 x 如何變化,而忽略公式中的所有其他變數。


分割槽策略 (partitioning strategy)


引數伺服器中分割變數的演算法。


效能 (performance)


多含義術語,具有以下含義:


  • 在軟體工程中的傳統含義。即:相應軟體的執行速度有多快(或有多高效)?

  • 在機器學習中的含義。在機器學習領域,效能旨在回答以下問題:相應模型的準確度有多高?即模型在預測方面的表現有多好?


困惑度 (perplexity)


一種衡量指標,用於衡量模型能夠多好地完成任務。例如,假設任務是讀取使用者使用智慧手機鍵盤輸入字詞時輸入的前幾個字母,然後列出一組可能的完整字詞。此任務的困惑度 (P) 是:為了使列出的字詞中包含使用者嘗試輸入的實際字詞,您需要提供的猜測項的個數。


困惑度與交叉熵的關係如下:


Google釋出機器學習術語表 (中英對照)


流水線 (pipeline)


機器學習演算法的基礎架構。流水線包括收集資料、將資料放入訓練資料檔案、訓練一個或多個模型,以及將模型匯出到生產環境。


正類別 (positive class)


在二元分類中,兩種可能的類別分別被標記為正類別和負類別。正類別結果是我們要測試的物件。(不可否認的是,我們會同時測試這兩種結果,但只關注正類別結果。)例如,在醫學檢查中,正類別可以是“腫瘤”。在電子郵件分類器中,正類別可以是“垃圾郵件”。


與負類別相對。


精確率 (precision)


一種分類模型指標。精確率指模型正確預測正類別的頻率,即:


Google釋出機器學習術語表 (中英對照)


預測 (prediction)


模型在收到輸入的樣本後的輸出。


預測偏差 (prediction bias)


一個值,用於表明預測平均值與資料集中標籤的平均值相差有多大。


預建立的 Estimator (pre-made Estimator)


其他人已建好的 Estimator。TensorFlow 提供了一些預建立的 Estimator,包括 DNNClassifier、DNNRegressor和 LinearClassifier。您可以按照這些說明構建自己預建立的 Estimator。


預訓練模型 (pre-trained model)


已經過訓練的模型或模型元件(例如巢狀)。有時,您需要將預訓練的巢狀饋送到神經網路。在其他時候,您的模型將自行訓練巢狀,而不依賴於預訓練的巢狀。


先驗信念 (prior belief)


在開始採用相應資料進行訓練之前,您對這些資料抱有的信念。例如,L2 正則化依賴的先驗信念是權重應該很小且應以 0 為中心呈正態分佈。


Q


佇列 (queue)


一種 TensorFlow 操作,用於實現佇列資料結構。通常用於 I/O 中。


R


等級 (rank)


機器學習中的一個多含義術語,可以理解為下列含義之一:


  • 張量中的維度數量。例如,標量等級為 0,向量等級為 1,矩陣等級為 2。

  • 在將類別從最高到最低進行排序的機器學習問題中,類別的順序位置。例如,行為排序系統可以將狗狗的獎勵從最高(牛排)到最低(枯萎的羽衣甘藍)進行排序。


評分者 (rater)


為樣本提供標籤的人。有時稱為“註釋者”。


召回率 (recall)


一種分類模型指標,用於回答以下問題:在所有可能的正類別標籤中,模型正確地識別出了多少個?即:


Google釋出機器學習術語表 (中英對照)


修正線性單元 (ReLU, Rectified Linear Unit)


一種啟用函式,其規則如下:


  • 如果輸入為負數或 0,則輸出 0。

  • 如果輸入為正數,則輸出等於輸入。


迴歸模型 (regression model)


一種模型,能夠輸出連續的值(通常為浮點值)。請與分類模型進行比較,分類模型輸出離散值,例如“黃花菜”或“虎皮百合”。


正則化 (regularization)


對模型複雜度的懲罰。正則化有助於防止出現過擬合,包含以下型別:


  • L1 正則化

  • L2 正則化

  • 丟棄正則化

  • 早停法(這不是正式的正則化方法,但可以有效限制過擬合)


正則化率 (regularization rate)


一種標量值,以 lambda 表示,用於指定正則化函式的相對重要性。從下面簡化的損失公式中可以看出正則化率的影響:


minimize(loss function + λ(regularization function))


提高正則化率可以減少過擬合,但可能會使模型的準確率降低。


表示法 (representation)


將資料對映到實用特徵的過程。


受試者工作特徵曲線(receiver operating characteristic, 簡稱 ROC 曲線)


不同分類閾值下的真正例率和假正例率構成的曲線。另請參閱曲線下面積。


根目錄 (root directory)


您指定的目錄,用於託管多個模型的 TensorFlow 檢查點和事件檔案的子目錄。


均方根誤差 (RMSE, Root Mean Squared Error)


均方誤差的平方根。


S


SavedModel


儲存和恢復 TensorFlow 模型時建議使用的格式。SavedModel 是一種獨立於語言且可恢復的序列化格式,使較高階別的系統和工具可以建立、使用和轉換 TensorFlow 模型。


如需完整的詳細資訊,請參閱《TensorFlow 程式設計人員指南》中的儲存和恢復。


Saver


一種 TensorFlow 物件,負責儲存模型檢查點。


縮放 (scaling)


特徵工程中的一種常用做法,是對某個特徵的值區間進行調整,使之與資料集中其他特徵的值區間一致。例如,假設您希望資料集中所有浮點特徵的值都位於 0 到 1 區間內,如果某個特徵的值位於 0 到 500 區間內,您就可以通過將每個值除以 500 來縮放該特徵。


另請參閱標準化。


scikit-learn


一個熱門的開放原始碼機器學習平臺。請訪問 www.scikit-learn.org。


半監督式學習 (semi-supervised learning)


訓練模型時採用的資料中,某些訓練樣本有標籤,而其他樣本則沒有標籤。半監督式學習採用的一種技術是推斷無標籤樣本的標籤,然後使用推斷出的標籤進行訓練,以建立新模型。如果獲得有標籤樣本需要高昂的成本,而無標籤樣本則有很多,那麼半監督式學習將非常有用。


序列模型 (sequence model)


一種模型,其輸入具有序列依賴性。例如,根據之前觀看過的一系列視訊對觀看的下一個視訊進行預測。


會話 (session)


維持 TensorFlow 程式中的狀態(例如變數)。


S 型函式 (sigmoid function)


一種函式,可將邏輯迴歸輸出或多項迴歸輸出(對數機率)對映到概率,以返回介於 0 到 1 之間的值。S 型函式的公式如下:


Google釋出機器學習術語表 (中英對照)


在邏輯迴歸問題中,Google釋出機器學習術語表 (中英對照)非常簡單:


Google釋出機器學習術語表 (中英對照)


換句話說,S 型函式可將Google釋出機器學習術語表 (中英對照)轉換為介於 0 到 1 之間的概率。


在某些神經網路中,S 型函式可作為啟用函式使用。


softmax


一種函式,可提供多類別分類模型中每個可能類別的概率。這些概率的總和正好為 1.0。例如,softmax 可能會得出某個影像是狗、貓和馬的概率分別是 0.9、0.08 和 0.02。(也稱為完整 softmax。)


與候選取樣相對。


稀疏特徵 (sparse feature)


一種特徵向量,其中的大多數值都為 0 或為空。例如,某個向量包含一個為 1 的值和一百萬個為 0 的值,則該向量就屬於稀疏向量。再舉一個例子,搜尋查詢中的單詞也可能屬於稀疏特徵 - 在某種指定語言中有很多可能的單詞,但在某個指定的查詢中僅包含其中幾個。


與密集特徵相對。


平方合頁損失函式 (squared hinge loss)


合頁損失函式的平方。與常規合頁損失函式相比,平方合頁損失函式對離群值的懲罰更嚴厲。


平方損失函式 (squared loss)


線上性迴歸中使用的損失函式(也稱為 L2 損失函式)。該函式可計算模型為有標籤樣本預測的值和標籤的實際值之差的平方。由於取平方值,因此該損失函式會放大不佳預測的影響。也就是說,與 L1 損失函式相比,平方損失函式對離群值的反應更強烈。


靜態模型 (static model)


離線訓練的一種模型。


平穩性 (stationarity)


資料集中資料的一種屬性,表示資料分佈在一個或多個維度保持不變。這種維度最常見的是時間,即表明平穩性的資料不隨時間而變化。例如,從 9 月到 12 月,表明平穩性的資料沒有發生變化。


步 (step)


對一個批次的向前和向後評估。


步長 (step size)


是學習速率的同義詞。


隨機梯度下降法 (SGD, stochastic gradient descent)


批次規模為 1 的一種梯度下降法。換句話說,SGD 依賴於從資料集中隨機均勻選擇的單個樣本來計算每步的梯度估算值。


結構風險最小化 (SRM, structural risk minimization)


一種演算法,用於平衡以下兩個目標:


  • 期望構建最具預測性的模型(例如損失最低)。

  • 期望使模型儘可能簡單(例如強大的正則化)。


例如,旨在將基於訓練集的損失和正則化降至最低的模型函式就是一種結構風險最小化演算法。


如需更多資訊,請參閱 http://www.svms.org/srm/。


與經驗風險最小化相對。


總結 (summary)


在 TensorFlow 中的某一步計算出的一個值或一組值,通常用於在訓練期間跟蹤模型指標。


監督式機器學習 (supervised machine learning)


根據輸入資料及其對應的標籤來訓練模型。監督式機器學習類似於學生通過研究一系列問題及其對應的答案來學習某個主題。在掌握了問題和答案之間的對應關係後,學生便可以回答關於同一主題的新問題(以前從未見過的問題)。請與非監督式機器學習進行比較。


合成特徵 (synthetic feature)


一種特徵,不在輸入特徵之列,而是從一個或多個輸入特徵衍生而來。合成特徵包括以下型別:


  • 將一個特徵與其本身或其他特徵相乘(稱為特徵組合)。

  • 兩個特徵相除。

  • 對連續特徵進行分桶,以分為多個區間分箱。


通過標準化或縮放單獨建立的特徵不屬於合成特徵。


T


目標 (target)


是標籤的同義詞。


時態資料 (temporal data)


在不同時間點記錄的資料。例如,記錄的一年中每一天的冬外套銷量就屬於時態資料。


張量 (Tensor)


TensorFlow 程式中的主要資料結構。張量是 N 維(其中 N 可能非常大)資料結構,最常見的是標量、向量或矩陣。張量的元素可以包含整數值、浮點值或字串值。


張量處理單元 (TPU, Tensor Processing Unit)


一種 ASIC(應用專用積體電路),用於優化 TensorFlow 程式的效能。

張量等級 (Tensor rank)


請參閱等級。


張量形狀 (Tensor shape)


張量在各種維度中包含的元素數。例如,張量 [5, 10] 在一個維度中的形狀為 5,在另一個維度中的形狀為 10。


張量大小 (Tensor size)


張量包含的標量總數。例如,張量 [5, 10] 的大小為 50。


TensorBoard


一個資訊中心,用於顯示在執行一個或多個 TensorFlow 程式期間儲存的摘要資訊。


TensorFlow


一個大型的分散式機器學習平臺。該術語還指 TensorFlow 堆疊中的基本 API 層,該層支援對資料流圖進行一般計算。


雖然 TensorFlow 主要應用於機器學習領域,但也可用於需要使用資料流圖進行數值計算的非機器學習任務。


TensorFlow Playground


一款用於直觀呈現不同的超引數對模型(主要是神經網路)訓練的影響的程式。


要試用 TensorFlow Playground,請往 http://playground.tensorflow.org


TensorFlow Serving


一個平臺,用於將訓練過的模型部署到生產環境。


測試集 (test set)


資料集的子集,用於在模型經由驗證集的初步驗證之後測試模型。


與訓練集和驗證集相對。


tf.Example


一種標準的 proto buffer,旨在描述用於機器學習模型訓練或推斷的輸入資料。


時間序列分析 (time series analysis)


機器學習和統計學的一個子領域,旨在分析時態資料。很多型別的機器學習問題都需要時間序列分析,其中包括分類、聚類、預測和異常檢測。例如,您可以利用時間序列分析根據歷史銷量資料預測未來每月的冬外套銷量。


訓練 (training)


確定構成模型的理想引數的過程。


訓練集 (training set)


資料集的子集,用於訓練模型。


與驗證集和測試集相對。


轉移學習 (transfer learning)


將資訊從一個機器學習任務轉移到另一個機器學習任務。例如,在多工學習中,一個模型可以完成多項任務,例如針對不同任務具有不同輸出節點的深度模型。轉移學習可能涉及將知識從較簡單任務的解決方案轉移到較複雜的任務,或者將知識從資料較多的任務轉移到資料較少的任務。


大多數機器學習系統都只能完成一項任務。轉移學習是邁向人工智慧的一小步;在人工智慧中,單個程式可以完成多項任務。


真負例 (TN, true negative)


被模型正確地預測為負類別的樣本。例如,模型推斷出某封電子郵件不是垃圾郵件,而該電子郵件確實不是垃圾郵件。


真正例 (TP, true positive)


被模型正確地預測為正類別的樣本。例如,模型推斷出某封電子郵件是垃圾郵件,而該電子郵件確實是垃圾郵件。


真正例率(true positive rate, 簡稱 TP 率)


是召回率的同義詞,即:


Google釋出機器學習術語表 (中英對照)


真正例率是 ROC 曲線的 y 軸。


U


無標籤樣本 (unlabeled example)


包含特徵但沒有標籤的樣本。無標籤樣本是用於進行推斷的輸入內容。在半監督式和非監督式學習中,無標籤樣本在訓練期間被使用。


非監督式機器學習 (unsupervised machine learning)


訓練模型,以找出資料集(通常是無標籤資料集)中的模式。


非監督式機器學習最常見的用途是將資料分為不同的聚類,使相似的樣本位於同一組中。例如,非監督式機器學習演算法可以根據音樂的各種屬性將歌曲分為不同的聚類。所得聚類可以作為其他機器學習演算法(例如音樂推薦服務)的輸入。在很難獲取真標籤的領域,聚類可能會非常有用。例如,在反濫用和反欺詐等領域,聚類有助於人們更好地瞭解相關資料。


非監督式機器學習的另一個例子是主成分分析 (PCA)。例如,通過對包含數百萬購物車中物品的資料集進行主成分分析,可能會發現有檸檬的購物車中往往也有抗酸藥。


請與監督式機器學習進行比較。


V


驗證集 (validation set)


資料集的一個子集,從訓練集分離而來,用於調整超引數。


與訓練集和測試集相對。


W


權重 (weight)


線性模型中特徵的係數,或深度網路中的邊。訓練線性模型的目標是確定每個特徵的理想權重。如果權重為 0,則相應的特徵對模型來說沒有任何貢獻。


寬度模型 (wide model)


一種線性模型,通常有很多稀疏輸入特徵。我們之所以稱之為“寬度模型”,是因為這是一種特殊型別的神經網路,其大量輸入均直接與輸出節點相連。與深度模型相比,寬度模型通常更易於除錯和檢查。雖然寬度模型無法通過隱藏層來表示非線性關係,但可以利用特徵組合、分桶等轉換以不同的方式為非線性關係建模。


與深度模型相對。


推薦

CSDN出品的AI工程師實訓營成立啦!4個月的實訓,系統性學習,成為AI工程師沒那麼難,歡迎掃碼聯絡!


Google釋出機器學習術語表 (中英對照)


AI科技大本營讀者群(計算機視覺、機器學習、深度學習、NLP、Python、AI硬體、AI+金融、AI+PM方向)正在招募中,關注AI科技大本營微信公眾號,後臺回覆:讀者群,聯絡營長,新增營長請備註姓名,研究方向。

☟☟☟點選 | 閱讀原文 | 檢視更多課程內容

相關文章