13、資料,學習和建模

weixin_34148340發表於2019-02-23

機器學習中的關鍵概念為理解該領域奠定了基礎。

在這篇文章中,您將學習在描述資料和資料集時使用的命名法(標準術語)。

您還將學習用於描述資料學習和建模的概念和術語,這些概念和術語將為您在機器學習領域的旅程提供有價值的直覺。

資料

機器學習方法從例項中學習。掌握輸入資料和描述資料時使用的各種術語非常重要。在本節中,您將學習在引用資料時機器學習中使用的術語。

當我想到資料時,我會想到行和列,比如資料庫表或Excel電子表格。這是一種傳統的資料結構,是機器學習領域的常見結構。目前不考慮其他資料,如影像,視訊和文字,即所謂的非結構化資料。

11023671-33525e0ffad647ac.png
image.png

顯示例項,功能和訓練測試資料集的資料表

例項:單行資料稱為例項。這是來自領域的觀察。

功能:單列資料稱為功能。它是觀察的一個組成部分,也稱為資料例項的屬性。一些特徵可以是模型的輸入(預測變數),而其他特徵可以是輸出或要預測的特徵。

資料型別:功能具有資料型別。它們可以是實數或整數值,也可以具有分類或序數值。您可以使用字串,日期,時間和更復雜的型別,但在使用傳統的機器學習方法時,通常會將它們簡化為實際值或分類值。

資料集:例項集合是一個資料集,在使用機器學習方法時,我們通常需要一些資料集用於不同的目的。

訓練資料集:我們提供給我們的機器學習演算法以訓練我們的模型的資料集。

測試資料集:我們用於驗證模型準確性但不用於訓練模型的資料集。它可以稱為驗證資料集。

我們可能必須收集例項來形成我們的資料集,或者我們可能會得到一個必須拆分為子資料集的有限資料集。

學習

機器學習確實是關於演算法的自動學習。

在本節中,我們將考慮一些關於學習的高階概念。

歸納:機器學習演算法通過稱為歸納學習或歸納學習的過程學習。歸納是一種推理過程,它根據特定資訊(訓練資料)進行概括(模型)。

泛化:需要泛化,因為機器學習演算法準備的模型需要根據培訓期間未見的特定資料例項進行預測或決策。

過度學習:當模型過於緊密地學習訓練資料而不進行概括時,這稱為過度學習。結果是除了訓練資料集之外的資料表現不佳。這也稱為過度擬合。

在學習:當一個模型並沒有從資料庫中瞭解到足夠的結構,因為在學習過程被提前終止,這是在學習呼叫。結果是良好的泛化,但所有資料(包括訓練資料集)的效能都很差。這也稱為欠配合。

線上學習:線上學習是指在域可用時使用域中的資料例項更新方法。線上學習需要對噪聲資料具有魯棒性的方法,但可以生成與域的當前狀態更加一致的模型。

離線學習:離線學習是指在預先準備好的資料上建立方法,然後在未觀察到的資料上進行操作。由於訓練資料的範圍是已知的,因此可以控制並且可以仔細調整訓練過程。準備好後,模型不會更新,如果域名發生變化,效能可能會下降。

監督學習:這是一個學習過程,用於概括需要預測的問題。“教學過程”將模型的預測與已知答案進行比較,並在模型中進行校正。

無監督學習:這是一個學習過程,用於推廣資料中不需要預測的結構。識別和利用自然結構以將例項相互關聯。

機器學習演算法的帖子之前,我們已經介紹了有監督和無監督的學習。這些術語可用於按行為對演算法進行分類。

造型

由機器學習過程建立的人工製品本身可以被視為一個程式。

模型選擇:我們可以將配置和訓練模型的過程視為模型選擇過程。每次迭代我們都有一個新模型,我們可以選擇使用或修改。甚至機器學習演算法的選擇也是該模型選擇過程的一部分。在針對問題存在的所有可能模型中,所選訓練資料集上的給定演算法和演算法配置將提供最終選擇的模型。

感應偏差:偏差是對所選模型施加的限制。所有模型都有偏差,這會在模型中引入誤差,並且根據定義,所有模型都有誤差(它們是觀察的概括)。通過模型中的一般化引入偏差,包括模型的配置和生成模型的演算法的選擇。機器學習方法可以建立具有低偏差或高偏差的模型,並且可以使用策略來減少高偏差模型的偏差。

模型方差:方差是模型對訓練資料的敏感程度。在資料集上建立模型時,機器學習方法可以具有高或低的方差。減少模型方差的策略是在具有不同初始條件的資料集上多次執行,並將平均精度作為模型效能。

偏差 - 方差權衡:模型選擇可以被認為是偏差和方差的權衡。低偏差模型將具有高差異並且需要長時間或多次訓練以獲得可用模型。高偏差模型將具有較低的方差並且將快速訓練,但是遭受差的且有限的效能。

資源

如果您想深入挖掘,下面是一些資源。

這篇文章提供了一個有用的術語表,您可以隨時參考這些術語以獲得清晰的定義。

相關文章