機器學習 第一章學習

Dictator丶發表於2018-11-19

1.1 引言

  • 機器學習:致力於研究如何通過計算的手段,利用經驗來改善系統自身的效能。

  • 研究內容: 在計算機上從資料產生“模型”的演算法,即“學習演算法”。“模型”泛指從資料中學得的結果。

1.2 相關術語

  • 資料集(data set): 資料的集合。

  • 樣本(sample)/ 示例(instance):每條記錄是關於一個事件或物件的描述。

  • 屬性(attribute)/ 特徵(feature):事件或物件在某方面的表現或性質。屬性的取值叫做屬性值(attribute value),屬性張成的空間叫做屬性空間(attribute space)、樣本空間(sample space)或輸入空間。

  • 特徵向量(feature vector):示例的別名。

  • 學習(learning)/ 訓練(training): 從資料中學得模型的過程。

  • 訓練過程中使用的資料稱為“訓練資料”(training data),其中每個樣本稱為一個“訓練樣本”(training sample),訓練樣本組成的集合稱為“訓練集”*(training set)。

  • 假設(hypothesis):學得模型對應了關於資料的某種潛在的規律,這種潛在規律自身,稱為“真相”或“真實”(ground-truth)。

  • 標記(lable): 訓練樣本的結果的資訊。

  • 樣例(example): 擁有了標記資訊的示例。
    一般用(xi, yi)表示第 i 個樣例, yi 表示示例 xi 的標記

  • 分類(classification): 預測的是離散值

  • 迴歸(regression):預測的是連續值。

  • 聚類(clustering):將訓練集分成若干組,每組稱為一個簇(cluster)。這樣的學習過程有助於我們瞭解資料內在的規律,能為更深入地分析資料建立基礎。在聚類學習中,這些簇我們事先是不知道的。

  • 監督學習(supervised learning):代表有分類和迴歸。

  • 無監督學習(unsupervised learning): 代表是聚類學習。

  • 泛化(generalization)能力: 學得的模型適用於新樣本的能力。

  • 獨立同分布(independent and identically distributed,簡稱 i.i.d.):通常假設樣本空間中全部樣本服從一個未知分佈(distribution)D,我們獲得的每個樣本都是獨立地從這個分佈上取樣獲得的,即獨立同分布。一般而言,訓練的樣本越多,我們得到的關於D的資訊越多,就越有可能用過學習獲得泛化能力強的模型。

(2018年11月19日21:06:09)

1.3 假設空間

相關文章