第一章 緒論
機器學習: 致力於研究如何透過計算的手段,利用經驗來改善系統自身的效能。在計算機系統中,“經驗”通常以“資料“形式存在,因此,機器學習所研究的主要內容,是關於在計算機上從資料中產生”模型“的演算法,即”學習演算法“。有了學習演算法,我們把經驗資料提供給它,他就能基於這些資料產生模型;在面對新的情況時,模型會給我們提供相應的判斷。可以說機器學習時研究關於”學習演算法“的學問。
1.1 基本術語:
資料集(data set):記錄的集合。其中每條記錄是關於一個事件或物件的描述,稱為“示例”,“樣本”
屬性\特徵(attribute\feature):反映事件或物件在某方面的表現或性質的事項。
屬性值(attribute value):屬性上的取值。其張成的空間稱為“屬性空間(attribute space)”\“樣本空間(sample space)”\“輸入空間(sample space)”。
學習\訓練(learning\training):從資料中學得模型的過程。是假設不斷逼近真實的過程。
訓練資料(training data):訓練過程所使用的資料。
訓練樣本(training sample):訓練所使用的樣本。
訓練集(training set):訓練樣本的集合。
假設(hypothesis):學得模型對應了關於資料的某種潛在規律。
真相\真實(ground truth):潛在規律自身。
標記(label):訓練樣本的“結果”資訊,是判斷,預測。
樣例(example):帶有標記的樣本。
分類(classification):預測的是離散值的學習任務。
二分類(binary classification):只涉及兩個類別。
多分類(multi-class classification):涉及多個類別。
迴歸(regression):預測的是連續值的學習任務
聚類(clustering):將訓練集中的樣本分為若干組。
監督學習(supervised learning):分類+迴歸
無監督學習(unsupervised learning):聚類
測試(testing):對學得模型,對其進行預測的過程。
泛化能力:學得模型適用在新樣本上的能力。
1.2 假設空間
歸納:從特殊到一般的“泛化”過程,從具體的事實歸結出一般性規律。
演繹:從一般到特殊的"特化"過程,從基礎原理推演出具體狀況。
機器學習,是從樣例中學習的過程。是歸納的過程。
->機器學習過程看作一個在所有假設組成的空間中進行搜尋的過程,搜尋目標是找到與訓練集“匹配”的假設,
版本空間:存在與訓練集一致的假設集合。
歸納偏好:機器學習演算法在學習過程中對某種型別假設的偏好。
引導演算法確立偏好的一般性原則:
奧卡姆剃刀(Occam's razor):若有多個假設與觀察一致,則選最簡單的那個
學習演算法的期望效能相同:
沒有免費的午餐定理(NFL:No free Lunch Theorem):脫離具體問題,空談哪個演算法更好,無意義