機器學習1—入門

YangHNU發表於2016-12-28

1.1基本概念
資料集data set、樣本sample、示例instance
特徵或屬性feature:反應某方面的表現或性質
屬性值attribute value:屬性上的取值
屬性空間、樣本空間或輸入空間attribute space:屬性張成的空間(例如某個物體的體積,密度,質量三個屬性作為三個座標軸,其張成的三維空間是屬性空間)
特徵向量feature vector:在屬性空間中某一點所對應的座標向量
樣本的維數:即一個示例所包含的屬性數量
訓練資料training data
訓練集training set:訓練樣本組成的集合
假設hypothesis:學得模型對應了關於資料的某種潛在的規律
真實、真相ground-truth:潛在的規律自身
機器學習的過程就是為了找出或逼近真相

分類——預測的物件為離散值(好、壞),涉及兩個類別的為二分類任務binary classification,涉及多個類別的為多分類任務multi-class classification
迴歸——預測的物件為連續值(溫度36.1,36.2)
聚類clustering——將訓練集中的樣本分成若干組,每組成為一個簇cluster,學習過程中的訓練樣本不擁有標記資訊
監督學習、無監督學習的區別在於他們是否有標記資訊
idd——獨立同分布independent and identically distributed,假設樣本空間中的全體樣本服從一個“未知”分佈,我們獲得的每個樣本都是獨立地從這個分佈上取樣獲得的。
1.2假設空間
版本空間version space——可能有多個假設與訓練集一致,這多個假設集合成為版本空間
假設空間——由可能取值所形成的假設組成
1.3歸納偏好
歸納偏好——機器學習演算法在學習過程中對於某種型別假設的偏好,稱為歸納偏好。利用奧卡姆剃刀原則來引導演算法確定正確的偏好。
1.4總結
學習演算法的“好壞”必須與具體問題結合,脫離具體問題的“好壞”是沒有意義的。學習演算法的自身的歸納偏好與問題是否匹配,往往起到決定性作用。

習題
若表 1.1 只包含 1 和 4 兩個樣例,試給出相應的樣本空間。已知色澤有兩種取值,根蒂和敲聲分別有三種取值。


樣本空間即假設空間:因為顏色2種,根蒂和敲聲各3種,再加上各自的通配(*,代表取何值無所謂),共有3x4x4=48種假設,再加上空集,一共49種取值。列出由編號1得出的取值:1.青+蜷+濁2~4.有一個屬性通配5~7.有兩個屬性通配因此有版本空間中有7種取值

相關文章