機器學習定義及基本術語(根據周志華的《機器學習》概括)
機器學習的定義
機器學習是這樣一門學科:通過計算的手段,學習經驗(也可以說是利用經驗)來改善系統的效能。
在計算機系統中,經驗(Experience)通常是資料(Data);學習演算法(Learning algorithm)學習產生數學模型(Model),不斷改善系統效能(Performace)。
【Mitchell 1997】給出了一個更形式化的定義:假設用P(Performace)來評估計算機程式在某類任務T(Task)上的效能,若一個程式通過利用經驗E(Experience)在T中任務上獲得了效能改善,則我們就說關於T和P,該程式對E進行了學習。
周志華老師的機器學習書中“模型”泛指從資料中學得的結果。有的文獻用”模型“指全域性性結果,而用”模式“指區域性性結果(比如一條規則)·
基本術語
假定我們收集了一批西瓜的資料
- (色澤=青綠,根蒂=蜷縮,敲聲=濁響)
- (色澤=烏黑,根蒂=稍蜷,敲聲=沉悶)
- . . . . . .
上面每對括號內是一條記錄(record)
這組記錄的集合稱為一個資料集(data set)
其中每條記錄是關於一個事件或物件的描述,稱為示例(instance)或樣本(sample)
反應事件或物件在某方面表現或性質的事項,稱為屬性(attribute)或特徵(feature)
屬性上的取值,比如西瓜的色澤屬性可以取值為青綠,稱為屬性值(attribute value)
屬性張成的空間稱為屬性空間(attribute space)或樣本空間(sample space)或輸入空間(input space)。
對於屬性空間,可以把每個屬性看作一個變數或座標軸,比如上面對於西瓜的資料集,有三個屬性——色澤,根蒂,敲聲。它們可以張成一個用於描述西瓜的三維空間,每個西瓜都可以在這個空間中找到自己的座標位置。因此我們可以把一個示例看作一個特徵向量(feature vector)。
註解:有時整個資料集亦稱一個”樣本“,因為它可以看作對樣本空間的一個取樣;通過上下文可以判斷出“樣本”是指單個示例還是資料集
一般使用符號
學習(learning)或訓練(training)指從資料中學得模型的過程,通過執行某個學習演算法來完成。
訓練資料(training data)指訓練過程中使用的資料。
訓練樣本(training sample)指訓練資料中的每個樣本。
訓練集(training set)指訓練樣本組成的集合。
假設(hypothesis)指學習得到的模型對應了關於資料的某種潛在的規律,這種學得的規律並不一定是準確的。
真相或真實(ground-truth)則是這種真實存在的潛在規律自身,學習的過程就是為了找出或逼近真相。
在周老師的書中模型稱為學習器(learner),可以看作學習演算法在給定資料和引數空間上的例項化。
對應前面的西瓜例子,如果希望學習成一個判斷沒剖開的西瓜是不是好瓜的模型,僅僅有前面的示例資料是不夠的。
要建立像預測西瓜好壞這樣的關於預測(prediction)的模型,我們需要獲得訓練樣本的結果資訊(類似於屬性變數對應的函式值),比如((色澤=青綠,根蒂=蜷縮,敲聲=濁響),好瓜)。上面關於示例結果的資訊,比如“好瓜”,稱呼為標記(label),而擁有了標記資訊的示例,稱呼為樣例(example)。
一般地,用(
如果我們想預測的是離散值,例如”好瓜“,”壞瓜“,則此類學習任務稱為分類(classification);
如果想預測的是連續值,例如西瓜的成熟度0.95,0.85,則此類學習任務稱為迴歸(regressio);
對於只涉及兩個類別的二分類任務(binary classification),通常稱其中一個類別為正類(positive class),另一個稱為反類(negative class);對於二分類任務,標記空間通常取{
涉及多個類別時,則稱為多分類任務(multi-class classification),對於多分類任務,標記空間通常取R實數集。
學習到模型後,使用模型進行預測的過程稱為測試(testing)。
而被預測的樣本稱為測試樣本(testing sample)。
對應前面的西瓜例子,我們還可以對西瓜做聚類(clustering),即把訓練集中的西瓜分成若干個組,每個組稱為一個簇(cluster);這些自動形成的簇可能對應一些潛在的概念劃分,例如淺色瓜,本地瓜等。這樣的學習過程有助於我們瞭解資料的潛在規律,能為更深入分析資料建立基礎。
需補充說明的是:在在聚類學習中,淺色瓜,本地瓜這樣的概念是我們事先所不知道的,而且學習過程中使用的訓練樣本通常不擁有標記資訊。
根據訓練資料是否擁有標記資訊,學習任務大致劃分為兩類:
- 監督學習(supervised learning)
- 無監督學習(unsupervised learning)
分類和迴歸是前者的代表,而聚類是後者的代表。
相關文章
- 機器學習-周志華機器學習
- 周志華西瓜書《機器學習》機器學習
- 重磅!周志華《機器學習》手推筆記來了!機器學習筆記
- 機器學習主要術語機器學習
- 【機器學習】--隱語義模型機器學習模型
- 機器學習 | 吳恩達機器學習第九周學習筆記機器學習吳恩達筆記
- 機器學習沒有捷徑,根據機器學習演算法地圖學習是最有效的一種方式!機器學習演算法地圖
- 簡明機器學習——01機器學習的幾個基本要素機器學習
- 周志華西瓜書《機器學習》第三章線性模型機器學習模型
- 【機器學習】李宏毅——機器學習基本概念簡介機器學習
- 機器學習學習筆記——基本知識機器學習筆記
- 【機器學習】——白話入門及術語解釋機器學習
- 北大張志華:機器學習就是現代統計學機器學習
- 【機器學習】機器學習簡介機器學習
- 機器學習根據文字生成圖片教程(附python程式碼)機器學習Python
- 周志華西瓜書《機器學習筆記》學習筆記第二章《模型的評估與選擇》機器學習筆記模型
- [python學習]機器學習 -- 感知機Python機器學習
- 【機器學習】--Python機器學習庫之Numpy機器學習Python
- 大型機器學習【Coursera 史丹佛 機器學習】機器學習
- (一) 機器學習和機器學習介紹機器學習
- 深度學習機器學習基礎-基本原理深度學習機器學習
- 機器學習-整合學習機器學習
- 如何學習機器學習機器學習
- 機器學習基本概念簡介機器學習
- 機器學習基本概念總結機器學習
- 機器學習操作基本步驟 - svpino機器學習
- 機器學習基本函式介紹機器學習函式
- 機器學習(——)機器學習
- 機器學習機器學習
- 機器學習中的元學習機器學習
- 機器學習/深度學習書單推薦及學習方法機器學習深度學習
- 機器學習(十四) 機器學習比賽網站機器學習網站
- 機器學習&深度學習之路機器學習深度學習
- 機器學習之學習速率機器學習
- 機器學習學習筆記機器學習筆記
- 機器學習-整合學習LightGBM機器學習
- 機器學習:監督學習機器學習
- 機器學習導圖系列(5):機器學習模型及神經網路模型機器學習模型神經網路