機器學習定義及基本術語（根據周志華的《機器學習》概括）

engineerxin發表於2018-07-25

原文網址 : https://blog.csdn.net/engineerxin/article/details/81200973

機器學習的定義

機器學習是這樣一門學科：通過計算的手段，學習經驗（也可以說是利用經驗）來改善系統的效能。
在計算機系統中,經驗（Experience）通常是資料（Data）；學習演算法（Learning algorithm）學習產生數學模型（Model），不斷改善系統效能（Performace）。

【Mitchell 1997】給出了一個更形式化的定義：假設用P（Performace）來評估計算機程式在某類任務T（Task）上的效能，若一個程式通過利用經驗E（Experience）在T中任務上獲得了效能改善，則我們就說關於T和P，該程式對E進行了學習。

周志華老師的機器學習書中“模型”泛指從資料中學得的結果。有的文獻用”模型“指全域性性結果,而用”模式“指區域性性結果（比如一條規則）·

基本術語

假定我們收集了一批西瓜的資料

（色澤=青綠，根蒂=蜷縮，敲聲=濁響）
（色澤=烏黑，根蒂=稍蜷，敲聲=沉悶）
. . . . . .

上面每對括號內是一條記錄（record）
這組記錄的集合稱為一個資料集（data set）
其中每條記錄是關於一個事件或物件的描述，稱為示例（instance）或樣本（sample）
反應事件或物件在某方面表現或性質的事項，稱為屬性（attribute）或特徵（feature）
屬性上的取值，比如西瓜的色澤屬性可以取值為青綠，稱為屬性值（attribute value）
屬性張成的空間稱為屬性空間（attribute space）或樣本空間（sample space）或輸入空間（input space）。
對於屬性空間，可以把每個屬性看作一個變數或座標軸，比如上面對於西瓜的資料集，有三個屬性——色澤，根蒂，敲聲。它們可以張成一個用於描述西瓜的三維空間，每個西瓜都可以在這個空間中找到自己的座標位置。因此我們可以把一個示例看作一個特徵向量（feature vector）。

註解：有時整個資料集亦稱一個”樣本“，因為它可以看作對樣本空間的一個取樣；通過上下文可以判斷出“樣本”是指單個示例還是資料集

一般使用符號 $D$

表示資料集，

D

x_{1}

x_1

x_{2}

x_2

x_{3}

x_3

,…,

x_{m}

x_m

}表示包含

m

個示例的資料集，每個示例有

d

個屬性描述，則每個示例

x_{i}

x_i

x_{i 1}

x_{i1}

;

x_{i 2}

x_{i2}

;

x_{i 3}

x_{i3}

;…;

x_{i d}

x_{id}

)都是

d

維樣本空間中的一個向量，

d

稱為示例的維數（dimensionality）

學習（learning）或訓練（training）指從資料中學得模型的過程，通過執行某個學習演算法來完成。
訓練資料（training data）指訓練過程中使用的資料。
訓練樣本（training sample）指訓練資料中的每個樣本。
訓練集（training set）指訓練樣本組成的集合。
假設（hypothesis）指學習得到的模型對應了關於資料的某種潛在的規律，這種學得的規律並不一定是準確的。
真相或真實（ground-truth）則是這種真實存在的潛在規律自身，學習的過程就是為了找出或逼近真相。
在周老師的書中模型稱為學習器（learner），可以看作學習演算法在給定資料和引數空間上的例項化。

對應前面的西瓜例子，如果希望學習成一個判斷沒剖開的西瓜是不是好瓜的模型，僅僅有前面的示例資料是不夠的。
要建立像預測西瓜好壞這樣的關於預測（prediction）的模型，我們需要獲得訓練樣本的結果資訊（類似於屬性變數對應的函式值），比如（（色澤=青綠，根蒂=蜷縮，敲聲=濁響），好瓜）。上面關於示例結果的資訊，比如“好瓜”，稱呼為標記（label），而擁有了標記資訊的示例，稱呼為樣例（example）。
一般地，用（ $x_{i}$

x_i

，

y_{i}

y_i

）代表第

i

個樣例，所有標記的集合，亦稱為標記空間（label space）或輸出空間（output space）。

如果我們想預測的是離散值，例如”好瓜“，”壞瓜“，則此類學習任務稱為分類（classification）；
如果想預測的是連續值，例如西瓜的成熟度0.95，0.85，則此類學習任務稱為迴歸（regressio）；
對於只涉及兩個類別的二分類任務（binary classification），通常稱其中一個類別為正類（positive class），另一個稱為反類（negative class）；對於二分類任務，標記空間通常取{ $+ 1$

，

- 1

-1

}，{

0

，

1

}；
涉及多個類別時，則稱為多分類任務（multi-class classification），對於多分類任務，標記空間通常取R實數集。

學習到模型後，使用模型進行預測的過程稱為測試（testing）。
而被預測的樣本稱為測試樣本（testing sample）。

對應前面的西瓜例子，我們還可以對西瓜做聚類（clustering），即把訓練集中的西瓜分成若干個組，每個組稱為一個簇（cluster）；這些自動形成的簇可能對應一些潛在的概念劃分，例如淺色瓜，本地瓜等。這樣的學習過程有助於我們瞭解資料的潛在規律，能為更深入分析資料建立基礎。
需補充說明的是：在在聚類學習中，淺色瓜，本地瓜這樣的概念是我們事先所不知道的，而且學習過程中使用的訓練樣本通常不擁有標記資訊。

根據訓練資料是否擁有標記資訊，學習任務大致劃分為兩類：

監督學習（supervised learning）
無監督學習（unsupervised learning）

分類和迴歸是前者的代表，而聚類是後者的代表。

機器學習-周志華
2023-10-03
機器學習
周志華西瓜書《機器學習》
2019-12-17
機器學習
重磅！周志華《機器學習》手推筆記來了！
2019-11-11
機器學習筆記
機器學習主要術語
2020-06-11
機器學習
【機器學習】--隱語義模型
2018-06-12
機器學習模型
機器學習 | 吳恩達機器學習第九周學習筆記
2018-11-22
機器學習吳恩達筆記
機器學習沒有捷徑，根據機器學習演算法地圖學習是最有效的一種方式！
2018-12-21
機器學習演算法地圖
簡明機器學習——01機器學習的幾個基本要素
2020-02-25
機器學習
周志華西瓜書《機器學習》第三章線性模型
2018-12-09
機器學習模型
【機器學習】李宏毅——機器學習基本概念簡介
2022-12-14
機器學習
機器學習學習筆記——基本知識
2024-04-15
機器學習筆記
【機器學習】——白話入門及術語解釋
2022-03-09
機器學習
北大張志華：機器學習就是現代統計學
2019-05-16
機器學習
【機器學習】機器學習簡介
2018-11-29
機器學習
機器學習根據文字生成圖片教程（附python程式碼）
2018-09-05
機器學習Python
周志華西瓜書《機器學習筆記》學習筆記第二章《模型的評估與選擇》
2018-12-02
機器學習筆記模型
[python學習]機器學習 -- 感知機
2020-10-19
Python機器學習
【機器學習】--Python機器學習庫之Numpy
2018-04-06
機器學習Python
大型機器學習【Coursera 史丹佛機器學習】
2021-09-09
機器學習
（一）機器學習和機器學習介紹
2021-09-09
機器學習
深度學習機器學習基礎-基本原理
2023-01-17
深度學習機器學習
機器學習-整合學習
2019-05-12
機器學習
如何學習機器學習
2019-02-01
機器學習
機器學習基本概念簡介
2024-04-15
機器學習
機器學習基本概念總結
2023-01-14
機器學習
機器學習操作基本步驟 - svpino
2021-02-26
機器學習
機器學習基本函式介紹
2020-12-05
機器學習函式
機器學習（——）
2018-06-19
機器學習
機器學習
2024-05-19
機器學習
機器學習/深度學習書單推薦及學習方法
2018-04-12
機器學習深度學習
機器學習中的元學習
2024-03-13
機器學習
機器學習（十四）機器學習比賽網站
2018-12-06
機器學習網站
機器學習&深度學習之路
2018-06-07
機器學習深度學習
機器學習之學習速率
2020-06-12
機器學習
機器學習學習筆記
2021-06-01
機器學習筆記
機器學習-整合學習LightGBM
2023-02-21
機器學習
機器學習：監督學習
2022-12-04
機器學習
機器學習導圖系列（5）：機器學習模型及神經網路模型
2019-04-11
機器學習模型神經網路

機器學習定義及基本術語（根據周志華的《機器學習》概括）

機器學習的定義

基本術語

相關文章