機器學習之機器學習概念

傲慢的上校發表於2017-04-06

前言

在機器學習過程中,對於機器學習的基本概念,進行了整理,記錄在此,以備檢視。


定義

在維基百科,定義如下

機器學習有下面幾種定義:
機器學習是一門人工智慧的科學,該領域的主要研究物件是人工智慧,特別是如何在經驗學習中改善具體演算法的效能。
機器學習是對能通過經驗自動改進的計算機演算法的研究。
機器學習是用資料或以往的經驗,以此優化計算機程式的效能標準。
一種經常引用的英文定義是:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

西瓜書中:

機器學習正是這樣一門學科,它致力於研究如何通過計算的手段,利用經驗來改善系統自身的效能。在計算機系統中,“經驗”通常以“資料”形式存在,因此,機器學習所研究的主要內容,是關於在計算機上從資料中產生“模型”(model)的演算法,即“學習演算法”(learning algorithm)

資料科學入門:

建立並使用那些由學習資料而得出的模型。在其他語境中,也可以被叫作預測建模或者資料探勘。

目標

用已存在的資料來開發可以用來對新資料預測多種可能結果的模型

  • 預測一封郵件是否是垃圾郵件(貝葉斯定理)
  • 預測一筆信用卡交易是否是欺詐行為
  • 預測哪種廣告最有可能被購物者點選

概念

資料集(data set):記錄(資料)的集合

示例(instance)或樣本(sample):每條記錄是關於一個事件或物件的描述,被稱為示例或樣本

屬性(attribute)或特徵(feature):事件或物件在某方面的表現或性質的事項

屬性值(attribute value):屬性上的取值

屬性空間(attribute )、樣本空間(sample space)或輸入空間:屬性張成的空間

從資料中學得模型的過程稱為“學習”(learning)或“訓練”(training),這個過程通過執行某個學習演算法來完成。

訓練過程中使用的資料稱為“訓練資料”(training data)
每個樣本稱為一個訓練樣本(training sample)

訓練樣本組成的集合稱為訓練集(training set)

學得模型對應了關於算計的某種潛在規律,稱為假設(hypothesis)

潛在規律自身,被稱為真相或真實(ground-truth)

關於示例結果的資訊,稱為標記(label)

擁有標記資訊的示例,稱為樣例(example)

如果預測的是連續值,學習任務稱為“迴歸”(regression)

測試(testing):學得模型後,使用其進行預測的過程

測試樣本(testing sample):被預測的樣本

泛化能力(generalization):學得模型適用於新樣本的能力

學習過程:學習過程可以看作一個在所有假設(hypothesis)組成的空間中進行的探索的過程,探索目標是找到與訓練集’匹配’(fit)的假設。

聚類和分類

如果預測的是離散值,學習任務稱為“分類”(classfication)
分類是指識別出樣本所屬的類別。識別前是否需要進行訓練,可分為有監督分類和無監督分類。有監督分類(supervised classification):根據已知訓練區提供的樣本,通過計算選擇特徵引數,建立判別函式以對樣本進行的分類。無監督分類(unsupervised classification):指人們事先對分類過程不施加任何的先驗知識,而僅憑資料,即自然聚類的特性,進行“盲目”的分類;其分類的結果只是對不同類別達到了區分,但並不能確定類別的屬性。(維基百科)

聚類分析(英語:Cluster analysis,亦稱為群集分析)是對於統計資料分析的一門技術,在許多領域受到廣泛應用,包括機器學習,資料探勘,模式識別,影像分析以及生物資訊。聚類是把相似的物件通過靜態分類的方法分成不同的組別或者更多的子集(subset),這樣讓在同一個子集中的成員物件都有相似的一些屬性,常見的包括在座標系中更加短的空間距離等。
一般把資料聚類歸納為一種非監督式學習。

有監督模型和無監督模型

有監督模型:資料標註有正確答案,可供學習

無監督模型:沒有標註

半監督模型:其中有一部分資料帶有標註

線上模型:模型根據新加入的資料做持續調整

分類和迴歸是分類學習的代表,聚類是非監督學習的代表。

過擬合和欠擬合

過擬合(overfitting):一個在訓練資料上表現良好,但對任何新資料的泛化能力卻很差的模型。

欠擬合(underfitting) : 產生的模型甚至在訓練資料上都沒有好的表現

正確性

真陽性:“這封郵件是垃圾郵件,我們做了正確的預測”
假陽性(又稱第一類錯誤):“這封郵件不是垃圾郵件,但是我們預測它是垃圾郵件”
假陰性(又稱第二類錯誤):“這封郵件是垃圾郵件,但是我們預測它不是垃圾郵件”
真陰性:“這封郵件不是是垃圾郵件,而且我們正確的預測了它不是垃圾郵件”

準確率 (accuracy)、查準率(precision)、查全率(recall)
補充資料

偏倚-方差權衡

偏倚和方差這兩個名詞 是用來度量(來自同一個大型總體的)不同的訓練資料集上多次重複訓練模型的情況

學習資料

《機器學習》第一章

《資料科學入門》第十一章

維基百科

相關文章