圖解機器學* | 機器學*基礎知識

ShowMeAI發表於2022-03-09

作者:韓信子@ShowMeAI
教程地址http://www.showmeai.tech/tutorials/34
本文地址http://www.showmeai.tech/article-detail/185
宣告:版權所有,轉載請聯絡平臺與作者並註明出處

1. 機器學*概述

1)什麼是機器學*

人工智慧(Artificial intelligence)是研究、開發用於模擬、延伸和擴充套件人的智慧的理論、方法、技術及應用系統的一門新的技術科學。它是一個籠統而寬泛的概念,人工智慧的最終目標是使計算機能夠模擬人的思維方式和行為。大概在上世紀50年代開始興起,但是受限於資料和硬體裝置等限制,當時發展緩慢。

機器學*(Machine learning)是人工智慧的子集,是實現人工智慧的一種途徑,但並不是唯一的途徑。它是一門專門研究計算機怎樣模擬或實現人類的學*行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能的學科。大概在上世紀80年代開始蓬勃發展,誕生了一大批數學統計相關的機器學*模型。

深度學*(Deep learning)是機器學*的子集,靈感來自人腦,由人工神經網路(ANN)組成,它模仿人腦中存在的相似結構。在深度學*中,學*是通過相互關聯的「神經元」的一個深層的、多層的「網路」來進行的。「深度」一詞通常指的是神經網路中隱藏層的數量。大概在2012年以後爆炸式增長,廣泛應用在很多的場景中。

讓我們看看國外知名學者對機器學*的定義:

機器學*研究的是計算機怎樣模擬人類的學*行為,以獲取新的知識或技能,並重新組織已有的知識結構,使之不斷改善自身。從實踐的意義上來說,機器學*是在大資料的支撐下,通過各種演算法讓機器對資料進行深層次的統計分析以進行「自學」,使得人工智慧系統獲得了歸納推理和決策能力

通過經典的「垃圾郵件過濾」應用,我們再來理解下機器學*的原理,以及定義中的T、E、P分別指代什麼。

2)機器學*三要素

機器學*三要素包括資料模型演算法。這三要素之間的關係,可以用下面這幅圖來表示:

(1)資料

資料驅動:資料驅動指的是我們基於客觀的量化資料,通過主動資料的採集分析以支援決策。與之相對的是經驗驅動,比如我們常說的「拍腦袋」。

(2)模型&演算法

模型:在AI資料驅動的範疇內,模型指的是基於資料X做決策Y的假設函式,可以有不同的形態,計算型和規則型等。

演算法:指學*模型的具體計算方法。統計學*基於訓練資料集,根據學*策略,從假設空間中選擇最優模型,最後需要考慮用什麼樣的計算方法求解最優模型。通常是一個最優化的問題。

3)機器學*發展歷程

人工智慧一詞最早出現於1956年,用於探索一些問題的有效解決方案。1960年,美國國防部藉助「神經網路」這一概念,訓練計算機模仿人類的推理過程。

2010年之前,谷歌、微軟等科技巨頭改進了機器學*演算法,將查詢的準確度提升到了新的高度。而後,隨著資料量的增加、先進的演算法、計算和儲存容量的提高,機器學*得到了更進一步的發展。

4)機器學*核心技術

  • 分類:應用以分類資料進行模型訓練,根據模型對新樣本進行精準分類與預測。

  • 聚類:從海量資料中識別資料的相似性與差異性,並按照最大共同點聚合為多個類別。

  • 異常檢測:對資料點的分佈規律進行分析,識別與正常資料及差異較大的離群點。

  • 迴歸:根據對已知屬性值資料的訓練,為模型尋找最佳擬合引數,基於模型預測新樣本的輸出值。

5)機器學*基本流程

機器學*工作流(WorkFlow)包含資料預處理(Processing)、模型學*(Learning)、模型評估(Evaluation)、新樣本預測(Prediction)幾個步驟。

  • 資料預處理:輸入(未處理的資料 + 標籤)→處理過程(特徵處理+幅度縮放、特徵選擇、維度約減、取樣)→輸出(測試集 + 訓練集)。

  • 模型學*:模型選擇、交叉驗證、結果評估、超參選擇。

  • 模型評估:瞭解模型對於資料集測試的得分。

  • 新樣本預測:預測測試集。

6)機器學*應用場景

作為一套資料驅動的方法,機器學*已廣泛應用於資料探勘、計算機視覺、自然語言處理、生物特徵識別、搜尋引擎、醫學診斷、檢測信用卡欺詐、證券市場分析、DNA序列測序、語音和手寫識別和機器人等領域。

  • 智慧醫療:智慧假肢、外骨骼、醫療保健機器人、手術機器人、智慧健康管理等。

  • 人臉識別:門禁系統、考勤系統、人臉識別防盜門、電子護照及身份證,還可以利用人臉識別系統和網路,在全國範圍內搜捕逃犯。

  • 機器人的控制領域:工業機器人、機械臂、多足機器人、掃地機器人、無人機等。

2.機器學*基本名詞

  • 監督學*Supervised Learning):訓練集有標記資訊,學*方式有分類和迴歸。

  • 無監督學*Unsupervised Learning):訓練集沒有標記資訊,學*方式有聚類和降維。

  • 強化學*Reinforcement Learning):有延遲和稀疏的反饋標籤的學*方式。

  • 示例/樣本:上面一條資料集中的一條資料。

  • 屬性/特徵:「色澤」「根蒂」等。

  • 屬性空間/樣本空間/輸入空間X:由全部屬性張成的空間。

  • 特徵向量:空間中每個點對應的一個座標向量。

  • 標記:關於示例結果的資訊,如((色澤=青綠,根蒂=蜷縮,敲聲=濁響),好瓜),其中「好瓜」稱為標記。

  • 分類:若要預測的是離散值,如「好瓜」,「壞瓜」,此類學*任務稱為分類。

  • 假設:學得模型對應了關於資料的某種潛在規律。

  • 真相:潛在規律自身。

  • 學*過程:是為了找出或逼*真相。

  • 泛化能力:學得模型適用於新樣本的能力。一般來說,訓練樣本越大,越有可能通過學*來獲得具有強泛化能力的模型。

3.機器學*演算法分類

1)機器學*演算法依託的問題場景

機器學*在*30多年已發展為一門多領域交叉學科,涉及概率論、統計學、逼*論、凸分析、計算複雜性理論等多門學科。機器學*理論主要是設計和分析一些讓計算機可以自動「學*」的演算法。

機器學*演算法從資料中自動分析獲得規律,並利用規律對未知資料進行預測。機器學*理論關注可以實現的、行之有效的學*演算法。很多推論問題屬於無程式可循難度,所以部分的機器學*研究是開發容易處理的*似演算法。

機器學*最主要的類別有:監督學*、無監督學*和強化學*。

監督學*:從給定的訓練資料集中學*出一個函式,當新的資料到來時,可以根據這個函式預測結果。監督學*的訓練集要求是包括輸入和輸出,也可以說是特徵和目標。訓練集中的目標是由人標註的。常見的監督學*演算法包括迴歸分析和統計分類。

無監督學*:與監督學*相比,訓練集沒有人為標註的結果。常見的無監督學*演算法有生成對抗網路(GAN)、聚類。

強化學*:通過觀察來學*做成如何的動作。每個動作都會對環境有所影響,學*物件根據觀察到的周圍環境的反饋來做出判斷。

2)分類問題

分類問題是機器學*非常重要的一個組成部分。它的目標是根據已知樣本的某些特徵,判斷一個新的樣本屬於哪種已知的樣本類。分類問題可以細分如下:

  • 二分類問題:表示分類任務中有兩個類別新的樣本屬於哪種已知的樣本類。

  • 多類分類(Multiclass classification)問題:表示分類任務中有多類別。

  • 多標籤分類(Multilabel classification)問題:給每個樣本一系列的目標標籤。

瞭解更多機器學*分類演算法:KNN演算法邏輯迴歸演算法樸素貝葉斯演算法決策樹模型隨機森林分類模型GBDT模型XGBoost模型支援向量機模型等。

3)迴歸問題

瞭解更多機器學*迴歸演算法:決策樹模型隨機森林分類模型GBDT模型迴歸樹模型支援向量機模型等。

4)聚類問題

瞭解更多機器學*聚類演算法:聚類演算法

5)降維問題

瞭解更多機器學*降維演算法:PCA降維演算法

4.機器學*模型評估與選擇

1)機器學*與資料擬合

機器學*最典型的監督學*為分類與迴歸問題。分類問題中,我們學*出來一條「決策邊界」完成資料區分;在迴歸問題中,我們學*出擬合樣本分佈的曲線。

2)訓練集與資料集

我們以房價預估為例,講述一下涉及的概念。

  • 訓練集(Training Set):幫助訓練模型,簡單的說就是通過訓練集的資料讓確定擬合曲線的引數。

  • 測試集(Test Set):為了測試已經訓練好的模型的精確度。

當然,test set這並不能保證模型的正確性,只是說相似的資料用此模型會得出相似的結果。因為在訓練模型的時候,引數全是根據現有訓練集裡的資料進行修正、擬合,有可能會出現過擬合的情況,即這個引數僅對訓練集裡的資料擬合比較準確,這個時候再有一個資料需要利用模型預測結果,準確率可能就會很差。

3)經驗誤差

在訓練集的資料上進行學*。模型在訓練集上的誤差稱為「經驗誤差」(Empirical Error)。但是經驗誤差並不是越小越好,因為我們希望在新的沒有見過的資料上,也能有好的預估結果。

4)過擬合

過擬合,指的是模型在訓練集上表現的很好,但是在交叉驗證集合測試集上表現一般,也就是說模型對未知樣本的預測表現一般,泛化(Generalization)能力較差。

如何防止過擬合呢?一般的方法有Early Stopping、資料集擴增(Data Augmentation)、正則化、Dropout等。

  • 正則化:指的是在目標函式後面新增一個正則化項,一般有L1正則化與L2正則化。L1正則是基於L1範數,即在目標函式後面加上引數的L1範數和項,即引數絕對值和與引數的積項。

  • 資料集擴增:即需要得到更多的符合要求的資料,即和已有的資料是獨立同分布的,或者*似獨立同分布的。一般方法有:從資料來源頭採集更多資料、複製原有資料並加上隨機噪聲、重取樣、根據當前資料集估計資料分佈引數,使用該分佈產生更多資料等。

  • DropOut:通過修改神經網路本身結構來實現的。

5)偏差

偏差Bias),它通常指的是模型擬合的偏差程度。給定無數套訓練集而期望擬合出來的模型就是平均模型。偏差就是真實模型和平均模型的差異。

簡單模型是一組直線,平均之後得到的平均模型是一條直的虛線,與真實模型曲線的差別較大(灰色陰影部分較大)。因此,簡單模型通常高偏差

複雜模型是一組起伏很大波浪線,平均之後最大值和最小組都會相互抵消,和真實模型的曲線差別較小,因此複雜模型通常低偏差(見黃色曲線和綠色虛線幾乎重合)。

6)方差

方差(Variance),它通常指的是模型的平穩程度(簡單程度)。簡單模型的對應的函式如出一轍,都是水平直線,而且平均模型的函式也是一條水平直線,因此簡單模型的方差很小,並且對資料的變動不敏感。

複雜模型的對應的函式千奇百怪,毫無任何規則,但平均模型的函式也是一條平滑的曲線,因此複雜模型的方差很大,並且對資料的變動很敏感。

7)偏差與方差的平衡

8)效能度量指標

效能度量是衡量模型泛化能力的數值評價標準,反映了當前問題(任務需求)。使用不同的效能度量可能會導致不同的評判結果。更詳細的內容可見 模型評估方法與準則

(1)迴歸問題

關於模型「好壞」的判斷,不僅取決於演算法和資料,還取決於當前任務需求。迴歸問題常用的效能度量指標有:平均絕對誤差、均方誤差、均方根誤差、R平方等

  • 平均絕對誤差Mean Absolute Error,MAE),又叫平均絕對離差,是所有標籤值與迴歸模型預測值的偏差的絕對值的平均。

  • 平均絕對百分誤差Mean Absolute Percentage Error,MAPE)是對MAE的一種改進,考慮了絕對誤差相對真實值的比例。

  • 均方誤差Mean Square Error,MSE)相對於平均絕對誤差而言,均方誤差求的是所有標籤值與迴歸模型預測值的偏差的平方的平均。

  • 均方根誤差Root-Mean-Square Error,RMSE),也稱標準誤差,是在均方誤差的基礎上進行開方運算。RMSE會被用來衡量觀測值同真值之間的偏差。

  • R平方,決定係數,反映因變數的全部變異能通過目前的迴歸模型被模型中的自變數解釋的比例。比例越接*於1,表示當前的迴歸模型對資料的解釋越好,越能精確描述資料的真實分佈。

(2)分類問題

分類問題常用的效能度量指標包括錯誤率(Error Rate)、精確率(Accuracy)、查準率(Precision)、查全率(Recall)、F1、ROC曲線、AUC曲線和R平方等。更詳細的內容可見 模型評估方法與準則

  • 錯誤率:分類錯誤的樣本數佔樣本總數的比例。

  • 精確率:分類正確的樣本數佔樣本總數的比例。

  • 查準率(也稱準確率),即在檢索後返回的結果中,真正正確的個數佔你認為是正確的結果的比例。

  • 查全率(也稱召回率),即在檢索結果中真正正確的個數,佔整個資料集(檢索到的和未檢索到的)中真正正確個數的比例。

  • F1是一個綜合考慮查準率與查全率的度量,其基於查準率與查全率的調和平均定義:即:F1度量的一般形式-Fβ,能讓我們表達出對查準率、查全率的不同偏好。

ROC曲線(Receiver Operating Characteristic Curve)全稱是「受試者工作特性曲線」。綜合考慮了概率預測排序的質量,體現了學*器在不同任務下的「期望泛化效能」的好壞。ROC曲線的縱軸是「真正例率」(TPR),橫軸是「假正例率」(FPR)。

AUC(Area Under ROC Curve)是ROC曲線下面積,代表了樣本預測的排序質量

從一個比較高的角度來認識AUC:仍然以異常使用者的識別為例,高的AUC值意味著,模型在能夠儘可能多地識別異常使用者的情況下,仍然對正常使用者有著一個較低的誤判率(不會因為為了識別異常使用者,而將大量的正常使用者給誤判為異常。

9)評估方法

我們手上沒有未知的樣本,如何可靠地評估?關鍵是要獲得可靠的「測試集資料」(Test Set),即測試集(用於評估)應該與訓練集(用於模型學*)「互斥」。

常見的評估方法有:留出法(Hold-out)、交叉驗證法( Cross Validation)、自助法(Bootstrap)。更詳細的內容可見 模型評估方法與準則

留出法(Hold-out)是機器學*中最常見的評估方法之一,它會從訓練資料中保留出驗證樣本集,這部分資料不用於訓練,而用於模型評估。

機器學*中,另外一種比較常見的評估方法是交叉驗證法Cross Validation)。k 折交叉驗證對 k 個不同分組訓練的結果進行平均來減少方差,因此模型的效能對資料的劃分就不那麼敏感,對資料的使用也會更充分,模型評估結果更加穩定。

自助法(Bootstrap)是一種用小樣本估計總體值的一種非引數方法,在進化和生態學研究中應用十分廣泛

Bootstrap通過有放回抽樣生成大量的偽樣本,通過對偽樣本進行計算,獲得統計量的分佈,從而估計資料的整體分佈。

10)模型調優與選擇準則

我們希望找到對當前問題表達能力好,且模型複雜度較低的模型:

  • 表達力好的模型,可以較好地對訓練資料中的規律和模式進行學*;

  • 複雜度低的模型,方差較小,不容易過擬合,有較好的泛化表達。

11)如何選擇最優的模型

(1)驗證集評估選擇

  • 切分資料為訓練集和驗證集。

  • 對於準備好的候選超引數,在訓練集上進行模型,在驗證集上評估。

(2)網格搜尋/隨機搜尋交叉驗證

  • 通過網格搜尋/隨機搜尋產出候選的超引數組。

  • 對引數組的每一組超引數,使用交叉驗證評估效果。

  • 選出效果最好的超引數。

(3)貝葉斯優化

  • 基於貝葉斯優化的超引數調優。

視訊教程

可以點選 B站 檢視視訊的【雙語字幕】版本

【雙語字幕+資料下載】史丹佛CS229 | 機器學*-吳恩達主講(2018·完整版)

https://www.bilibili.com/video/BV1TT4y127Nf

ShowMeAI相關文章推薦

ShowMeAI系列教程推薦

相關文章