7大分類，40多個關鍵概念，入門機器學習要掌握的概念都在這裡了

dicksonjyl560101發表於2020-07-05

原文網址 : http://blog.itpub.net/29829936/viewspace-2702504/

不知道大家有沒有這樣的感覺：在我們學習的時候，經常學了就忘，忘了再學，彷佛進入了死迴圈。明明都學了，結果就是記不住。有時候都想往自己的腦袋裡植入一個儲存器，想學什麼就往腦子裡複製，這樣多好。

機器學習就是這樣一個例子。很多時候，我們在學習過程中迷失了方向，從而失去了繼續學習的動力。許多概念需要系統化。但是今天，我想為大家介紹機器學習的所有概念，這些概念將有助於你更快地瞭解這個領域。這篇文章將適合那些剛剛入門並且已經在實踐中開始使用機器學習的人。

概述：

動機
分類
問題型別
類
效能分析
演算法
除錯

廢話不多說，讓我們直接開始吧!

機器學習概念

這些概念中的每一個都會引出其他更小的衍生概念。在這裡，我會為每一個術語給出最短和最簡單的定義：

1、動機

動機對於機器學習來說很重要，因為它形成了模型與資料進行比較的過程。機器學習的動機有兩種方法：

預測。非線性模型認為，海帶的預測變數可以作為判別結果的輸入，但不是每種方式的輸入都會影響預測。例如，以預測為導向的觀點最適合回答這樣一個問題：我的車是被高估還是低估了?如果對此應用推論，模型的可解釋性將大大降低。
推斷。線性模型來區分影響預測的每個輸入的方式。例如，它會給你一個精確的答案：如果我的車能在沒有車頂的情況下行駛，它會花多少錢?通過比較模型的預測結果，推斷比非線性預測更容易理解。

2、分類

與其他方法一樣，訓練機器學習演算法的方法也各不相同，而且各有優缺點：

監督學習。任務驅動型方法，在這個過程中，計算機由“老師”提供示例輸入及其期望的輸出，目標是學習將輸入對映到輸出的一般規則。
無監督學習。資料驅動型方法，目標是通過對資料中的底層結構或分佈進行建模來了解更多有關資料的資訊。它可以是兩種型別：發現資料中隱藏的模式，也可以是達到目的的方法(特徵學習)。
強化學習。此類別基於從錯誤中學習，該錯誤使用獎勵和懲罰系統訓練演算法。

3、問題型別

如果要深入研究機器學習類別，還有五種其他型別的問題：

迴歸。我們需要預測連續響應值的監督問題。迴歸擬合資料並給出對映的所有特徵點的答案，如果預測值趨向於一個連續的值，那麼它就會下降。例如：給出區域名稱、土地面積等作為特徵，並預測土地的預期成本。
分類。監督問題，其主要目的是分離資料。如果預測值趨向於是/否、正/負等類別，那麼它就屬於機器學習中的分類問題。例如，給定一個句子來預測它是否定的還是正面的。
叢集。無監督問題，我們將相似的事物組合到一個給定數量的簇中。對於這些分數，我們不會給出答案。示例：給定3、4、8、9，並且簇的數目為2，那麼機器學習系統可以將給定的集合分成簇1–3,4和簇2–8,9。
密度估計。它是在觀測資料的基礎上，對一個不可觀測的潛在概率密度函式的估計。查詢輸入在某個空間中的分佈。
降維。通過將輸入對映到低維空間來簡化輸入。

4、類

機器學習演算法可分為引數或非引數：

引數化-有固定數量的引數，分兩步完成：

第一步：假設我們的函式(f)的函式形式或形狀，即：f是線性的，因此我們將選擇一個線性模型。

第二步：選擇一個程式來適應或訓練我們的模型。這意味著估計線性函式中的β引數。一種常見的方法是(普通)最小二乘法。

非引數化-使用靈活數量的引數，引數的數量通常隨著它從更多資料中學習而增長。由於這些方法並不能將f的估計問題簡化為少量的引數，因此需要大量的觀測資料來獲得f的精確估計。例如薄板樣條模型。

5、效能分析

演算法的效能分析是計算該演算法所需的空間和時間的過程。演算法的效能分析採用以下措施：

混淆矩陣-通常用於描述分類模型(或“分類器”)在已知真實值的一組測試資料上的效能的表。
準確度。正確預測的一部分，當資料集不平衡時(即不同類別中的樣本數量變化很大)不可靠
f1分數-測試準確性的另一個衡量標準，其計算依據是：1)精度-在分類器標記為陽性的所有示例中，哪個分數是正確的?2) 回憶一下。在所有的正面例子中，分類器提取了什麼分數?
ROC曲線-接收器工作特性。真陽性率(回憶/敏感性)vs假陽性率(1-特異性)
偏差-方差權衡-一組預測模型的特性，其中引數估計偏差較低的模型在樣本間的引數估計方差較高，反之亦然。
均方誤差(MSE)-測量誤差或偏差平方的平均值-即估計值與估計值之間的差值。
錯誤率。在分類環境下，應用估計模型的錯誤率函式是訓練觀測值的函式。

6、演算法

機器學習真正有趣的部分來了!以下內容能夠幫助你如何將機器學習付諸實踐：

決策樹學習-通過一種演算法方法來構建，該方法根據不同的條件識別資料集的分割方法。
關聯規則學習-一種基於規則的機器學習和資料探勘技術，可以發現資料集中變數或特徵之間的重要關係。
人工神經網路-一種資訊處理模型，其靈感來源於生物神經系統，如大腦，處理資訊的方式。
深度學習-網路能夠在無監督的情況下從非結構化或未標記的資料中學習。它教計算機通過層過濾輸入，學習如何預測和分類資訊。
歸納邏輯程式設計-使用邏輯程式設計作為統一的表示，例如，背景知識和假設。
支援向量機-分析用於分類和迴歸分析的資料。
聚類-將一組物件分組的任務，使同一組(稱為群集)中的物件彼此之間(在某種意義上)比其他組(簇)中的物件更相似(在某種意義上)。
貝葉斯網路-通過有向無環圖表示一組變數及其條件依賴關係的概率圖形模型。
強化學習-通過與環境互動來學習。
特徵學習-允許從原始資料中發現特徵檢測或分類所需的表示。
相似性和度量學習-學習度量兩個物件的相似性函式。
稀疏字典學習-旨在尋找輸入資料的稀疏表示形式的基本元素的線性組合。
遺傳演算法-一個受自然選擇過程啟發的元啟發式演算法。
基於規則的機器學習-一種資料驅動的方法，使用標記的文字語料庫和他們的情感來預測。
學習分類器系統-結合發現元件和學習元件。

7、除錯

除錯是為學習演算法選擇一組最佳超引數的問題。這是它的組成部分：

交叉驗證—一種用於評估統計分析結果如何概括為獨立資料集的技術。一輪交叉驗證涉及將資料樣本劃分為互補的子集，對一個子集(稱為訓練集)執行分析，並對另一個子集(稱為驗證集或測試集)進行分析驗證。

方法：Leave-p-out交叉驗證，Leave-one-out交叉驗證，k倍交叉驗證，Holdout方法和重複隨機取樣驗證。

超引數-一個引數，其值用於控制學習過程。相反，其他引數的值(通常是節點權重)是通過訓練得出的。可以使用以下方法對其進行優化：

1)網格搜尋。傳統方式只是簡單地窮舉搜尋學習演算法的超引數空間的手動指定子集。

2)隨機搜尋。它只是簡單地對引數設定進行取樣，發現在高維空間中，進行固定次數要比窮舉搜尋更為有效。

3)基於梯度的優化。對於特定的學習演算法，可以計算相對於超引數的梯度，然後使用梯度下降優化超引數。

正則化(提前停止)-提前停止規則可指導學習者開始過度擬合之前可以執行多少次迭代，然後停止演算法。

過度擬合。當模型學習訓練資料中的細節和噪聲時，會在一定程度上影響新資料上模型的效能，因此會發生這種情況。

欠擬合(Underfitting)。模型從訓練資料中“學習不足”的情況下，導致泛化率低和預測不可靠。

引導。它是使用替換隨機抽樣並屬於更廣泛的重取樣方法的任何測試或度量。自舉法將準確性的度量(偏差，方差，置信區間，預測誤差等)分配給樣本估計。

套袋(bagging)。它是一種整合的機器學習演算法，結合了許多決策樹的預測。

總結

以上內容基本上包含了機器學習的全部知識點，溫故而知新，學過的東西如果不回過來看一下，說不定哪天就徹底忘記了。希望以上內容能給大家提供幫助~

https://ai.51cto.com/art/202007/620173.htm

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/29829936/viewspace-2702504/，如需轉載，請註明出處，否則將追究法律責任。

機器學習和深度學習概念入門
2018-04-12
機器學習深度學習
【乾貨】機器學習和深度學習概念入門
2018-12-31
機器學習深度學習
深度學習入門必須理解這25個概念
2018-07-26
深度學習
機器學習中比較重要的幾個概念
2019-02-28
機器學習
5種常用的機器學習模型及其優缺點，都在這裡了
2020-07-03
機器學習模型
學習java多執行緒，這必須搞懂的這幾個概念
2018-05-02
Java執行緒
大資料入門學習，你要掌握這些技能
2019-03-02
大資料
關於多雲管理，所有的都在這裡了
2022-03-16
你要的介面資料都在這裡了
2018-08-17
閉包概念是掌握React.JS的關鍵 - Nitsan
2021-07-24
ReactJS
計算機視覺學習之路------你想要的都在這裡了
2020-07-26
計算機視覺
漏洞安全相關概念解釋？網路安全入門學習
2020-12-15
初入門Python學習之概念區分
2021-06-03
Python
零基礎掌握區塊鏈關鍵概念
2018-08-13
區塊鏈
.NET8 Blazor 從入門到精通：（一）關鍵概念
2024-08-02
Blazor
機器學習導圖系列（2）：概念
2019-04-08
機器學習
機器學習基本概念簡介
2024-04-15
機器學習
一圖看懂所有機器學習概念
2019-08-20
機器學習
機器學習基本概念總結
2023-01-14
機器學習
學習 VR 開發之前，這 7 個容易混淆的概念一定要理清
2021-05-10
VR
機器學習中 TP FP TN FN的概念
2022-06-23
機器學習
【機器學習】李宏毅——機器學習基本概念簡介
2022-12-14
機器學習
【機器學習】第一節 - 基本概念
2024-04-06
機器學習
關於機器學習的知識點，全在這篇文章裡了
2019-08-17
機器學習
機器學習入門 - 快速掌握邏輯迴歸模型
2019-01-15
機器學習邏輯迴歸模型
新手入門深度學習？這裡有7本必看書籍
2018-05-29
深度學習
金三銀四了，掌握 JS 這 36 個概念，助你一臂之力
2022-04-02
JS
區塊鏈相關的關鍵概念
2021-09-01
區塊鏈
Yii2 關鍵概念
2019-07-21
AOP中關鍵性概念
2020-10-11
Vue 關鍵概念介紹
2023-02-27
Vue
【趣味】0基礎快速掌握區塊鏈服務關鍵概念
2018-08-13
區塊鏈
拒做程式設計師小白？計算機關鍵概念你不得不掌握！
2021-11-10
程式設計師計算機
Fragment 相關知識點都在這裡了
2019-03-25
Fragment
理解Oracle WebLogic伺服器的關鍵概念（三）ZX
2022-03-21
OracleWeb伺服器
理解Oracle WebLogic伺服器的關鍵概念（二）KJ
2022-03-21
OracleWeb伺服器
理解Oracle WebLogic伺服器的關鍵概念（一）XB
2022-03-21
OracleWeb伺服器
[譯] 理解 Apache Airflow 的關鍵概念
2018-08-21
ApacheAI

7大分類，40多個關鍵概念，入門機器學習要掌握的概念都在這裡了

機器學習概念

總結

相關文章