7大分類,40多個關鍵概念,入門機器學習要掌握的概念都在這裡了

dicksonjyl560101發表於2020-07-05

不知道大家有沒有這樣的感覺:在我們學習的時候,經常學了就忘,忘了再學,彷佛進入了死迴圈。明明都學了,結果就是記不住。有時候都想往自己的腦袋裡植入一個儲存器,想學什麼就往腦子裡複製,這樣多好。



機器學習就是這樣一個例子。很多時候,我們在學習過程中迷失了方向,從而失去了繼續學習的動力。許多概念需要系統化。但是今天,我想為大家介紹機器學習的所有概念,這些概念將有助於你更快地瞭解這個領域。這篇文章將適合那些剛剛入門並且已經在實踐中開始使用機器學習的人。


概述:

  1. 動機
  2. 分類
  3. 問題型別
  4. 效能分析
  5. 演算法
  6. 除錯


廢話不多說,讓我們直接開始吧!


機器學習概念

這些概念中的每一個都會引出其他更小的衍生概念。在這裡,我會為每一個術語給出最短和最簡單的定義:

1、動機

動機對於機器學習來說很重要,因為它形成了模型與資料進行比較的過程。機器學習的動機有兩種方法:

  • 預測。非線性模型認為,海帶的預測變數可以作為判別結果的輸入,但不是每種方式的輸入都會影響預測。例如,以預測為導向的觀點最適合回答這樣一個問題:我的車是被高估還是低估了?如果對此應用推論,模型的可解釋性將大大降低。
  • 推斷。線性模型來區分影響預測的每個輸入的方式。例如,它會給你一個精確的答案:如果我的車能在沒有車頂的情況下行駛,它會花多少錢?通過比較模型的預測結果,推斷比非線性預測更容易理解。

2、分類

與其他方法一樣,訓練機器學習演算法的方法也各不相同,而且各有優缺點:

  • 監督學習。任務驅動型方法,在這個過程中,計算機由“老師”提供示例輸入及其期望的輸出,目標是學習將輸入對映到輸出的一般規則。
  • 無監督學習。資料驅動型方法,目標是通過對資料中的底層結構或分佈進行建模來了解更多有關資料的資訊。它可以是兩種型別:發現資料中隱藏的模式,也可以是達到目的的方法(特徵學習)。
  • 強化學習。此類別基於從錯誤中學習,該錯誤使用獎勵和懲罰系統訓練演算法。

3、問題型別

如果要深入研究機器學習類別,還有五種其他型別的問題:

  • 迴歸。我們需要預測連續響應值的監督問題。迴歸擬合資料並給出對映的所有特徵點的答案,如果預測值趨向於一個連續的值,那麼它就會下降。例如:給出區域名稱、土地面積等作為特徵,並預測土地的預期成本。
  • 分類。監督問題,其主要目的是分離資料。如果預測值趨向於是/否、正/負等類別,那麼它就屬於機器學習中的分類問題。例如,給定一個句子來預測它是否定的還是正面的。
  • 叢集。無監督問題,我們將相似的事物組合到一個給定數量的簇中。對於這些分數,我們不會給出答案。示例:給定3、4、8、9,並且簇的數目為2,那麼機器學習系統可以將給定的集合分成簇1–3,4和簇2–8,9。
  • 密度估計。它是在觀測資料的基礎上,對一個不可觀測的潛在概率密度函式的估計。查詢輸入在某個空間中的分佈。
  • 降維。通過將輸入對映到低維空間來簡化輸入。

4、類

機器學習演算法可分為引數或非引數:

  • 引數化-有固定數量的引數,分兩步完成:

第一步:假設我們的函式(f)的函式形式或形狀,即:f是線性的,因此我們將選擇一個線性模型。

第二步:選擇一個程式來適應或訓練我們的模型。這意味著估計線性函式中的β引數。一種常見的方法是(普通)最小二乘法。

  • 非引數化-使用靈活數量的引數,引數的數量通常隨著它從更多資料中學習而增長。由於這些方法並不能將f的估計問題簡化為少量的引數,因此需要大量的觀測資料來獲得f的精確估計。例如薄板樣條模型。

5、效能分析

演算法的效能分析是計算該演算法所需的空間和時間的過程。演算法的效能分析採用以下措施:

  • 混淆矩陣-通常用於描述分類模型(或“分類器”)在已知真實值的一組測試資料上的效能的表。
  • 準確度。正確預測的一部分,當資料集不平衡時(即不同類別中的樣本數量變化很大)不可靠
  • f1分數-測試準確性的另一個衡量標準,其計算依據是:1)精度-在分類器標記為陽性的所有示例中,哪個分數是正確的?2) 回憶一下。在所有的正面例子中,分類器提取了什麼分數?
  • ROC曲線-接收器工作特性。真陽性率(回憶/敏感性)vs假陽性率(1-特異性)
  • 偏差-方差權衡-一組預測模型的特性,其中引數估計偏差較低的模型在樣本間的引數估計方差較高,反之亦然。
  • 均方誤差(MSE)-測量誤差或偏差平方的平均值-即估計值與估計值之間的差值。
  • 錯誤率。在分類環境下,應用估計模型的錯誤率函式是訓練觀測值的函式。

6、演算法

機器學習真正有趣的部分來了!以下內容能夠幫助你如何將機器學習付諸實踐:

  • 決策樹學習-通過一種演算法方法來構建,該方法根據不同的條件識別資料集的分割方法。
  • 關聯規則學習-一種基於規則的機器學習和資料探勘技術,可以發現資料集中變數或特徵之間的重要關係。
  • 人工神經網路-一種資訊處理模型,其靈感來源於生物神經系統,如大腦,處理資訊的方式。
  • 深度學習-網路能夠在無監督的情況下從非結構化或未標記的資料中學習。它教計算機通過層過濾輸入,學習如何預測和分類資訊。
  • 歸納邏輯程式設計-使用邏輯程式設計作為統一的表示,例如,背景知識和假設。
  • 支援向量機-分析用於分類和迴歸分析的資料。
  • 聚類-將一組物件分組的任務,使同一組(稱為群集)中的物件彼此之間(在某種意義上)比其他組(簇)中的物件更相似(在某種意義上)。
  • 貝葉斯網路-通過有向無環圖表示一組變數及其條件依賴關係的概率圖形模型。
  • 強化學習-通過與環境互動來學習。
  • 特徵學習-允許從原始資料中發現特徵檢測或分類所需的表示。
  • 相似性和度量學習-學習度量兩個物件的相似性函式。
  • 稀疏字典學習-旨在尋找輸入資料的稀疏表示形式的基本元素的線性組合。
  • 遺傳演算法-一個受自然選擇過程啟發的元啟發式演算法。
  • 基於規則的機器學習-一種資料驅動的方法,使用標記的文字語料庫和他們的情感來預測。
  • 學習分類器系統-結合發現元件和學習元件。

7、除錯

除錯是為學習演算法選擇一組最佳超引數的問題。這是它的組成部分:

交叉驗證—一種用於評估統計分析結果如何概括為獨立資料集的技術。一輪交叉驗證涉及將資料樣本劃分為互補的子集,對一個子集(稱為訓練集)執行分析,並對另一個子集(稱為驗證集或測試集)進行分析驗證。

方法:Leave-p-out交叉驗證,Leave-one-out交叉驗證,k倍交叉驗證,Holdout方法和重複隨機取樣驗證。

超引數-一個引數,其值用於控制學習過程。相反,其他引數的值(通常是節點權重)是通過訓練得出的。可以使用以下方法對其進行優化:

1)網格搜尋。傳統方式只是簡單地窮舉搜尋學習演算法的超引數空間的手動指定子集。

2)隨機搜尋。它只是簡單地對引數設定進行取樣,發現在高維空間中,進行固定次數要比窮舉搜尋更為有效。

3)基於梯度的優化。對於特定的學習演算法,可以計算相對於超引數的梯度,然後使用梯度下降優化超引數。

正則化(提前停止)-提前停止規則可指導學習者開始過度擬合之前可以執行多少次迭代,然後停止演算法。

過度擬合。當模型學習訓練資料中的細節和噪聲時,會在一定程度上影響新資料上模型的效能,因此會發生這種情況。

欠擬合(Underfitting)。模型從訓練資料中“學習不足”的情況下,導致泛化率低和預測不可靠。

引導。它是使用替換隨機抽樣並屬於更廣泛的重取樣方法的任何測試或度量。自舉法將準確性的度量(偏差,方差,置信區間,預測誤差等)分配給樣本估計。

套袋(bagging)。它是一種整合的機器學習演算法,結合了許多決策樹的預測。



總結

以上內容基本上包含了機器學習的全部知識點,溫故而知新,學過的東西如果不回過來看一下,說不定哪天就徹底忘記了。希望以上內容能給大家提供幫助~



https://ai.51cto.com/art/202007/620173.htm




來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2702504/,如需轉載,請註明出處,否則將追究法律責任。

相關文章