機器學習學習筆記

SilenceHL發表於2021-06-01

機器學習

概念:

  • 機器學習是一門人工智慧的科學,該領域的主要研究物件是人工智慧,特別是如何在經驗學習中改善具體演算法的效能。

  • 機器學習是對能通過經驗自動改進的計算機演算法的研究。

  • 機器學習是用資料或以往的經驗,以此優化計算機程式的效能標準。

(官方語言來自維基百科)

簡單理解就是通過讓機器學習相關演算法,擁有預測的能力,然後做出相關操作。機器學習的本質就是通過給機器資料,讓機器在資料中尋找相關關係

簡單的理解人工智慧包括了機器學習演算法、搜尋演算法等,深度學習又是機器學習的一種延伸。

資料

資料集:一種由資料所組成的集合,一般資料含有集有特徵與標籤,每一行的資料表示為一個樣本,每一列的資料(除最後一列外)表示為一個特徵,最後一列的資料表示為標籤。在具體的演算法中資料集包括訓練集與測試集。利用資料集視覺化可以生產特徵空間,根據特徵的維度可以生產高維的特徵空間。

流程

通用流程:

學習資料–>機器學習演算法–>模型–>輸入樣例–>輸出結果

預測結果

分類

分類、迴歸
  • 根據機器學習的流程來選擇兩類任務
    • 分類:當希望機器學習可以預測類別的時候
      • 常見的分類方式:二分類、多分類
    • 迴歸:希望機器學習可以預測連續數字的值
      • 可以將回歸任務簡化為分類任務
有無監督

監督學習、非監督學習、半監督學習、增強學習

  • 監督學習:給機器的訓練資料擁有標記

    • 常見的監督學習:K近鄰(KNN)、線性迴歸、多項式迴歸、邏輯迴歸、SVM、決策樹、隨機森林
  • 非監督學習:給機器的訓練資料沒有任何“標記”

    • 常見的非監督學習:聚類分析、對資料進行降維處理,資料集的特徵提取提取
  • 半監督學習:給機器的訓練資料一部分資料有標記,另一部分沒有

    • 造成資料缺失的原因:各種原因產生的樣本或者標記缺失
    • 半監督學習在平時比較常見,大多都需要我們在處理資料,再交給機器進行學習
  • 增強學習:根據週五的環境採取行動,根據採取行動的結果,學習行動方式

    • 以監督學習和半監督學習為基礎
學習環境

批量學習、線上學習

  • 批量學習:在訓練模型時,一次性的把所有樣本全部輸入

    • 優點:簡單,寫好一個演算法就不更改與完善

    • 缺點:不能適應環境的變化、想適應變化需要重新批量學習

  • 線上學習:在訓練模型時,每輸入一個樣本都會計算下誤差,調整一下引數

    • 優點:及時反映新的環境變化

    • 缺點:新的資料可能帶來的不良變化

學習方式

引數學習、非引數學習

  • 引數學習:基於資料,假設關係,找到關係引數

    • 特點:通過資料集學習,學習到引數,當學習到引數時,就不再需要原有資料集
  • 非引數學習:不對模型進行過多假設

    • 注意:非引數不等於沒引數
本作品採用《CC 協議》,轉載必須註明作者和本文連結

相關文章