機器學習
概念:
機器學習是一門人工智慧的科學,該領域的主要研究物件是人工智慧,特別是如何在經驗學習中改善具體演算法的效能。
機器學習是對能通過經驗自動改進的計算機演算法的研究。
機器學習是用資料或以往的經驗,以此優化計算機程式的效能標準。
(官方語言來自維基百科)
簡單理解就是通過讓機器學習相關演算法,擁有預測的能力,然後做出相關操作。機器學習的本質就是通過給機器資料,讓機器在資料中尋找相關關係
簡單的理解人工智慧包括了機器學習演算法、搜尋演算法等,深度學習又是機器學習的一種延伸。
資料
資料集:一種由資料所組成的集合,一般資料含有集有特徵與標籤,每一行的資料表示為一個樣本,每一列的資料(除最後一列外)表示為一個特徵,最後一列的資料表示為標籤。在具體的演算法中資料集包括訓練集與測試集。利用資料集視覺化可以生產特徵空間,根據特徵的維度可以生產高維的特徵空間。
流程
通用流程:
學習資料–>機器學習演算法–>模型–>輸入樣例–>輸出結果
預測結果
分類
分類、迴歸
- 根據機器學習的流程來選擇兩類任務
- 分類:當希望機器學習可以預測類別的時候
- 常見的分類方式:二分類、多分類
- 迴歸:希望機器學習可以預測連續數字的值
- 可以將回歸任務簡化為分類任務
- 分類:當希望機器學習可以預測類別的時候
有無監督
監督學習、非監督學習、半監督學習、增強學習
監督學習:給機器的訓練資料擁有標記
- 常見的監督學習:K近鄰(KNN)、線性迴歸、多項式迴歸、邏輯迴歸、SVM、決策樹、隨機森林
非監督學習:給機器的訓練資料沒有任何“標記”
- 常見的非監督學習:聚類分析、對資料進行降維處理,資料集的特徵提取提取
半監督學習:給機器的訓練資料一部分資料有標記,另一部分沒有
- 造成資料缺失的原因:各種原因產生的樣本或者標記缺失
- 半監督學習在平時比較常見,大多都需要我們在處理資料,再交給機器進行學習
增強學習:根據週五的環境採取行動,根據採取行動的結果,學習行動方式
- 以監督學習和半監督學習為基礎
學習環境
批量學習、線上學習
批量學習:在訓練模型時,一次性的把所有樣本全部輸入
優點:簡單,寫好一個演算法就不更改與完善
缺點:不能適應環境的變化、想適應變化需要重新批量學習
線上學習:在訓練模型時,每輸入一個樣本都會計算下誤差,調整一下引數
優點:及時反映新的環境變化
缺點:新的資料可能帶來的不良變化
學習方式
引數學習、非引數學習
引數學習:基於資料,假設關係,找到關係引數
- 特點:通過資料集學習,學習到引數,當學習到引數時,就不再需要原有資料集
非引數學習:不對模型進行過多假設
- 注意:非引數不等於沒引數
本作品採用《CC 協議》,轉載必須註明作者和本文連結