圖文並茂，700 頁的機器學習筆記火了！值得學習

計算機視覺聯盟發表於2020-06-15

原文網址 : https://www.cnblogs.com/CVLianMeng/p/13138405.html

機器學習筆記

最近在學習機器學習，看到了這份筆記，介紹的非常詳細，記錄一下作為學習。

作者

樑勁（Jim Liang），來自 SAP （全球第一大商業軟體公司）。

書籍特點

條理清晰，含影像化表示更加易懂，對公式有詳細的註解等。

內容概要

主要分為基本概念、常用演算法和其他三部分。

為什麼會這樣？

首當其衝就是數學，涉及統計學、微積分、概率、線性代數等，大家雖然都學過高等數學，但如果你還記得裡面的細節，算你牛。更可能的情況是，多數人都對高等數學忘記了，面對各種演算法裡的大量公式，感到厭惡，甚至恐懼。
其次因為機器學習本身是一個綜合性學科，而且是一個快速發展的學科，知識點散亂，缺乏系統性。
市面上的機器學習/深度學習書籍、文章、教程，遍地開花，但能以清晰的方式表達、循序漸進地講解的教程，其實不多，大量的教程沒有考慮到學習者的基礎，使得初學者感到挫敗和困惑。
正是對機器學習的過程中的痛苦有切身體會，作者Jim Liang希望能做一份教程，以淺顯易懂的方式去講解它，降低大家的學習門檻。為此花費了數月時間，經常做到深夜，把自己的學習筆記整理成了這份教程。

Part 1 介紹了基本概念，包括：
機器學習的流程
資料處理
建模
評估指標（如 MSE、ROC 曲線）
模型部署
過度擬合
正則化等

在第一部分，作者先介紹瞭如今應用普遍的機器學習：從自動駕駛、語音助手到機器人。其中有些思想，也是眾多讀者們瞭解過的，例如：為何機器學習在這個時候會火（大資料、計算力、更好的演算法）；機器學習、人工智慧、深度學習三者的關係等。

除了這些基礎概念，這份教程也對機器學習模型的開發流程做了影像化展示（如下圖），即使對此不太瞭解的讀者，也能通過這種流程展示有所學習。

機器學習700頁筆記電子版：

公眾號【計算機視覺聯盟】後臺回覆：9001，即可獲取電子版

在Part2，作者介紹了常用的演算法，包括：

線性迴歸
邏輯迴歸
神經網路
SVM
Knn
K-Means
決策樹
隨機森林
AdaBoost
樸素貝葉斯
梯度下降
主成分分析

這部分包含了大量的數學公式，但作者盡力註解了其中的每個公式，從而充分、清晰地表達了眾多數學概念。

例如在「神經網路」部分，作者整理了 59 頁的筆記（從 311 頁到 369 頁）。作者從人腦中的神經元架構說起，介紹了人工神經網路（ANN）、人工神經元工作的原理。這份筆記非常注重影像化的概念解釋，理解起來非常直觀。

例如，下圖中的概念解釋很形象地展現了生物神經元和人工神經元工作方式的相似性。

生物神經元的樹突輸入-軸突輸出模式和人工神經元的輸入輸出模式對比。
$外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片儲存下來直接上傳(img-ExXCMkCs-1592231527015)(https://uploader.shimo.im/f/DhflDdTmrT7nE2mr.png!thumbnail)$

過擬合的解釋

在涉及到數學公式時，作者會在旁邊有詳細的註解，如下圖所示：

對於並列的可選項（如啟用函式、常用神經網路架構等），也會有全面的列表：
$外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片儲存下來直接上傳(img-LaMDyVK7-1592231527016)(https://uploader.shimo.im/f/Q7ZAFM2cmuej3BiQ.png!thumbnail)$
對於神經網路中較為複雜的概念（如求導、反向傳播），幾張圖就能解釋清楚：
$外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片儲存下來直接上傳(img-b2igwvkh-1592231527017)(https://uploader.shimo.im/f/ijT4By5EFcr4aa4T.png!thumbnail)$