周志華《機器學習》西瓜書精煉版筆記來了!16 章完整版

红色石头發表於2019-09-28

西瓜書《機器學習》無疑是機器學習的必讀書籍。本書作為該領域的入門教材,在內容上儘可能涵蓋機器學習基礎知識的各方面。 為了使盡可能多的讀者透過本書對機器學習有所瞭解, 作者試圖儘可能少地使用數學知識. 然而, 少量的機率、統計、代數、最佳化、邏輯知識似乎不可避免。

對於這本書,我是非常推薦的。但是對於很多初學者或者數學基礎不是特別紮實的同學們來說,想要完整、清晰地弄懂這本書其實並不容易。因此,一份優秀的筆記對於我們學習本書來說,幫助很大。

今天就給大家推薦一個西瓜書《機器學習》的精煉版筆記。作者 Vay-keen 來自深圳大學,將自己整理的完整版筆記釋出在了 GitHub 上。直接放出筆記地址:

https://link.zhihu.com/?target=https%3A//github.com/Vay-keen/Machine-learning-learning-notes

對於這份筆記,作者這樣說:

周志華《機器學習》又稱西瓜書是一本較為全面的書籍,書中詳細介紹了機器學習領域不同型別的演算法(例如:監督學習、無監督學習、半監督學習、強化學習、整合降維、特徵選擇等),記錄了本人在學習過程中的理解思路與擴充套件知識點,希望對新人閱讀西瓜書有所幫助!

筆記目錄

這份筆記總共包含 17 份 .md 文件,優勢在於美分文件集合了圖片和公式,清晰明瞭。這 17 份文件涵蓋了西瓜書 16 章的完整內容。具體筆記目錄如下:

  • 緒論
  • 效能度量
  • 假設檢驗&方差&偏差
  • 線性模型
  • 決策樹
  • 神經網路
  • 支援向量機
  • 貝葉斯分類器
  • EM 演算法
  • 整合學習
  • 聚類
  • 降維與度量學習
  • 特徵選擇與稀疏學習
  • 計算學習理論
  • 半監督學習
  • 機率圖模型
  • 強化學習

筆記內容

下面,我們將摘錄一些筆記的內容,供大家參考。

1. 線性迴歸

迴歸就是透過輸入的屬性值得到一個預測值,利用上述廣義線性模型的特徵,是否可以透過一個聯絡函式,將預測值轉化為離散值從而進行分類呢?線性機率迴歸正是研究這樣的問題。對數機率引入了一個對數機率函式(logistic function),將預測值投影到0-1之間,從而將線性迴歸問題轉化為二分類問題。

2. 神經網路

在機器學習中,神經網路一般指的是“神經網路學習”,是機器學習與神經網路兩個學科的交叉部分。所謂神經網路,目前用得最廣泛的一個定義是“神經網路是由具有適應性的簡單單元組成的廣泛並行互連的網路,它的組織能夠模擬生物神經系統對真實世界物體所做出的互動反應”。

一直沿用至今的“M-P神經元模型”正是對這一結構進行了抽象,也稱“閾值邏輯單元“,其中樹突對應於輸入部分,每個神經元收到n個其他神經元傳遞過來的輸入訊號,這些訊號透過帶權重的連線傳遞給細胞體,這些權重又稱為連線權(connection weight)。細胞體分為兩部分,前一部分計算總輸入值(即輸入訊號的加權和,或者說累積電平),後一部分先計算總輸入值與該神經元閾值的差值,然後透過啟用函式(activation function)的處理,產生輸出從軸突傳送給其它神經元。M-P神經元模型如下圖所示:

作者還給出了 BP 神經網路演算法調整隱含層到輸出層的權重調整規則的推導過程:

3. 支援向量機

支援向量機是一種經典的二分類模型,基本模型定義為特徵空間中最大間隔的線性分類器,其學習的最佳化目標便是間隔最大化,因此支援向量機本身可以轉化為一個凸二次規劃求解的問題。

4. 整合學習

顧名思義,整合學習(ensemble learning)指的是將多個學習器進行有效地結合,組建一個“學習器委員會”,其中每個學習器擔任委員會成員並行使投票表決權,使得委員會最後的決定更能夠四方造福普度眾生~…~,即其泛化效能要能優於其中任何一個學習器。

Boosting族演算法最著名、使用最為廣泛的就是AdaBoost,AdaBoost使用的是指數損失函式,因此AdaBoost的權值與樣本分佈的更新都是圍繞著最小化指數損失函式進行的。

整個AdaBoost的演算法流程如下所示:

以上只摘錄了一小段筆記內容,完整的筆記請大家自行查閱,希望對你有所幫助。

最後,再次放上西瓜書開源筆記連結地址:

https://link.zhihu.com/?target=https%3A//github.com/Vay-keen/Machine-learning-learning-notes


相關文章