李航是日本東京大學電腦科學博士,曾任微軟亞洲研究院高階研究員及主任研究員、華為諾亞方舟實驗室首席科學家,現任位元組跳動人工智慧實驗室總監。他的研究方向包括資訊檢索、自然語言處理、統計機器學習及資料探勘等。
《統計學習方法》(第 2 版)全面系統地介紹了統計學習的主要方法,分為監督學習和無監督學習兩篇。第一篇介紹了感知機、樸素貝葉斯法、決策樹、支援向量機、提升方法、EM 演算法、隱馬爾可夫模型和條件隨機場等演算法,都是非常經典的監督學習方法。第二篇主要討論了聚類方法、奇異值分解、主成分分析、潛在語義分析、馬爾可夫鏈蒙特卡羅法和潛在狄利克雷分配等演算法,都是非常經典的無監督學習方法。
除有關統計學習、監督學習和無監督學習的概論和總結的四章外,每章介紹一種方法。敘述力求從具體問題或例項入手,由淺入深,闡明思路,給出必要的數學推導,便於讀者掌握統計學習方法的實質,學會運用。為滿足讀者進一步學習的需要,書中還介紹了一些相關研究,給出了少量習題。
作為最好的機器學習教材之一,《統計學習方法》成為國內很多高校機器學習相關專業的理想教材,清華大學便是其中之一。袁春教授在清華大學主要講授「計算機視覺」、「大資料機器學習」等課程,《統計學習方法》被選為「大資料機器學習」課程的主要教材,課件也圍繞本書展開。
課件內容總覽
課件下載連結:https://pan.baidu.com/s/1HUw0MeBD-1LP-r441oykhw
課件總共 22 章,與書籍目錄分別對應,前 12 章為監督學習部分,對比第 1 版在監督學習方法上進行了一些修改,但出入不大。13 章-22 章為新增的無監督學習部分,這裡將做更詳細的內容介紹。
第一章的課件主要對機器學習的概念、學術資源、發展歷程、期刊會議等基礎知識進行了總體概括,並指出了機器學習和統計學習之間的關聯與差異,介紹了統計學習道路上的一些基礎知識,包括方法分類、模型、策略、演算法等。
除此之外,第 2 章直到第 13 章以前的內容,與上一版內容基本一致,此處僅介紹課件標題,內容詳情可透過連結下載檢視。
從第 13 章開始,就是《統計學習方法》第 2 版中新增的無監督學習部分,讀過的人都說好。
第 13 章是無監督學習概論,介紹了無監督學習的基本原理和基本問題,以及無監督學習的三要素和學習方法,有著提綱契領的作用,一些重點內容在後面還會有單獨的課件講述。
第 14 章是聚類方法,講了「什麼是聚類」、「相似度或距離」、「類或簇」、「類與類之間的距離」、「層次聚類」等等與「類」各種相關的知識。
第 15 章講的是奇異值分解,從定義開始,大概花了 20 頁來講解奇異值分解基本定理,之後還有奇異值分解的計算、矩陣的最優近似、矩陣的外積展開式等等。
第 16 章是主成分分析,是一種常用的無監督學習方法,也是一種數學上用來的降維的常用方法,主要用於發現資料中的基本結構,即資料中變數之間的關係。
第 17 章是潛在語義分析,這種分析方法主要透過矩陣分解,發現文字與單詞之間的基於話題的語義關係。該方法常用於文字的話題分析。這一章課件對單詞向量空間、話題向量空間以及發現文字與單詞之間的基於話題的語義關係等概念和方法進行了詳細的介紹。
第 18 章介紹了機率潛在語義分析,這是一種利用機率生成模 型對文字集合進行話題分析的無監督學習方法。課件重點討論了生成模型、共現模型、模型引數、模型的幾何解釋、機率潛在語義分析與潛在語義分析的關係等內容。
第 19 章是馬爾可夫鏈蒙特卡羅法,按照蒙特卡羅法→馬爾可夫鏈→馬爾可夫鏈蒙特卡羅法的順序循序漸進地講解了馬爾可夫鏈蒙特卡羅法,此外還包括 Metropolis-Hastings 演算法(最基本的馬爾可夫鏈蒙特卡羅法)、吉布斯取樣(更簡單、使用更廣泛的馬爾可夫鏈蒙特卡羅法)等方面的詳細內容。
第 20 章介紹了潛在狄利克雷分配(LDA),包括狄利克雷分佈、潛在狄利克雷分配模型、LDA 的變分 EM 演算法等內容,內容非常詳盡,PPT 超過 100 頁。
第 21 章介紹了 PageRank 演算法,包括該演算法的基本定義、一般定義、計算方法(迭代演算法、冪法、代數演算法)等。
課件的最後一章總結了常見的無監督學習方法以及各種方法之間的關係。
除了這份課件之外,機器之心此前還報導過這本書第一版的程式碼實現專案。專案作者在 GitHub 網站蒐集了一些程式碼進行整理,並做了一定的修改,使用 Python3.6 實現了第 1-13 章的課程程式碼。目前,該專案在 GitHub 上的 star 量已經超過 7800,感興趣的讀者可以參考。
專案地址:https://github.com/fengdu78/lihang-code