大多數人學習資料科學,會把重點放在程式設計。然而,想要真正精通資料科學(和機器學習),就不能忽視資料科學背後的數學基礎。在這篇文章中,我將介紹在學習資料科學數學基礎方面過程中常用的七本書。用“享受”來描述這種感受似乎也不為過。
那麼,你為什麼要努力學習資料科學的數學基礎呢?
以下是我的一些理由:
人工智慧日新月異。GeoffreyHinton認為我們應該重新考慮反向傳播。而理解數學會幫助我們更好地理解人工智慧的進化。它將幫助我們區別於那些只從表面思考人工智慧的人。它將幫助我們更好地看到智慧財產權的潛力。而且,理解資料科學背後的數學知識也可以幫助我們在人工智慧和資料科學方面的取得豐厚的回報。
當然,我使用這些書也有其他目的。
1.首先,這些書已經成為我在牛津大學物聯網課程的教學過程中的一部分,同時也包括了我在人工智慧應用教學所要用的基本數學方法。
2.第二,我正在寫一本書,它將從數學的角度為14到18歲的孩子進行簡單的人工智慧描述。在這本書中講到,想要理解資料科學和人工智慧的數學基礎,你需要知道四件事。即線性代數、機率論、多元微積分和最最佳化。這些課程大部分(至少部分)是在高中教授的。因此,可以試圖把高中數學與人工智慧和資料科學聯絡起來,把重點放在數學建模上。
1. 統計學習理論的本質 作者:Vladimir Vapnik.
你如果想做一個關於數學書籍的清單,那麼一定不能避開偉大的俄羅斯數學家!因此,我的第一本推薦書目是弗拉基米爾·瓦普尼克的“統計學習理論的本質”。在我推薦的所有書目中,瓦普尼克是最難找到的。我有一個較舊的印度版。弗拉基米爾·瓦普尼克(Vladimir Vapnik)是支援向量機(SVM)的創始人。你可以在他的維基百科網頁檢視更多關於他的內容。
2. 模式分類(2007-12-24) 作者:理查德·奧杜達(Richard O Duda)
和Vapnik博士的書一樣,Duda也是另一個時代的經典。第一次出版於1973。25年後(即2000年)又進行了一次更新。這本書是重要的文獻材料。它採取模式識別的方法,提供了廣泛的演算法覆蓋。
3. 機器學習:演算法視角,第二版(Chapman&Hall/CRC機器學習和模式識別) 作者:斯蒂芬·馬斯蘭(Stephen Marsland)
%252BctL&preST=_SY291_BO1,204,203,200_QL40_&dpSrc=srch
斯蒂芬·馬斯蘭的書現在已經出版了第二版。馬斯蘭是我讀過的最早的書之一(我現在只有第一版)。新舊兩版都很好。我認為第二版在Python中有很多編碼。和前兩本書一樣,這本書也非常強調演算法。
4. 統計學習的要素:資料探勘,推理和預測(第二版)作者:Trevor Hastie,Robert Tibshiani,Jerome Friedman
哈斯蒂是另一個經典。我的這本書是彩色的。這是我所說的另一本參考書。
5. 模式識別與機器學習(資訊科學與統計) 作者:克里斯托弗·M·畢曉普
模式識別和機器學習(資訊科學和統計)(克里斯托弗M.畢曉普)也是一本極具深度的參考書。
6. 機器學習:關於資料意義的演算法的藝術和科學 作者:彼得·弗拉赫
即便一些亞馬遜評論稱它冗長,並指出缺乏程式碼,我也依舊喜歡PeterFlach的書。我特別喜歡Flach演算法的分組(邏輯模型、線性模型、機率模型)和主題的總體處理。
最後是我力薦的書:
7. 深度學習 作者,古德費羅、本吉奧和科維爾
如果有本書,你非讀不可。那一定是它了。詳細又極具現代視野,涵蓋了你所能想到的一切。
(下面是兩個有價值的補充)
機器學習第一課,第二版(機器學習與模式識別),作者是西蒙·羅傑斯,馬克·吉羅拉米。這是我率先得到的一本書(第一版)。我不推薦初學者看它,但它的確是一本很好的書(尤指第二版)。
機器學習:從凱文·墨菲的機率視角。這本書評價很高--但我沒有親自看過(因此不在名單上)。
如果你有其他更好的推薦,請告訴我。
總結:
除了古德費爾德-本吉奧的書外,我不建議你都認認真真的仔細看完。我喜歡閱讀有主題的這些書,把它們當做參考書。我還喜歡來自不同作者的例子,如用魚類做分類的前杜達;哈斯蒂用廣告資料來賣電視和收音機;弗拉赫假設空間概念和海洋動物的例子等。
我發現這些書教會了我一個道理,就是保持謙卑。你所知道的永遠是這廣闊世界的一小部分。
經典書目永不朽。弗拉基米爾·瓦普尼克(Vladimir Vapnik)今年81歲。杜達的書於1973首次出版。我預計即便50年後,這些書也不會過時。就像那些經得起時間考驗的老朋友。這是個令人欣慰的想法。它顯示了基礎數學的壽命。