作者:Vamei 出處:http://www.cnblogs.com/vamei 歡迎轉載,也請保留這段宣告。謝謝!
資料科學最近成為計算機的熱門領域。資料科學是利用計算機的運算能力對資料進行處理,從資料中提取資訊,進而形成“知識”。它已經影響了計算機視覺、訊號處理、自然語言識別等計算機分支。資料科學已經在IT、金融、醫學、自動駕駛等領域得到廣泛使用。(如果你熟知中情局的稜鏡洩密事件,你會發現資料科學已經在情報領域廣泛使用。)
在這系列文章中,我希望能完成從概率論,統計,到機器學習的整個資料分析的鏈條。傳統意義上的資料處理是用統計方法實現的,而概率論是統計的基礎。隨著計算機處理能力的增強,一些需要大量運算的資料分析方法得到快速發展。機器學習實際上是一個混合體,包括一些在計算機領域中發展的演算法,也包括一些傳統統計中已經存在,但受限於計算能力的統計方法。另一方面,從資料中提煉知識是機器學習的主要目的,這與統計推斷密切相關。因此,從傳統的概率和統計出發,更容易理解機器學習的內涵。
當然,這樣做的困難之處是要覆蓋許多內容。嚴格的敘述有時會顯得比較無聊。我會盡力引入實用的程式設計例子,以便能形成更好的觸覺。程式設計工具會以Python語言為主,配以第三方的包,如Numpy, Scipy, Matplotlib, scikit-learn。統計和機器學習同樣可以在其他語言中實現,比如Matlab和R語言。如果你熟悉相應的工具,不難寫出類似功能的程式碼。
概率論
統計基礎
引數估計
區間估計
假設檢驗
線性迴歸
ANOVA
無參估計
貝葉斯方法
多變數資料
PCA分析
時序分析
機器學習
聚類演算法
神經網路
馬科夫鏈
繪圖工具
1) matplotlib:
參考書籍
見豆列