資料科學

solution發表於2021-09-09

資料科學最近成為計算機的熱門領域。資料科學是利用計算機的運算能力對資料進行處理,從資料中提取資訊,進而形成“知識”。它已經影響了計算機視覺、訊號處理、自然語言識別等計算機分支。資料科學已經在IT、金融、醫學、自動駕駛等領域得到廣泛使用。(如果你熟知中情局的稜鏡洩密事件,你會發現資料科學已經在情報領域廣泛使用。)

 

在這系列文章中,我希望能完成從機率論,統計,到機器學習的整個資料分析的鏈條。傳統意義上的資料處理是用統計方法實現的,而機率論是統計的基礎。隨著計算機處理能力的增強,一些需要大量運算的資料分析方法得到快速發展。機器學習實際上是一個混合體,包括一些在計算機領域中發展的演算法,也包括一些傳統統計中已經存在,但受限於計算能力的統計方法。另一方面,從資料中提煉知識是機器學習的主要目的,這與統計推斷密切相關。因此,從傳統的機率和統計出發,更容易理解機器學習的內涵。

當然,這樣做的困難之處是要覆蓋許多內容。嚴格的敘述有時會顯得比較無聊。我會盡力引入實用的程式設計例子,以便能形成更好的觸覺。程式設計工具會以Python語言為主,配以第三方的包,如Numpy, Scipy, Matplotlib, scikit-learn。統計和機器學習同樣可以在其他語言中實現,比如Matlab和。如果你熟悉相應的工具,不難寫出類似功能的程式碼。

 

機率論

機率概述

計數

機率公理

條件機率

隨機變數

離散分佈

連續分佈

聯合分佈

隨機變數的函式

期望

方差與標準差

協方差與相關係數

矩與矩生成函式

中心極限定律

數學與程式設計:“機率論”總結

 

統計基礎

統計概述

資料描述

 

引數估計

區間估計

假設檢驗

線性迴歸

ANOVA

無參估計

貝葉斯方法

 

多變數資料

線性代數01 線性的大腦

PCA分析

 

時序分析

訊號與頻譜

 

機器學習

聚類演算法

神經網路

馬科夫鏈

 

繪圖工具

1) matplotlib:

matplotlib核心剖析 

 

參考書籍

見豆列

 

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/2459/viewspace-2811650/,如需轉載,請註明出處,否則將追究法律責任。

相關文章