data cleaning(資料清洗) 課程筆記

JUAN425發表於2014-08-11

使用機器學習(ML), data mining 對資料進行分析之前, 需要使用大量的資料預處理工作。 因為沒有乾淨的資料, 很難對資料進行更進一步的分析。 

在這本課程中, 主要cover 如下幾個內容:

(1)如何獲取原始資料(raw data)

(2) 如何將這些具有噪聲的raw data 變得更加的tidy, 以便為我們進一步的分析做準備。 有哪些data cleaning(資料清理的技術)

(3)使用工具R, 完成一些任務


Q: 在進行資料分析前, 我們希望的資料是什麼樣子的呢?

我們希望我們的資料如下圖excel所示:

formated data:

(1)每一個行(row)是一個record

(2)每一列(column)代表一個variable。


這也是我們運用資料清洗等資料預處理技術之後, 希望產生的效果。但是我們實際中獲取到的raw data 是千奇百怪的, 充滿噪聲的, 例如下面的形式:


或者:


等等, 不一而足。


那麼資料在哪裡呢?

可能在資料庫中。 例如兩個免費的資料庫mysql, mangoDB等等。 我們可能從這些資料庫中選取一些資料子集進行處理等等。或者資料來源於API, 調查, 網站上等等




本課程的主要任務如下:


紅色的表示資料的預處理過程。 data analysis 是比較高階的任務。例如我們可以使用機器學習, 資料探勘等知識去進行資料分析。

data commnication: 是分析之後, 如何去使用分析得到的結果了。

相關文章