data cleaning(資料清洗) 課程筆記
使用機器學習(ML), data mining 對資料進行分析之前, 需要使用大量的資料預處理工作。 因為沒有乾淨的資料, 很難對資料進行更進一步的分析。
在這本課程中, 主要cover 如下幾個內容:
(1)如何獲取原始資料(raw data)
(2) 如何將這些具有噪聲的raw data 變得更加的tidy, 以便為我們進一步的分析做準備。 有哪些data cleaning(資料清理的技術)
(3)使用工具R, 完成一些任務
Q: 在進行資料分析前, 我們希望的資料是什麼樣子的呢?
我們希望我們的資料如下圖excel所示:
formated data:
(1)每一個行(row)是一個record
(2)每一列(column)代表一個variable。
這也是我們運用資料清洗等資料預處理技術之後, 希望產生的效果。但是我們實際中獲取到的raw data 是千奇百怪的, 充滿噪聲的, 例如下面的形式:
或者:
等等, 不一而足。
那麼資料在哪裡呢?
可能在資料庫中。 例如兩個免費的資料庫mysql, mangoDB等等。 我們可能從這些資料庫中選取一些資料子集進行處理等等。或者資料來源於API, 調查, 網站上等等
本課程的主要任務如下:
紅色的表示資料的預處理過程。 data analysis 是比較高階的任務。例如我們可以使用機器學習, 資料探勘等知識去進行資料分析。
data commnication: 是分析之後, 如何去使用分析得到的結果了。
相關文章
- 資料庫課程作業筆記資料庫筆記
- 《資料庫系統原理》課程筆記資料庫筆記
- 資料庫課程作業筆記 - 驗收資料庫筆記
- 資料庫課程作業筆記 - 編寫資料填充資料庫筆記
- 資料結構與演算法課程筆記(二)資料結構演算法筆記
- 資料庫課程作業筆記 - 編寫 RESTful 路由資料庫筆記REST路由
- SQLBI_精通DAX課程筆記_02_資料型別SQL筆記資料型別
- 資料庫課程作業筆記 - 編寫控制器資料庫筆記
- 資料庫課程作業筆記 - 編寫公共 Blade 模板資料庫筆記
- 資料庫課程作業筆記 - 編寫模型檔案資料庫筆記模型
- 資料庫課程作業筆記 - 編寫資料庫遷移檔案資料庫筆記
- 物聯網課程筆記筆記
- 會計學課程筆記筆記
- lua課程學習筆記筆記
- 王道C短期課程筆記筆記
- java大資料最全課程學習筆記(5)--MapReduce精通(一)Java大資料筆記
- 資料庫課程作業筆記 - 編寫表單驗證資料庫筆記
- 達內課程學習筆記筆記
- 機器學習課程筆記機器學習筆記
- 萬物互聯課程筆記筆記
- [Triton課程筆記] 2.2.3 BLS續筆記
- Python基礎課程筆記5Python筆記
- 【課程筆記】中科大資訊理論(三)筆記
- 【課程筆記】中科大資訊理論(六)筆記
- 資料維度的python表示(MOOC北理大嵩天課程筆記)Python筆記
- java大資料最全課程學習筆記(3)--HDFS 簡介及操作Java大資料筆記
- MIT6S081課程筆記MIT筆記
- 網站SEO課程筆記整理版!網站筆記
- 飛槳paddlepaddle影像分割課程筆記筆記
- 遨遊Unix–APUE課程筆記【1】筆記
- 計算機網路 - 課程筆記計算機網路筆記
- 北航OS課程筆記--一、緒論筆記
- 北航OS課程筆記--六、磁碟管理筆記
- 北航OS課程筆記--三、記憶體管理筆記記憶體
- 大資料技術與應用課堂測試-資料清洗同步大資料
- 使用Data Lake Analytics從OSS清洗資料到AnalyticDB
- 學習筆記(30):Python資料清洗實戰-Excel檔案讀寫筆記PythonExcel
- 《Python語言程式設計》課程筆記Python程式設計筆記
- 網站SEO課程筆記整理版(2)網站筆記