《資料分析與資料探勘》--天津大學公開課

浪裡小飛俠發表於2020-10-09

天津大學《資料分析與資料探勘》公開課–學習筆記

1.1 資料分析與資料探勘

資料分析是指採用適當的統計分析方法對收集到的資料進行分析、概括和總結,對資料進行恰當的描述,提取出有用的資訊的過程。對決策進行輔助,提供資料的根據,利用表格和列表進行展示。
資料探勘是指在大量的資料中進行挖掘知識。

1.1.2 知識發現(KDD)的過程

圖片

1.1.3 區別

圖片

1.1.4 聯絡

圖片

1.2 分析和挖掘的資料型別

1.2.1 資料庫資料

關聯式資料庫
SQL
資料庫 比較流行的有:MySQL, Oracle, SqlServer

1.2.2 資料倉儲資料

資料倉儲是一個面向主題的、整合的、隨時間變化的、但資訊本身相對穩定的資料集合,用於對管理決策過程的支援。
資料倉儲 比較流行的有:AWS Redshift, Greenplum, Hive等

1.2.3 事務資料

1.2.4 資料矩陣

1.2.5 圖和網狀結構資料

例如社交資料,電商資料,搜尋引擎
網頁排名演算法PageRank

2.1 資料的屬性

2.2 資料的分散度量

2.2.3 資料的圖形顯示

1、箱圖
用來描述最大值、最小值、下四位數、中位數和上四位數的五數概括

2.餅圖

3、頻率直方圖

4、散點圖

2.3 資料的相似性和相異性

2.3.1 資料矩陣和相異矩陣

近鄰性度量

數值屬性的相異性

1、歐幾里得距離
2、曼哈頓距離

序數屬性的近鄰性度量

餘弦相似性

餘弦相似度

3.1 資料存在的問題

資料不一致
資料缺失
噪聲資料
缺失值

3.2 資料清理

3.3 資料整合

1、實體識別問題
2、冗餘問題
數值資料:相關係數及協方差
相關性分析
卡方檢驗

3.4 資料規約

資料標準化
資料立方體

3.5 資料變換與資料離散化

資料變換:將資料變換成適合資料探勘的形式

資料泛化

資料規範化

資料變換:屬性構造

離散化

分箱法

4.1

4.2

4.3

4.4

4.5

相關文章