《資料分析與資料探勘》--天津大學公開課
天津大學《資料分析與資料探勘》公開課–學習筆記
1.1 資料分析與資料探勘
資料分析是指採用適當的統計分析方法對收集到的資料進行分析、概括和總結,對資料進行恰當的描述,提取出有用的資訊的過程。對決策進行輔助,提供資料的根據,利用表格和列表進行展示。
資料探勘是指在大量的資料中進行挖掘知識。
1.1.2 知識發現(KDD)的過程
圖片
1.1.3 區別
圖片
1.1.4 聯絡
圖片
1.2 分析和挖掘的資料型別
1.2.1 資料庫資料
關聯式資料庫
SQL
資料庫 比較流行的有:MySQL, Oracle, SqlServer
1.2.2 資料倉儲資料
資料倉儲是一個面向主題的、整合的、隨時間變化的、但資訊本身相對穩定的資料集合,用於對管理決策過程的支援。
資料倉儲 比較流行的有:AWS Redshift, Greenplum, Hive等
1.2.3 事務資料
1.2.4 資料矩陣
1.2.5 圖和網狀結構資料
例如社交資料,電商資料,搜尋引擎
網頁排名演算法PageRank
2.1 資料的屬性
2.2 資料的分散度量
2.2.3 資料的圖形顯示
1、箱圖
用來描述最大值、最小值、下四位數、中位數和上四位數的五數概括
2.餅圖
3、頻率直方圖
4、散點圖
2.3 資料的相似性和相異性
2.3.1 資料矩陣和相異矩陣
近鄰性度量
數值屬性的相異性
1、歐幾里得距離
2、曼哈頓距離
序數屬性的近鄰性度量
餘弦相似性
餘弦相似度
3.1 資料存在的問題
資料不一致
資料缺失
噪聲資料
缺失值
3.2 資料清理
3.3 資料整合
1、實體識別問題
2、冗餘問題
數值資料:相關係數及協方差
相關性分析
卡方檢驗
3.4 資料規約
資料標準化
資料立方體
3.5 資料變換與資料離散化
資料變換:將資料變換成適合資料探勘的形式
資料泛化
資料規範化
資料變換:屬性構造
離散化
分箱法
4.1
4.2
4.3
4.4
4.5
相關文章
- Python資料探勘與分析速成班-CSDN公開課-專題視訊課程Python
- 中科院“大資料探勘和分析技術實戰”公開課實訓大資料
- 大資料時代,如何做資料探勘與分析!大資料
- 資料分析與資料探勘 - 04科學計算
- Yahoo前任資料官:資料探勘與分析技巧(下)IF
- 資料探勘的資料分析方法
- 資料探勘方向分析
- 資料探勘與分析 概念與演算法演算法
- 資料探勘與資料抽樣
- 社交網站的資料探勘與分析網站
- “雲環境下大資料探勘和分析技術實戰”公開課在北京舉行大資料
- 大資料、資料分析、資料探勘的差別大資料
- 資料探勘與生活
- 資料探勘與資料分析的主要區別是什麼
- 【Mark Schmidt課件】機器學習與資料探勘——MLE與MAP機器學習
- 資料探勘與預測分析(第2版)
- .NET資料探勘與機器學習開源框架機器學習框架
- 資料探勘者與資料探勘青年的對話(轉)
- 《資料探勘導論》實驗課——實驗四、資料探勘之KNN,Naive BayesKNNAI
- 淺談大資料、資料分析、資料探勘的區別!大資料
- 【python資料探勘課程】十六.邏輯迴歸LogisticRegression分析鳶尾花資料Python邏輯迴歸
- 資料探勘與分析(網際網路行業)行業
- 萌新向Python資料分析及資料探勘 前言Python
- 企業學習資料管理系統與公開課堂
- 統計學與資料探勘
- 資料探勘的10種分析方法
- 資料探勘——認識資料
- 人工智慧大資料,公開的海量資料集下載,ImageNet資料集下載,資料探勘機器學習資料集下載人工智慧大資料機器學習
- 【python資料探勘課程】二十七.基於SVM分類器的紅酒資料分析Python
- 【Python資料探勘課程】九.迴歸模型LinearRegression簡單分析氧化物資料Python模型
- 自學資料探勘
- Web資料探勘Web
- 序列資料探勘
- 資料探勘概念
- 一文講清:資料分析與資料探勘到底有什麼區別?
- 【雲端計算與大資料處理技術】公開課實況大資料
- 資料模型與資料分析模型
- 資料探勘資料集下載資源