《資料分析與資料探勘》--天津大學公開課
天津大學《資料分析與資料探勘》公開課–學習筆記
1.1 資料分析與資料探勘
資料分析是指採用適當的統計分析方法對收集到的資料進行分析、概括和總結,對資料進行恰當的描述,提取出有用的資訊的過程。對決策進行輔助,提供資料的根據,利用表格和列表進行展示。
資料探勘是指在大量的資料中進行挖掘知識。
1.1.2 知識發現(KDD)的過程
圖片
1.1.3 區別
圖片
1.1.4 聯絡
圖片
1.2 分析和挖掘的資料型別
1.2.1 資料庫資料
關聯式資料庫
SQL
資料庫 比較流行的有:MySQL, Oracle, SqlServer
1.2.2 資料倉儲資料
資料倉儲是一個面向主題的、整合的、隨時間變化的、但資訊本身相對穩定的資料集合,用於對管理決策過程的支援。
資料倉儲 比較流行的有:AWS Redshift, Greenplum, Hive等
1.2.3 事務資料
1.2.4 資料矩陣
1.2.5 圖和網狀結構資料
例如社交資料,電商資料,搜尋引擎
網頁排名演算法PageRank
2.1 資料的屬性
2.2 資料的分散度量
2.2.3 資料的圖形顯示
1、箱圖
用來描述最大值、最小值、下四位數、中位數和上四位數的五數概括
2.餅圖
3、頻率直方圖
4、散點圖
2.3 資料的相似性和相異性
2.3.1 資料矩陣和相異矩陣
近鄰性度量
數值屬性的相異性
1、歐幾里得距離
2、曼哈頓距離
序數屬性的近鄰性度量
餘弦相似性
餘弦相似度
3.1 資料存在的問題
資料不一致
資料缺失
噪聲資料
缺失值
3.2 資料清理
3.3 資料整合
1、實體識別問題
2、冗餘問題
數值資料:相關係數及協方差
相關性分析
卡方檢驗
3.4 資料規約
資料標準化
資料立方體
3.5 資料變換與資料離散化
資料變換:將資料變換成適合資料探勘的形式
資料泛化
資料規範化
資料變換:屬性構造
離散化
分箱法
4.1
4.2
4.3
4.4
4.5
相關文章
- 中科院“大資料探勘和分析技術實戰”公開課實訓大資料
- 資料分析與資料探勘 - 04科學計算
- 大資料時代,如何做資料探勘與分析!大資料
- “雲環境下大資料探勘和分析技術實戰”公開課在北京舉行大資料
- 淺談大資料、資料分析、資料探勘的區別!大資料
- 從0開始學習大資料探勘分析,新手應該這樣學習大資料分析才靠譜大資料
- Yahoo前任資料官:資料探勘與分析技巧(下)IF
- 【Mark Schmidt課件】機器學習與資料探勘——MLE與MAP機器學習
- 資料探勘與分析 概念與演算法演算法
- 資料探勘與生活
- 資料探勘與資料分析的主要區別是什麼
- 資料探勘與預測分析(第2版)
- .NET資料探勘與機器學習開源框架機器學習框架
- 資料探勘在醫學大資料研究中的應用大資料
- 《資料探勘導論》實驗課——實驗四、資料探勘之KNN,Naive BayesKNNAI
- 資料探勘與分析(網際網路行業)行業
- 萌新向Python資料分析及資料探勘 前言Python
- 【雲端計算與大資料處理技術】公開課實況大資料
- 學習大資料必須瞭解的大資料開發課程大綱大資料
- 開源大資料排程系統 Taier 技術公開課 ——Taier 資料開發介紹大資料AI
- 【python資料探勘課程】二十七.基於SVM分類器的紅酒資料分析Python
- 大資料探勘有哪些技術大資料
- 大資料應用——資料探勘之推薦系統大資料
- logminer進行資料探勘分析測試
- 理解Transformer [資料探勘深度學習]ORM深度學習
- 一文講清:資料分析與資料探勘到底有什麼區別?
- 大資料要學什麼?看看這份大資料課程大綱大資料
- 資料探勘十大演算法演算法
- 資料探勘( TO DO LIST)
- 資料探勘技術
- 學Java的,想嘗試轉行大資料和資料探勘,該怎麼規劃學習?Java大資料
- 【python資料探勘課程】二十四.KMeans文字聚類分析互動百科語料Python聚類
- 大資料分享常用的資料探勘技術,新人學起來就可以用大資料
- 中國大學排名資料分析與視覺化視覺化
- 慕課網大資料開發工程師課程大資料工程師
- 【python資料探勘課程】二十六.基於SnowNLP的豆瓣評論情感分析Python
- 資料探勘和資料提取能做什麼?
- 大資料技術與應用課堂測試-資料清洗同步大資料