資料探勘主要解決四類問題
資料探勘主要解決四類問題:
(1)分類問題:分類問題屬於預測性的問題,但是它跟普通預測問題的區別在與其預測的結
(1)分類問題:分類問題屬於預測性的問題,但是它跟普通預測問題的區別在與其預測的結
果是類別(如A、B、C三類)而不是一個具體的數值(如55、65、75......)
訓練的思路:對收集的特徵/變數分別進行分析,尋找與目標0/1變數相關的特徵/變數,然
後歸納出P(X=1)與刪變數選出來的相關特徵/變數之間的關係(不同方法歸納出來的關係
表達方式不同,如迴歸的方法是通過函式關係式,決策樹方法是通過規則集......)
(2)聚類問題:聚類問題不屬於預測性的問題,它主要解決的是把一群物件劃分若干個組的
問題。聚類問題是根據所選定的指標,對一群使用者進行劃分。
訓練思路:確定選擇哪些指標對使用者進行聚類;在選擇的指標上計算使用者彼此間的距離,距
離的計算公式很多,最常用的就是直線距離(把選擇的指標當作維度、使用者在每個指標下都
有相應的取值,可以看作多維空間中的一個點,使用者彼此間的距離就可理解為兩者之間的直
線距離);聚類方法把bicentennial距離比較短的使用者聚為一類,類與類之間的距離相對比
較長。
(3)關聯問題
關聯分析有三個非常重要的概念,那就是“三度”:支援度、可信度、提升度。假設有
關聯分析有三個非常重要的概念,那就是“三度”:支援度、可信度、提升度。假設有
10000個人購買了產品,其中購買A產品的人是1000個,購買B產品的人是2000個,AB同時購
買的人是800個。
支援度:指的是關聯的產品(假定A產品和B產品關聯)同時購買的人數佔總人數的比例
支援度:指的是關聯的產品(假定A產品和B產品關聯)同時購買的人數佔總人數的比例
,即800/10000=8%,有8%的使用者同時購買了A和B兩個產品;
可信度:指的是在購買了一個產品之後購買另外一個產品的可能性,例如購買了A產品
可信度:指的是在購買了一個產品之後購買另外一個產品的可能性,例如購買了A產品
之後購買B產品的可信度=800/1000=80%,即80%的使用者在購買了A產品之後會購買B產品;
提升度:就是在購買A產品這個條件下購買B產品的可能性與沒有這個條件下購買B產品
提升度:就是在購買A產品這個條件下購買B產品的可能性與沒有這個條件下購買B產品
的可能性之比,沒有任何條件下購買B產品可能性=2000/10000=20%,那麼提升度=80%/20%=4
。
(4)預測問題
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/28573466/viewspace-772406/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 資料探勘常見10大問題
- 資料探勘(6):決策樹分類演算法演算法
- 資料探勘-層次聚類聚類
- 資源限制類問題的常用解決方案
- 解決AI的小資料問題AI
- 資料探勘之 層次聚類聚類
- 隨身雲資料探勘競賽解題思路
- DELPHI四捨五入問題解決
- 《資料探勘導論》實驗課——實驗四、資料探勘之KNN,Naive BayesKNNAI
- 安裝資料庫和資料庫解決問題資料庫
- 解決hive資料庫 插入資料很慢的問題Hive資料庫
- 資料庫層面問題解決思路資料庫
- sbt配置——資料來源問題解決
- 使用bulkCollect解決資料遷移問題
- 資料探勘與資料分析的主要區別是什麼
- 解決「問題」,不要解決問題
- 解決兩相同資料庫資料同步的問題 (轉)資料庫
- 資料編號+1 併發問題解決
- SqlServer資料庫中文亂碼問題解決SQLServer資料庫
- 【Spark篇】---Spark解決資料傾斜問題Spark
- 解決Gson解析Date資料格式的問題
- 解決被掛起的資料庫問題資料庫
- oracle 資料庫解決問題思路總結Oracle資料庫
- 資料探勘中分類演算法總結演算法
- Josephus問題解決方法四(迴圈陣列)陣列
- 解決資料庫高併發訪問瓶頸問題資料庫
- 當資料探勘遇上戰略決策
- Swoole - TCP流資料邊界問題解決方案TCP
- 基於vue解決大資料表格卡頓問題Vue大資料
- 資料倉儲的效能問題及解決之道
- 安裝mysql資料庫及問題解決方法MySql資料庫
- ajax資料無法更新問題原因及解決
- 谷歌利用資料解決女性員工流失問題谷歌
- 用檢視解決資料庫鏈路問題資料庫
- Windows共享資料夾常見問題解決方法Windows
- C# 類對映的四種方法【解決硬編碼的問題】(工具三)C#
- 解碼智慧治理 用大資料解決民生小問題大資料
- 單元測試實踐的主要問題與解決