資料探勘主要解決四類問題

zj2009072204發表於2013-09-09
資料探勘主要解決四類問題:
(1)分類問題:分類問題屬於預測性的問題,但是它跟普通預測問題的區別在與其預測的結
果是類別(如A、B、C三類)而不是一個具體的數值(如55、65、75......)
訓練的思路:對收集的特徵/變數分別進行分析,尋找與目標0/1變數相關的特徵/變數,然
後歸納出P(X=1)與刪變數選出來的相關特徵/變數之間的關係(不同方法歸納出來的關係
表達方式不同,如迴歸的方法是通過函式關係式,決策樹方法是通過規則集......)
(2)聚類問題:聚類問題不屬於預測性的問題,它主要解決的是把一群物件劃分若干個組的
問題。聚類問題是根據所選定的指標,對一群使用者進行劃分。
訓練思路:確定選擇哪些指標對使用者進行聚類;在選擇的指標上計算使用者彼此間的距離,距
離的計算公式很多,最常用的就是直線距離(把選擇的指標當作維度、使用者在每個指標下都
有相應的取值,可以看作多維空間中的一個點,使用者彼此間的距離就可理解為兩者之間的直
線距離);聚類方法把bicentennial距離比較短的使用者聚為一類,類與類之間的距離相對比
較長。
(3)關聯問題
關聯分析有三個非常重要的概念,那就是“三度”:支援度、可信度、提升度。假設有
10000個人購買了產品,其中購買A產品的人是1000個,購買B產品的人是2000個,AB同時購
買的人是800個。
    支援度:指的是關聯的產品(假定A產品和B產品關聯)同時購買的人數佔總人數的比例
,即800/10000=8%,有8%的使用者同時購買了A和B兩個產品;
    可信度:指的是在購買了一個產品之後購買另外一個產品的可能性,例如購買了A產品
之後購買B產品的可信度=800/1000=80%,即80%的使用者在購買了A產品之後會購買B產品;
    提升度:就是在購買A產品這個條件下購買B產品的可能性與沒有這個條件下購買B產品
的可能性之比,沒有任何條件下購買B產品可能性=2000/10000=20%,那麼提升度=80%/20%=4
(4)預測問題

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/28573466/viewspace-772406/,如需轉載,請註明出處,否則將追究法律責任。

相關文章