今天將描述超市購物籃內容(所購買的全部商品的集合)的虛構資料,以及購買的相關個人資料(通過忠誠卡方案獲得)。目的是尋找購買相似產品並且可按人口統計學方式(年齡,收入)刻畫其特徵的客戶群。
要做這項工作,要進行兩個階段的工作:
關聯規則建模和一個解釋所購買商品之間聯絡的WEB顯示;
C5.0規則歸納(描繪已標識產品組的購買者的特徵)
Note:此應用不直接使用預測模型,因此,不對最終模型進行準確性度量,在資料探勘過程中也不存在與之相關的訓練/檢驗兩個步驟的區分。
本例使用baskrule的流,該流引用名為BASKETS1n的資料檔案。這些檔案可在Clementine安裝檔案的Demo目錄中找到。檔案baskrule位於streams目錄下。
訪問資料
使用“變數檔案”節點連線到資料集BASKETS1n,選擇要從該檔案讀取的欄位名稱。
將“型別”節點連線到資料來源,然後將該節點連線到“表”節點。
將欄位卡ID的測量級別設定為無型別(因為每個忠誠卡ID在資料集中只出現一次,因此對於建模沒有用處)。選擇名義作為欄位性別的測量級別(確保Apriori建模演算法不會將性別視為標誌)。
連線一個表,顯示資料如下:
購物籃摘要:
cardid購買此籃商品的客戶的忠誠卡識別符號。
value購物籃的總購買價格
pmethod購物籃的支付方法
卡持有者的個人詳細資訊:
sex
homeown卡持有者是否擁有住房
income
age
購物籃內容—產品類別的出現標誌:
fruitveg
freshmeat
dairy
cannedveg
cannedmeat
frozenmeal
beer
wine
softdrink
fish
confectionery
發現購物籃內容的關係
首先,需要使用Apriori大致瞭解購物籃內容的關係(關聯)以生成關聯規則,選擇要再此建模過程中使用的欄位,方法是:編輯“型別”節點,將所有產品類別的角色設定為兩者,並將所有其他角色設定為無。(雙向表示該欄位可以是結果模型的輸入或者輸出。)
指定了用於建模的欄位後,將Apriori節點附加到“型別”節點,編輯它,選擇選項“只顯示值為真的標誌變數”。
然後在Apriori節點上單擊“執行”。結果(管理器視窗右上角“模型”選項卡上的模型)包含可以檢視(使用上下文選單,然後選擇“瀏覽”)的關聯規則。
這些規則顯示凍肉,罐裝蔬菜和啤酒之間尊在多種關聯。出現雙向關聯規則。
frozenmeal->beer
beer->frozenmeal
提示:WEB顯示(只顯示雙向關聯)可能會突出顯示此資料中的一些模式。將WEB節點附加到“型別”節點,編輯WEB節點,選擇所有購物籃內容欄位,選擇“僅顯示true標誌”。
然後在WEB節點上單擊“執行”。
因為大多數產品類別組合都會出現在多個購物籃中,所以WEB上的強連線太多,無法顯示模型表示的客戶群。故我們要進行限制性WEB顯示。
要制定弱連線和強連線,請單擊工具欄上的黃色雙箭頭按鈕。這回展開顯示WEB輸出摘要和控制元件的對話方塊。
選擇“大小表示強/正常/弱”。
將弱連線設定為低於90。
將強連線設定為高於100。
在最終顯示中,會有三個客戶群突出顯示:
購買魚和果蔬的客戶,可將這類客戶成為“健康食客”
購買酒和糧果的客戶
購買啤酒、凍肉和罐裝蔬菜(“啤酒、豆類和比薩”)的客戶
描繪客戶群的特徵
根據客戶購買的產品型別標識了三個客戶群,但是還要知道這些客戶是誰,即,他們的人口統計學特徵。通過為每個群中,每個客戶新增標誌,並使用規則歸納(C5.0)來基於規則描繪這些標誌的特徵,可以實現這一點。
首先,必須獲取每個群的標誌。使用剛剛建立的web顯示,可以自動生成每個群的標誌,使用滑鼠右鍵,單擊fruitveg和fish之間的連結以突出顯示該連結,然後右鍵單擊並選擇“為連結生成‘派生’節點”。
編輯最終的“派生”節點以將“派生”欄位名稱更改為健康。使用從wine到confectionery的連結重複該練習,並將最終的“派生”欄位命名為wine_chocs.
對於第三個群(涉及三個連結),首先要確保未選擇任何連結。然後,按住shift同時單擊滑鼠左鍵,從而選擇cannedveg、beer和frozenmeal中的全部三個連結。(一定要處於“互動”模式而不是“編輯”模式。)然後,從web顯示選單中選擇:
生成>匯出節點(“和”)
將最終“派生”欄位的名稱更改為beer_beans_pizza。
要描繪這些客戶群的特徵,要連續將現有的型別節點連線到這三個匯出節點,然後附加另一個型別節點。在新的“型別”節點中,將除以下欄位外的所有欄位的角色都設定為無:value、pmethod、sex、homeown、income和age(這些欄位的角色應該設定為輸入),以及相關的客戶群(例如,beer_beans_pizza,他們的角色應該設定為目標)。
附加C5.0節點,將輸出型別設定為規則集,然後在節點上單擊“執行”。最終模型(用於beer_beans_pizza)包含此客戶群的明確人口統計學特徵:
Rule 1 for T:
if sex=M
and income <=16,900
then T
此案例結合了Apriori和C5.0完成了使用者購買行為的分析(一方面是使用者的自身行為的把握,另一方面是使用者買什麼產品,怎麼搭配讓使用者去買的把握)事實上,多數的時候我們只完成了一方面的工作,或者把二者隔離開來分析,真正的分析不應該是隻問使用者買什麼,我們怎麼搭配銷售最好,還要精準投放,精準的分析使用者的自身素質。
從上圖發現:
工資收入高於16950的人購買三者的比例99.2%
工資低於16950的人的女士購買三者比例98.8%
等等……
通過在第二個型別節點中選擇其他客戶群標誌作為輸出,可將同意方法應用到這些標誌,通過在此上下文使用Apriori代替C5.0,可生成更多替代特徵描繪;Apriori也用於同時描繪所有客戶群的特徵,原因是,Apriori並非被限制到一個輸出欄位。下圖為整個過程的資料流。
Via:http://www.cnblogs.com/yuyang-DataAnalysis/archive/2011/10/25/2223298.html