今天將描述超市購物籃內容(所購買的全部商品的集合)的虛構資料,以及購買的相關個人資料(通過忠誠卡方案獲得)。目的是尋找購買相似產品並且可按人口統計學方式(年齡,收入)刻畫其特徵的客戶群。

要做這項工作,要進行兩個階段的工作:

關聯規則建模和一個解釋所購買商品之間聯絡的WEB顯示;

C5.0規則歸納(描繪已標識產品組的購買者的特徵)

Note:此應用不直接使用預測模型,因此,不對最終模型進行準確性度量,在資料探勘過程中也不存在與之相關的訓練/檢驗兩個步驟的區分。

本例使用baskrule的流,該流引用名為BASKETS1n的資料檔案。這些檔案可在Clementine安裝檔案的Demo目錄中找到。檔案baskrule位於streams目錄下。

訪問資料

使用“變數檔案”節點連線到資料集BASKETS1n,選擇要從該檔案讀取的欄位名稱。

將“型別”節點連線到資料來源,然後將該節點連線到“表”節點。

將欄位卡ID的測量級別設定為無型別(因為每個忠誠卡ID在資料集中只出現一次,因此對於建模沒有用處)。選擇名義作為欄位性別的測量級別(確保Apriori建模演算法不會將性別視為標誌)。

連線一個表,顯示資料如下:

購物籃摘要:

cardid購買此籃商品的客戶的忠誠卡識別符號。

value購物籃的總購買價格

pmethod購物籃的支付方法

卡持有者的個人詳細資訊:

sex

homeown卡持有者是否擁有住房

income

age

購物籃內容—產品類別的出現標誌:

fruitveg

freshmeat

dairy

cannedveg

cannedmeat

frozenmeal

beer

wine

softdrink

fish

confectionery

發現購物籃內容的關係

首先,需要使用Apriori大致瞭解購物籃內容的關係(關聯)以生成關聯規則,選擇要再此建模過程中使用的欄位,方法是:編輯“型別”節點,將所有產品類別的角色設定為兩者,並將所有其他角色設定為無。(雙向表示該欄位可以是結果模型的輸入或者輸出。)

指定了用於建模的欄位後,將Apriori節點附加到“型別”節點,編輯它,選擇選項“只顯示值為真的標誌變數”。

然後在Apriori節點上單擊“執行”。結果(管理器視窗右上角“模型”選項卡上的模型)包含可以檢視(使用上下文選單,然後選擇“瀏覽”)的關聯規則。

這些規則顯示凍肉,罐裝蔬菜和啤酒之間尊在多種關聯。出現雙向關聯規則。

frozenmeal->beer

beer->frozenmeal

提示:WEB顯示(只顯示雙向關聯)可能會突出顯示此資料中的一些模式。將WEB節點附加到“型別”節點,編輯WEB節點,選擇所有購物籃內容欄位,選擇“僅顯示true標誌”。

然後在WEB節點上單擊“執行”。

因為大多數產品類別組合都會出現在多個購物籃中,所以WEB上的強連線太多,無法顯示模型表示的客戶群。故我們要進行限制性WEB顯示。

要制定弱連線和強連線,請單擊工具欄上的黃色雙箭頭按鈕。這回展開顯示WEB輸出摘要和控制元件的對話方塊。

選擇“大小表示強/正常/弱”。

將弱連線設定為低於90。

將強連線設定為高於100。

在最終顯示中,會有三個客戶群突出顯示:

購買魚和果蔬的客戶,可將這類客戶成為“健康食客”

購買酒和糧果的客戶

購買啤酒、凍肉和罐裝蔬菜(“啤酒、豆類和比薩”)的客戶

描繪客戶群的特徵

根據客戶購買的產品型別標識了三個客戶群,但是還要知道這些客戶是誰,即,他們的人口統計學特徵。通過為每個群中,每個客戶新增標誌,並使用規則歸納(C5.0)來基於規則描繪這些標誌的特徵,可以實現這一點。

首先,必須獲取每個群的標誌。使用剛剛建立的web顯示,可以自動生成每個群的標誌,使用滑鼠右鍵,單擊fruitveg和fish之間的連結以突出顯示該連結,然後右鍵單擊並選擇“為連結生成‘派生’節點”。

編輯最終的“派生”節點以將“派生”欄位名稱更改為健康。使用從wine到confectionery的連結重複該練習,並將最終的“派生”欄位命名為wine_chocs.

對於第三個群(涉及三個連結),首先要確保未選擇任何連結。然後,按住shift同時單擊滑鼠左鍵,從而選擇cannedveg、beer和frozenmeal中的全部三個連結。(一定要處於“互動”模式而不是“編輯”模式。)然後,從web顯示選單中選擇:

生成>匯出節點(“和”)

將最終“派生”欄位的名稱更改為beer_beans_pizza。

要描繪這些客戶群的特徵,要連續將現有的型別節點連線到這三個匯出節點,然後附加另一個型別節點。在新的“型別”節點中,將除以下欄位外的所有欄位的角色都設定為無:value、pmethod、sex、homeown、income和age(這些欄位的角色應該設定為輸入),以及相關的客戶群(例如,beer_beans_pizza,他們的角色應該設定為目標)。

附加C5.0節點,將輸出型別設定為規則集,然後在節點上單擊“執行”。最終模型(用於beer_beans_pizza)包含此客戶群的明確人口統計學特徵:

Rule 1 for T:

if sex=M

and income <=16,900

then T

此案例結合了Apriori和C5.0完成了使用者購買行為的分析(一方面是使用者的自身行為的把握,另一方面是使用者買什麼產品,怎麼搭配讓使用者去買的把握)事實上,多數的時候我們只完成了一方面的工作,或者把二者隔離開來分析,真正的分析不應該是隻問使用者買什麼,我們怎麼搭配銷售最好,還要精準投放,精準的分析使用者的自身素質。

從上圖發現:

工資收入高於16950的人購買三者的比例99.2%

工資低於16950的人的女士購買三者比例98.8%

等等……

通過在第二個型別節點中選擇其他客戶群標誌作為輸出,可將同意方法應用到這些標誌,通過在此上下文使用Apriori代替C5.0,可生成更多替代特徵描繪;Apriori也用於同時描繪所有客戶群的特徵,原因是,Apriori並非被限制到一個輸出欄位。下圖為整個過程的資料流。

Via:http://www.cnblogs.com/yuyang-DataAnalysis/archive/2011/10/25/2223298.html