什麼是關聯分析?
引言:
在認識什麼是關聯分析之前,先了解一下關聯分析能用來幹什麼吧:
示例1:如下是一個超市幾名顧客的交易資訊。
TID Items 001 Cola, Egg, Ham 002 Cola, Diaper, Beer 003 Cola, Diaper, Beer, Ham 004 Diaper, Beer TID代表交易流水號,Items代表一次交易的商品。
我們對這個資料集進行關聯分析,可以找出關聯規則{Diaper}→{Beer}。
它代表的意義是:購買了Diaper的顧客會購買Beer。這個關係不是必然的,但是可能性很大,這就已經足夠用來輔助商家調整Diaper和Beer的擺放位置了,例如擺放在相近的位置,進行捆綁促銷來提高銷售量。
所以,關聯分析的任務就是從資料集中挖掘出頻繁項集,然後從頻繁項集中提取出事物之間的強關聯規則,輔助決策。
各種定義:
1、
2、
3、
4、
5、
6、
7、
8、
9、
10、
我們容易發現,如果一個項集是頻繁項集,則它的子項集也都是頻繁項集。如果一個項集是非頻繁項集,則它的超集也一定是非頻繁項集。(可用反證法證明,此處略)
例如{Diaper, Beer}是頻繁項集,則{Diaper}、{Beer}也都是頻繁項集。
例如{Egg}是非頻繁項集,則{Cola, Egg}也是非頻繁項集。
關聯分析:
關聯分析分為兩個步驟:
<1> 利用支援度找出資料集中的頻繁項集。
<2> 利用置信度從頻繁項集中提取出強關聯規則。
頻繁項集的挖掘:
Apriori演算法:
Apriori演算法的思路是先找出候選項集,然後根據最小支援度閾值篩選出頻繁項集。
例如先找出所有1-項集,然後篩選出裡面的頻繁1-項集; 根據頻繁1-項集生成候選2-項集,然後篩選出裡面的頻繁2-項集; 再根據頻繁2-項集生成候選3-項集,從裡面篩選出頻繁3-項集;·······
Apriori演算法的缺點是需要不斷掃描資料集,不斷地求候選項集的支援度從而判斷它是否是頻繁項集。當資料集很大的時候,這種演算法的效率將會非常低。
更多關於Apriori,請見Apriori演算法的介紹。
FP-Growth演算法:
FP-Growth演算法只需要掃描兩次資料集。它的思想是把構造一棵FP-Tree,把資料集中的資料對映到樹上,再根據這棵FP-Tree找出所有頻繁項集。
更多關於FP-Growth,請見FP-Growth演算法的介紹、FP_Growth演算法python實現。
關聯規則的生成:
從步驟一已經得到了頻繁項集,而此時的任務就是在頻繁項集裡面挖掘出大於最小置信度閾值的關聯規則。
怎麼挖呢?把頻繁項集分成前件和後件兩部分,然後求規則前件→後件的置信度,如果大於最小置信度閾值,則它就是一條強關聯規則。
但是把頻繁項集分成前件和後件的情況有很多,我們可以對其進行一些優化。
附加:
此處是針對購物籃示例來介紹關聯分析,購物籃資訊屬於布林型的,而現實生活中許多事物都是數值量化的,例如{購買1個時鐘}→{購買2塊電池}。
另外,對於產生的強關聯規則,並不是全部都是有價值的,還需要對關聯規則進行評價。
更多內容後續再補上。
轉載請註明出處,謝謝!(原文連結:http://blog.csdn.net/bone_ace/article/details/46648965)
相關文章
- 分析|什麼是物聯網路卡
- 什麼是 SRE?它和 DevOps 是怎麼關聯的?dev
- 物聯網是什麼意思?物聯網概念是什麼?
- 什麼是大資料?與Python之間有什麼關聯?大資料Python
- 什麼是物聯網路卡?物聯網路卡的優點是什麼?
- 物聯網路卡是什麼?
- GNU是什麼?和Linux是什麼關係?Linux
- python是什麼?與spyder有什麼聯絡?Python
- 關於什麼是框架框架
- 什麼是關鍵 CSSCSS
- MySQL為什麼不要多表關聯?MySql
- SDK、API 和 app 之間的關係和聯絡是什麼?APIAPP
- BPM軟體是什麼?BPM軟體跟BPA有關聯嗎?
- 大資料分析是什麼大資料
- 什麼是商業模式分析?模式
- 9.1 什麼是聯盟區塊鏈區塊鏈
- 什麼是物聯網?—Vecloud微雲Cloud
- Flex 是什麼? flex和flash是什麼關係?flex 解決什麼問題?flex和j2ee/.net是什麼關係?Flex
- 關於什麼是 DevOpsdev
- 人工智慧和Python是什麼關係?詳細分析!人工智慧Python
- 什麼是客戶分析,為什麼它很重要?
- 樂訊通雲通訊:什麼是物聯網路卡?物聯網路卡的優點是什麼?
- 什麼是SVN? 什麼是CVS? SVN跟CVS又有什麼關係呢?
- 什麼是Yottachain和YTA幣,它們是什麼關係?AI
- 主導物聯網市場的四大關鍵是什麼?
- 什麼是商業系統分析?
- Paxos分析之一—Paxos是什麼
- 物聯網路卡是做什麼用的
- BI、OLAP、多維分析、CUBE 這幾個詞是什麼關係?
- GitClub和GitHub是什麼關係Github
- Java 和 JavaScript 是什麼關係?JavaScript
- 微博跟微軟是什麼關係?微軟
- openssh和openssl是什麼關係
- 什麼是反對稱關係?
- Chronicles 和 IRIS 是什麼關係
- IRIS 和 Caché 是什麼關係
- 元宇宙是什麼,和遊戲有什麼關係元宇宙遊戲
- 什麼是Cython?和Python有什麼關係?Python