模式識別中的Apriori演算法和FPGrowth演算法

爬蜥發表於2019-03-04

pattern discovery

模式識別中的一些基本概念

模式:對於一個集合項，某些特定的子序列或者結構通常一起出現在資料集中
absolute support :某一項出現的頻率[數量]
relative support: 某一項出現的頻率
frequent item:該項的support值大於最小support閾值
association rules: X->Y(s,c) 在有X的前提下，有Y的概率是多少
s(support):support( x U y )[x和y都出現的數量];

confidence:既包含x又包含y的概率，簡記為c = sup(x U y) / sup(x)

close pattern:子集x是頻繁的。並且不存在一個x的父集y，是的y和x有一樣的support值。它不會丟失頻繁子集資訊
max pattern: 子集x是頻繁的。並且不存在一個x的父頻繁子集。會丟失頻繁子集的support值

Apriori演算法基本思想

如果一個集合是頻繁的，那麼在同一個最小sup值下，它的子集也是頻繁的。演算法的核心思想是：首先找到所有的1項代表集C1，根據sup過濾得到頻繁集合F1，從F1中得到代表集C2，C2的自己如果有不在F1中的，就刪掉【這個過程稱為剪枝】，然後遍歷資料集，當C2中的資料在原始資料集中是頻繁的時候，得到頻繁集F2，依次往復。

Aprior演算法面臨的問題

看起來沒產生一個頻繁集需要訪問一遍資料庫，改進的策略是：分割槽。
從k項的頻繁集，到k+!項的代表集會包含很多元素，所以最好能減少代表集的數量，有效策略是 hash(等)。

分割槽策略

對於一個很大的資料庫來說，分割槽之後，如果某一項是頻繁的，意味著至少存在一個分割槽，它也是頻繁的，所以，第一次掃描資料庫，先把當前分割槽的資料全部收入記憶體，然後計算出當前分割槽的所有頻繁集，然後把所有的頻繁集統一收作全域性代表。再過濾出全域性頻繁的，整個過程只有兩次掃描資料庫【有點小把戲，把資料縮小到記憶體中能放下，在記憶體中算】

ECLAT(Equivalence Class Transformation):一般的資料庫是根據項ID和項值來儲存的，這裡的主要思想是把唯一的項值提出來，對應列放在資料庫中的項ID列表。

此時，當前項的頻率就是ID列表的大小，如果要看兩個項的頻率就是求IDlist的交集。
這種儲存具備如下的特徵：如果idlist一模一樣，代表這兩項肯定是一起出現；如果x的ID列表是Y的ID列表的子集，那麼擁有X項的記錄必定擁有Y

hash較少代表集數量

對所有k集頻繁項做hash計算，hash表中儲存計算結果為同一個hash值的個數【可以在具體的分割槽做】，如果這個數值小於support值，那麼當前hash桶中的所有項都不是頻繁的，就不會當做代表集頻繁模式挖掘-DHP演算法詳解 | I am Busy

大致思路是：同一個hash值的肯定會進同一個地方，如果一項出現多個，那麼他們必定是進同一個hash桶，也就是說這個的hash桶的個數會很多，如果個數少，說明這個hash桶中的資料都不是頻繁的

FPGrowth演算法

FP-tree(frequent pattern tree)定義：

它包含了一個root,被標記成null,root有每一項作為字首的子項，同時有一張表記錄了頻繁項的頭；
項字首的子樹包含3個部分：該項的名字，數量和節點連結。
每個頻繁項的頭表有兩個欄位，項的名字以及節點連結的頭

FP-tree挖掘的步驟：
經過FP定義構建好FP-tree之後，這時它的跟節點是root，可以稱作全域性樹，然後根據header table給定的順序，從末尾的項，選擇一個元素P，以它為條件，構建FP-tree,稱作P條件先的FP-tree,構建策略是從P開始往上尋找父節點，count值則是以P為基礎，構建結果後，一直到最終只剩下一個元素，挖掘結束

關聯分析Apriori演算法和FP-growth演算法初探
2018-08-04
演算法
關聯分析（二）--Apriori演算法
2018-12-29
演算法
關聯規則方法之apriori演算法
2018-08-23
演算法
關聯規則挖掘：Apriori演算法的深度探討
2023-11-20
演算法
Apriori 演算法-如何進行關聯規則挖掘
2020-12-10
演算法
儀表影像識別演算法
2024-11-10
演算法
6種常見的地標識別演算法整理和總結
2021-04-19
演算法
佔道經營識別演算法
2024-11-13
演算法
關聯規則分析 Apriori 演算法簡介與入門
2020-12-05
演算法
文字識別（六）--不定長文字識別CRNN演算法詳解
2019-02-18
RNN演算法
識別雜湊演算法型別hash-identifier
2019-05-05
演算法型別IDE
室內定位中非視距的識別和抑制演算法研究綜述
2022-07-23
演算法
揭秘語音識別演算法的神奇之處
2024-08-28
演算法
手勢識別演算法：資料濾波演算法、資料分演算法——KNN
2020-12-09
演算法KNN
Mars演算法實踐——人臉識別
2019-01-08
演算法
演算法識別(一)--TEA及其魔改
2024-07-23
演算法
打架鬥毆行為識別演算法
2024-10-14
演算法
Dijkstra演算法和Prim演算法有什麼區別？
2020-11-30
演算法
禁止演算法識別性別，能消解歧視嗎？
2021-04-20
演算法
人臉識別影像的模糊度判別演算法的最佳化
2021-09-09
演算法
Dijkstra演算法和Floyd演算法超詳解以及區別
2019-09-09
演算法
語音識別CTC演算法原理解釋
2018-05-18
演算法
OCR演算法識別率怎麼評估？
2020-12-11
演算法
菜市場價格分析 python pandas Apriori演算法資料預處理
2019-03-30
Python演算法
淺談 CAP 和 Paxos 共識演算法
2020-02-20
演算法
非機動車佔道AI識別演算法
2024-11-24
AI演算法
基於MATLAB的指紋識別演算法模擬實現
2022-11-25
Matlab演算法
Vue-router 中hash模式和history模式的區別
2020-10-04
Vue模式
資料探勘演算法跟資料結構中的演算法有區別嗎
2019-05-09
演算法資料結構
演算法設計與分析中的幾個核心演算法策略：動態規劃、貪心演算法、回溯演算法和分治演算法
2024-11-01
演算法動態規劃
看懂身份證識別OCR：從演算法到 API 使用
2023-05-15
演算法API
阿里AI獲影象識別冠軍百萬影象識別演算法可跑在手機上
2019-07-31
阿里AI演算法
共識演算法-LevelDB
2018-09-18
演算法
共識演算法-PoW
2018-09-17
演算法
【演算法】KMP初識
2018-08-06
演算法KMP
Pow共識演算法
2019-08-02
演算法
PBFT共識演算法
2020-06-10
演算法
BP演算法和LMBP演算法
2021-01-03
演算法