PrefixSpan演算法原理總結

劉建平Pinard發表於2017-01-20

原文網址 : http://www.cnblogs.com/pinard/p/6323182.html

　　　　前面我們講到頻繁項集挖掘的關聯演算法Apriori和FP Tree。這兩個演算法都是挖掘頻繁項集的。而今天我們要介紹的PrefixSpan演算法也是關聯演算法，但是它是挖掘頻繁序列模式的，因此要解決的問題目標稍有不同。

1. 項集資料和序列資料

　　　　首先我們看看項集資料和序列資料有什麼不同，如下圖所示。

　　　　左邊的資料集就是項集資料，在Apriori和FP Tree演算法中我們也已經看到過了，每個項集資料由若干項組成，這些項沒有時間上的先後關係。而右邊的序列資料則不一樣，它是由若干資料項集組成的序列。比如第一個序列<a(abc)(ac)d(cf)>,它由a,abc,ac,d,cf共5個項集資料組成，並且這些項有時間上的先後關係。對於多於一個項的項集我們要加上括號，以便和其他的項集分開。同時由於項集內部是不區分先後順序的，為了方便資料處理，我們一般將序列資料內所有的項集內部按字母順序排序。

2. 子序列與頻繁序列

　　　　瞭解了序列資料的概念，我們再來看看上面是子序列。子序列和我們數學上的子集的概念很類似，也就是說，如果某個序列A所有的項集在序列B中的項集都可以找到，則A就是B的子序列。當然，如果用嚴格的數學描述，子序列是這樣的：

　　　　對於序列A={$a_1,a_2,...a_n$}和序列B={$b_1,b_2,...b_m$},$n \leq m$，如果存在數字序列$1 \leq j_1 \leq j_2 \leq ... \leq j_n \leq m$, 滿足$a_1 \subseteq b_{j_1}, a_2 \subseteq b_{j_2}...a_n \subseteq b_{j_n} $，則稱A是B的子序列。當然反過來說， B就是A的超序列。

　　　　而頻繁序列則和我們的頻繁項集很類似，也就是頻繁出現的子序列。比如對於下圖，支援度閾值定義為50%，也就是需要出現兩次的子序列才是頻繁序列。而子序列<(ab)c>是頻繁序列，因為它是圖中的第一條資料和第三條序列資料的子序列，對應的位置用藍色標示。

3. PrefixSpan演算法的一些概念

　　　　PrefixSpan演算法的全稱是Prefix-Projected Pattern Growth，即字首投影的模式挖掘。裡面有字首和投影兩個詞。那麼我們首先看看什麼是PrefixSpan演算法中的字首prefix。

　　　　在PrefixSpan演算法中的字首prefix通俗意義講就是序列資料前面部分的子序列。比如對於序列資料B=<a(abc)(ac)d(cf)>，而A=<a(abc)a>,則A是B的字首。當然B的字首不止一個，比如<a>, <aa>, <a(ab)> 也都是B的字首。

　　　　看了字首，我們再來看字首投影，其實字首投影這兒就是我們的字尾，有字首就有字尾嘛。字首加上字尾就可以構成一個我們的序列。下面給出字首和字尾的例子。對於某一個字首，序列裡字首後面剩下的子序列即為我們的字尾。如果字首最後的項是項集的一部分，則用一個“_”來佔位表示。

　　　　下面這個例子展示了序列<a(abc)(ac)d(cf)>的一些字首和字尾，還是比較直觀的。要注意的是，如果字首的末尾不是一個完全的項集，則需要加一個佔位符。

　　　　在PrefixSpan演算法中，相同字首對應的所有字尾的結合我們稱為字首對應的投影資料庫。

4. PrefixSpan演算法思想

　　　　現在我們來看看PrefixSpan演算法的思想，PrefixSpan演算法的目標是挖掘出滿足最小支援度的頻繁序列。那麼怎麼去挖掘出所有滿足要求的頻繁序列呢。回憶Aprior演算法，它是從頻繁1項集出發，一步步的挖掘2項集，直到最大的K項集。PrefixSpan演算法也類似，它從長度為1的字首開始挖掘序列模式，搜尋對應的投影資料庫得到長度為1的字首對應的頻繁序列，然後遞迴的挖掘長度為2的字首所對應的頻繁序列，。。。以此類推，一直遞迴到不能挖掘到更長的字首挖掘為止。

　　　　比如對應於我們第二節的例子，支援度閾值為50%。裡面長度為1的字首包括<a>, <b>, <c>, <d>, <e>, <f>,<g>我們需要對這6個字首分別遞迴搜尋找各個字首對應的頻繁序列。如下圖所示，每個字首對應的字尾也標出來了。由於g只在序列4出現，支援度計數只有1，因此無法繼續挖掘。我們的長度為1的頻繁序列為<a>, <b>, <c>, <d>, <e>，<f>。去除所有序列中的g，即第4條記錄變成<e(af)cbc>

　　　　
　　　　現在我們開始挖掘頻繁序列,分別從長度為1的字首開始。這裡我們以d為例子來遞迴挖掘，其他的節點遞迴挖掘方法和Ｄ一樣。方法如下圖，首先我們對ｄ的字尾進行計數，得到{a:1, b:2, c:3, d:0, e:1, f:1，_f:1}。注意f和_f是不一樣的，因為前者是在和字首d不同的項集，而後者是和字首d同項集。由於此時a,d,e,f,_f都達不到支援度閾值，因此我們遞迴得到的字首為d的2項頻繁序列為<db>和<dc>。接著我們分別遞迴db和dc為字首所對應的投影序列。首先看db字首，此時對應的投影后綴只有<_c(ae)>,此時_c,a,e支援度均達不到閾值，因此無法找到以db為字首的頻繁序列。現在我們來遞迴另外一個字首dc。以dc為字首的投影序列為<_f>, <(bc)(ae)>, <b>，此時我們進行支援度計數，結果為{b:2, a:1, c:1, e:1, _f:1}，只有b滿足支援度閾值，因此我們得到字首為dc的三項頻繁序列為<dcb>。我們繼續遞迴以<dcb>為字首的頻繁序列。由於字首<dcb>對應的投影序列<(_c)ae>支援度全部不達標，因此不能產生4項頻繁序列。至此以d為字首的頻繁序列挖掘結束，產生的頻繁序列為<d><db><dc><dcb>。

　　　　同樣的方法可以得到其他以<a>, <b>, <c>, <e>, <f>為字首的頻繁序列。

5. PrefixSpan演算法流程

　　　　下面我們對PrefixSpan演算法的流程做一個歸納總結。

　　　　輸入：序列資料集S和支援度閾值$\alpha$

　　　　輸出：所有滿足支援度要求的頻繁序列集

　　　　1）找出所有長度為1的字首和對應的投影資料庫

　　　　2）對長度為1的字首進行計數，將支援度低於閾值$\alpha$的字首對應的項從資料集S刪除，同時得到所有的頻繁1項序列，i=1.

　　　　3）對於每個長度為i滿足支援度要求的字首進行遞迴挖掘：

　　　　　　a) 找出字首所對應的投影資料庫。如果投影資料庫為空，則遞迴返回。

　　　　　　b) 統計對應投影資料庫中各項的支援度計數。如果所有項的支援度計數都低於閾值$\alpha$，則遞迴返回。

　　　　　　c) 將滿足支援度計數的各個單項和當前的字首進行合併，得到若干新的字首。

　　　　　　d) 令i=i+1，字首為合併單項後的各個字首，分別遞迴執行第3步。

6. PrefixSpan演算法小結

　　　　PrefixSpan演算法由於不用產生候選序列，且投影資料庫縮小的很快，記憶體消耗比較穩定，作頻繁序列模式挖掘的時候效果很高。比起其他的序列挖掘演算法比如GSP,FreeSpan有較大優勢，因此是在生產環境常用的演算法。

　　　　PrefixSpan執行時最大的消耗在遞迴的構造投影資料庫。如果序列資料集較大，項數種類較多時，演算法執行速度會有明顯下降。因此有一些PrefixSpan的改進版演算法都是在優化構造投影資料庫這一塊。比如使用偽投影計數。

　　　　當然使用大資料平臺的分散式計算能力也是加快PrefixSpan執行速度一個好辦法。比如Spark的MLlib就內建了PrefixSpan演算法。

　　　　不過scikit-learn始終不太重視關聯演算法，一直都不包括這一塊的演算法整合，這就有點落伍了。

（歡迎轉載，轉載請註明出處。歡迎溝通交流： liujianping-ok@163.com）

PHP 排序演算法原理及總結
2019-10-15
PHP排序演算法
世界碰撞演算法原理和總結（sat gjk）
2020-10-29
演算法
排序演算法原理總結和Python實現
2021-01-01
排序演算法Python
Bagging與隨機森林(RF)演算法原理總結
2020-08-22
隨機森林演算法
Rxjava工作原理總結
2019-03-06
RxJava
XGBoost演算法原理小結
2019-06-05
演算法
感知機（perceptron）原理總結
2020-07-21
譜聚類原理總結
2022-01-18
聚類
vue原理相關總結
2022-02-11
Vue
演算法思路總結
2020-11-12
演算法
iOS底層原理總結 – RunLoop
2019-03-03
iOSOOP
Node.js 的原理總結
2019-07-08
Node.js
Elasticsearch 5.6 原理和使用總結
2019-02-19
Elasticsearch
iOS底層原理總結 - RunLoop
2018-04-25
iOSOOP
微機原理之DMA總結
2020-12-25
Git概念及工作原理總結
2020-11-25
Git
優化演算法總結
2018-12-20
優化演算法
搜尋演算法總結
2024-06-08
演算法
排序演算法全總結
2018-04-04
排序演算法
演算法總結--ST表
2023-03-25
演算法
演算法總結--搜尋
2023-03-27
演算法
演算法Tips大總結
2021-01-03
演算法
《演算法之美》總結
2021-01-18
演算法
Go加密演算法總結
2020-12-19
Go加密演算法
KMP演算法和bfprt演算法總結
2020-11-15
KMP演算法
推薦演算法（二）--演算法總結
2018-12-30
演算法
Binder總結篇1-Binder原理
2018-08-13
iOS底層原理總結 - 關聯物件實現原理
2018-05-13
iOS物件
常用排序演算法總結（1）
2018-05-11
排序演算法
演算法基礎 --- 日常總結
2018-09-15
演算法
常用排序演算法總結（2）
2018-05-13
排序演算法
圖的演算法的總結
2018-06-07
演算法
Go 加密解密演算法總結
2020-09-23
Go加密解密演算法
SOM演算法學習總結
2020-11-08
演算法
刷題總結——回溯演算法
2024-10-26
演算法
（轉）Go加密演算法總結
2024-10-30
Go加密演算法
筆試演算法題總結
2022-04-11
筆試演算法
最短路徑演算法總結
2021-04-21
演算法
常見排序演算法總結
2021-03-17
排序演算法