序列資料探勘

bidwhome發表於2007-08-05
--[@more@]

一、時間序列資料探勘

時間序列是資料存在的特殊形式,序列的過去值會影響到將來值,這種影響的大小以及影響的方式可由時間序列中的趨勢週期及非平穩等行為來刻畫。一般來講,時間序列資料都具有躁聲、不穩定、隨機性等特點,對於這類資料的預測方法目前主要有自動迴歸滑動平均(ARMA)和神經網路等,但這些方法有一些缺點是很難克服的,ARMA包含的是線性行為,對於非線性的因素沒有包含;而神經網路的結構需要事先指定或應用啟發式演算法在訓練過程中修正;同時神經網路得到的解是區域性最優而非全域性最優。比較而言支援向量機( SVM)能較好地解決了上述的一些問題,並在實際應用中取得了很好的效能。

二、序列模式挖掘概念及定義

舉例說明,比如有顧客租借錄影帶,典型的順序是先租“星球大戰”,然後是“帝國反戰”,再是“傑達武士歸來”(這三部影片是以故事發生的時間先後而情節連續的)。值得注意的是租借這三部電影的行為並不一定需要是連續的。在任意兩部之間隨便插租了什麼電影,仍然還是滿足了這個序列模式,並且擴充套件一下,序列模式的元素也可以不只是一個元素(如一部電影),它也可以是一個項集(item set)。所謂項集,指的是多個物品組成的集合,內部元素不分排列順序,比如“枕頭和枕頭套”就可以看作是由兩個項(item)組成的項集,它也可以作為某一個序列模式的元素。
比如資料來源是一個給定的由客戶交易(customer transaction)組成的大型資料庫,每個交易(transaction)由客戶號(customer-id),交易時間(transaction-time)以及在交易中購買的項(item)組成。
(1)項集(itemset)是由項(item)組成的一個非空集合。
(2)序列(sequence)是一列排好序的項集
不失一般性我們假定項集中的項由一些連續整數代替,這樣一個項集i可以表示為(i1,i2…im),而這裡的ij代表了一個項。一個序列s可以表示為,這裡的sj代表的是一個項集。
兩個序列a 和b ,如果存在整數i1包含於序列< (7) (3,8) (9) (4,5,6) (8) >,因為(3)包含於(3,8),(4,5)包含於(4,5,6)以及(8)包含於(8)。但是序列< (3) (5) >不包含於< (3,5) >,反之亦然。前者表示項3和項5是先後購買的,而後者則表示項3和項5是同時購買的,這就是區別所在。在一個序列集(a set of sequences)中如果序列s不包含於任何其他序列中,則稱序列s為最大的(maximal)。
一個客戶所有的事務(transactions)可以綜合的看成是一個序列,每一個事務都由相應的一個項集來表示。事務按交易時間序排列就成了一個序列。我們稱這樣的序列為客戶序列(customer-sequence)。通常,將一個客戶的交易按交易時間排序成T1 ,T2 ,……,Tn。Ti中的項集定義成itemset(Ti)。這樣,這個客戶的客戶序列就成了這樣的一個序列:〈itemset(T1) itemset(T2) … itemset(Tn)〉。見圖_2。
如果一個序列s包含於一個客戶序列中,則我們稱該客戶支援(support)序列s。一個具體序列的支援(support)定義為那一部分支援該序列的客戶總數。
給定一個由客戶交易組成的資料庫D,挖掘序列模式的問題就是在那些具有客戶指定最小支援度(minimum support)的序列中找出最大序列(maximal sequence)。而每個這樣的最大序列就代表了一個序列模式(sequential pattern)。

時間序列挖掘其本質是根據資料隨時間變化的趨勢預測將來的值。重點要考慮的是時間的特殊性質,像一些週期性的時間定義如星期、月、季節、年等,不同的日子如節假日可能造成的影響,日期本身的計算方法,還有一些需要特殊考慮的地方如時間前後的相關性(過去的事情對將來有多大的影響力)等。只有充分考慮時間因素,利用現有資料隨時間變化的一系列的值,才能更好地預測將來的值。

三、時間序列挖掘在金融領域的應用
用於金融時間序列的預測方法很多,由於神經網路作為一種通用函式逼近器可以以任意精度近似任意非線性函式和動態系統,是高度非線性物件建模的有力工具,因此目前在該領域研究中仍以神經網路方法為主。但ANN仍有一些不易解決的難題,如難以確定神經網路的隱層節點數,存在過學習現象,訓練過程中存在區域性極小問題等。為了解決這些問題,Vapnik等人根據統計學習理論
提出了支援向量機學習方法,它的最大特點是改變了傳統的神經網路中經驗風險最小化原則,而是針對結構風險最小化原則提出的,因此具有很好的泛化能力。目前已經廣泛用於解決分類和迴歸問題

 

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/7600305/viewspace-931831/,如需轉載,請註明出處,否則將追究法律責任。

相關文章