序列資料探勘
一、時間序列資料探勘
時間序列是資料存在的特殊形式,序列的過去值會影響到將來值,這種影響的大小以及影響的方式可由時間序列中的趨勢週期及非平穩等行為來刻畫。一般來講,時間序列資料都具有躁聲、不穩定、隨機性等特點,對於這類資料的預測方法目前主要有自動迴歸滑動平均(ARMA)和神經網路等,但這些方法有一些缺點是很難克服的,ARMA包含的是線性行為,對於非線性的因素沒有包含;而神經網路的結構需要事先指定或應用啟發式演算法在訓練過程中修正;同時神經網路得到的解是區域性最優而非全域性最優。比較而言支援向量機( SVM)能較好地解決了上述的一些問題,並在實際應用中取得了很好的效能。
二、序列模式挖掘概念及定義
舉例說明,比如有顧客租借錄影帶,典型的順序是先租“星球大戰”,然後是“帝國反戰”,再是“傑達武士歸來”(這三部影片是以故事發生的時間先後而情節連續的)。值得注意的是租借這三部電影的行為並不一定需要是連續的。在任意兩部之間隨便插租了什麼電影,仍然還是滿足了這個序列模式,並且擴充套件一下,序列模式的元素也可以不只是一個元素(如一部電影),它也可以是一個項集(item set)。所謂項集,指的是多個物品組成的集合,內部元素不分排列順序,比如“枕頭和枕頭套”就可以看作是由兩個項(item)組成的項集,它也可以作為某一個序列模式的元素。
比如資料來源是一個給定的由客戶交易(customer transaction)組成的大型資料庫,每個交易(transaction)由客戶號(customer-id),交易時間(transaction-time)以及在交易中購買的項(item)組成。
(1)項集(itemset)是由項(item)組成的一個非空集合。
(2)序列(sequence)是一列排好序的項集
不失一般性我們假定項集中的項由一些連續整數代替,這樣一個項集i可以表示為(i1,i2…im),而這裡的ij代表了一個項。一個序列s可以表示為
兩個序列a
一個客戶所有的事務(transactions)可以綜合的看成是一個序列,每一個事務都由相應的一個項集來表示。事務按交易時間序排列就成了一個序列。我們稱這樣的序列為客戶序列(customer-sequence)。通常,將一個客戶的交易按交易時間排序成T1 ,T2 ,……,Tn。Ti中的項集定義成itemset(Ti)。這樣,這個客戶的客戶序列就成了這樣的一個序列:〈itemset(T1) itemset(T2) … itemset(Tn)〉。見圖_2。
如果一個序列s包含於一個客戶序列中,則我們稱該客戶支援(support)序列s。一個具體序列的支援(support)定義為那一部分支援該序列的客戶總數。
給定一個由客戶交易組成的資料庫D,挖掘序列模式的問題就是在那些具有客戶指定最小支援度(minimum support)的序列中找出最大序列(maximal sequence)。而每個這樣的最大序列就代表了一個序列模式(sequential pattern)。
時間序列挖掘其本質是根據資料隨時間變化的趨勢預測將來的值。重點要考慮的是時間的特殊性質,像一些週期性的時間定義如星期、月、季節、年等,不同的日子如節假日可能造成的影響,日期本身的計算方法,還有一些需要特殊考慮的地方如時間前後的相關性(過去的事情對將來有多大的影響力)等。只有充分考慮時間因素,利用現有資料隨時間變化的一系列的值,才能更好地預測將來的值。
三、時間序列挖掘在金融領域的應用
用於金融時間序列的預測方法很多,由於神經網路作為一種通用函式逼近器可以以任意精度近似任意非線性函式和動態系統,是高度非線性物件建模的有力工具,因此目前在該領域研究中仍以神經網路方法為主。但ANN仍有一些不易解決的難題,如難以確定神經網路的隱層節點數,存在過學習現象,訓練過程中存在區域性極小問題等。為了解決這些問題,Vapnik等人根據統計學習理論
提出了支援向量機學習方法,它的最大特點是改變了傳統的神經網路中經驗風險最小化原則,而是針對結構風險最小化原則提出的,因此具有很好的泛化能力。目前已經廣泛用於解決分類和迴歸問題
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/7600305/viewspace-931831/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 自學資料探勘
- Web資料探勘Web
- 資料探勘概念
- 資料探勘——認識資料
- 資料探勘者與資料探勘青年的對話(轉)
- 資料探勘( TO DO LIST)
- 資料探勘與生活
- 資料探勘的功能
- 神奇的資料探勘
- 資料探勘概述 (轉)
- 資料探勘方向分析
- 資料探勘技術
- 資料探勘的資料分析方法
- 資料探勘與資料抽樣
- 資料探勘資源彙總
- 《資料探勘:實用機器學習技術》——資料探勘、機器學習一舉兩得機器學習
- 資料:資料探勘綜述彙編
- 資料探勘資料集下載資源
- 什麼是資料探勘??
- 資料探勘實習面試面試
- 使用 Oracle 資料探勘 APIOracleAPI
- 資料探勘能做什麼
- 機器學習、資料探勘及其他機器學習
- 資料探勘概述(又) (轉)
- 大資料、資料分析、資料探勘的差別大資料
- 資料探勘和資料提取能做什麼?
- Spark ML包,資料探勘示例資料AffairsSparkAI
- 《資料探勘導論》實驗課——實驗四、資料探勘之KNN,Naive BayesKNNAI
- 資料探勘-層次聚類聚類
- 統計學與資料探勘
- 什麼是資料探勘(zt)
- 資料探勘之預測篇
- 常用資料探勘演算法演算法
- 資料探勘之資料準備——原始資料的特性
- OLAP和資料探勘——資料倉儲手冊
- 【python資料探勘課程】二十三.時間序列金融資料預測及Pandas庫詳解Python
- 淺談大資料、資料分析、資料探勘的區別!大資料
- 重磅 | 資料探勘之父韓家煒:文字語料庫的資料探勘(附視訊+PPT下載)