資料探勘之預測篇

junnyblog發表於2009-11-17

本文作為資料探勘技術的入門篇,部分整理,待完善,增加資料探勘演算法深入&應用等內容....

[@more@]一、資料探勘過程
1、資料抽樣
(1)從企業資料中精選用於資料探勘的樣本
(2)資料取樣時要嚴把質量關
(3)抽樣資料必須在足夠範圍內有代表性
(4)資料常分為訓練、測試和驗證資料集
2、資料探索
(1)抽樣資料是否達到設想要求?
(2)有沒有什麼明顯的規律和趨勢?
(3)有沒有出現從未設想過的資料狀態?
(4)因素之間有什麼相關性?
(5)是否有明顯的組差別?
3、模式發現
(1)對問題解決的要求需進一步量化
(2)過濾不需要的記錄知識的發現
(3)資料結構和內容進一步調整
4、預測建模
(1)根據資料集的特徵和要實現的目標,選擇合適的資料探勘方法
5、模型評估
(1)均方誤差(MSE)
(2)平均絕對誤差(MAE)
(3)平方和誤差(SSE)
(4)平均相對誤差(MAPE)
二、資料預測
(1)短期預測
(2)中期預測
(3)長期預測
三、預測方法
(1)傳統預測方法的基礎是傳統數學工具,代表性的方法有迴歸模型法、時間序列法、趨勢外推法等。
現代預測方法是隨著人工智慧研究領域的興起而出現的,它結合了人工智慧領域的神經網路、小
波分析、模糊數學等學科的最新研究成果
三、預測應用
外推法:找出時間序列觀測值中的變化規律與趨勢,然後透過對這些規律或趨勢的外推來確定未來的預測值,包括:
1、移動平均法(時間序列沒有趨勢和季節成分)
(1)適用於圍繞一個穩定水平上下波動的時間序列。
(2)利用平均使各個時間點上的觀測值中的隨機因素互相抵消掉,以獲得關於穩定水平的預測。
(3)將包括當前時刻在內的N個時間點上的觀測值的平均值作為對於下一時刻的預測值(N應選擇得使MSE極小化)。
2、指數平滑法(時間序列沒有趨勢和季節成分)
(1)改進移動平均預測模型,將計算平均值對於不同時期觀測值的權數設定得不同:近期的權數較大,遠期的權數較小。
(2)指數平滑的疊代演算法。
3、趨勢預測法(時間序列含有趨勢成分)
(1)依時間變化呈現某種上升或下降的趨勢,並且無明顯的季節波動,又能找到一條合適的函式曲線反映這種變化趨勢時,
就可以用時間t為自變數,時序數值y為因變數,建立趨勢模型y=f(t)。賦予變數t所需要的值,可以得到相應時刻的
時間序列未來值。這就是趨勢外推法。
(2)線性趨勢預測法、對數趨勢預測法、二次曲線趨勢預測法、指數曲線趨勢預測法。
4、季節指數法(時間序列含有季節成分)
(1)對於既含有線性(非線性)趨勢成分又含有季節成分的時間序列,可對其成分進行分解,這種分解建立在以下乘法模型的基礎上:
Yt=Tt*St*It
其中,Tt表示趨勢成分,St表示季節成分,It表示不規則成分。由於不規則成分的不可預測,因此預測值就可表示為趨勢成分和季節成分的乘積。
(2)建立季節指數模型的一般步驟如下:
第一步,計算每一季(每季度,每月等等)的季節指數St 。
第二步,用時間序列的每一個觀測值除以適當的季節指數,消除季節影響。
第三步,為消除了季節影響的時間序列建立適當的趨勢模型並用這個模型進行預測。
第四步,用預測值乘以季節指數,計算出最終的帶季節影響的預測值。
因果法:尋找時間序列因變數觀測值與自變數觀測值之間的依賴關係,然後利用這種依賴關係和自變數的預計值來確定因變數的預測值。
1、迴歸預測法
2、神經網路預測

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/22630256/viewspace-1028803/,如需轉載,請註明出處,否則將追究法律責任。

相關文章