資料探勘概述(又) (轉)

worldblog發表於2007-12-07
資料探勘概述(又) (轉)[@more@]

資料探勘工具是怎樣準確地告訴你那些隱藏在深處的重要資訊的呢?它們又是如何作出預測的?答案就是建模。建
模實際上就是在你知道結果的情況下建立起一種模型,並且把這種模型應用到你所不知道的那種情況中。比如說,如果你
想要在大海上去尋找一艘古老的西班牙沉船,也許你首先想到的就是去找找過去發現這些寶藏的時間和地點有哪些。那
麼,經過調查你發現這些沉船大部分都是在百慕大海區被發現,並且那個海區有著某種特徵的洋流,以及那個時代的航線
也有一定的特徵可尋。在這眾多的類似特徵中,你將它們抽象並概括為一個普適的模型。利用這個模型,你就很有希望在
具有大量相同特徵的另外一個地點發現一件不為人知的寶藏。

  當然,在資料探勘技術甚至出現以前,這種建模抽象的方法就已經廣泛地被人們所使用。在計算機中的建模和
以前的建模方法並無很大不同,主要的差異在於計算機能處理的資訊量比起以前來更加龐大。計算機中能夠已知了結
果的大量不同情況,然後由資料探勘工具從這些大量的資訊裡面披沙揀金,將能夠產生模型的資訊提取出來。一當模型建
立好了之後,就可以應用在那些情形相似但結果尚未知的判斷中了。比如,現在假設你是一個公司的營銷主任,公司
想發展一些新的長途電話,那麼你是不是會漫無目的地到街上去散發廣告呢?——就象漫無目的地在海上去尋寶一
樣。其實,比起漫無目的地去進行宣傳來,利用你以前的商業來有目的地去拉攏客戶會產生高得多的。

  作為一個營銷主任,你對客戶的很多資訊都可以瞭解得一清二楚:年齡、性別、信用記錄以及長途電話使用狀況。從
好的一方面來看,掌握了這些客戶的資訊其實就是掌握了很多潛在的使用者的同樣的資訊。問題在於你還不一定了解他們的
長途電話使用情況(因為他們的長途電話也許是透過的另一個電信公司)。現在你的主要精力就集中在使用者中誰有比較多
的長途電話上。透過下面這個表格,我們可以從資料庫裡面抽象某些變數,建立起一個可以對此進行分類營銷的模型。
  客戶 潛力
一般資訊
(e.g. demographic data) 已知 已知
私有資訊
(e.g. customer transactions) 已知 待定

表二、資料探勘應用於分類營銷

  根據我們建立的從一般資訊到私有資訊的計算模型,我們可以得出表二右下方表格中的資訊。比如,一個電信公司的
簡化模型可以是:年薪6萬美圓以上的98%的客戶,每個月長話費80美圓以上。根據這個模型,我們就能應用這些資料來推
斷出公司現在尚不能明確的私有資訊,這樣,新客戶群體就可以大體確定出來了。小型市場的試銷資料對於這樣的模型來
說顯得極為有用。因為小範圍內試銷資料的挖掘,能夠為全部市場的分類銷售打下一個良好的基礎。表三則描述了另外一
樣資料探勘的普遍應用:預測。
  過去 現在 將來
靜態資訊和當前計劃 已知 已知 已知
動態資訊 已知 已知 待定

表三、資料探勘應用於預測

資料探勘的體系結構

  現有很多資料探勘工具是獨立於資料倉儲以外的,它們需要獨立地輸入輸出資料,以及進行相對獨立的資料分析。為
了最大限度地發揮資料探勘工具的潛力,它們必須象很多商業分析一樣,緊密地和資料倉儲整合起來。這樣,在人們
對引數和分析深度進行變化的時候,高整合度就能大大地簡化資料探勘過程。下圖顯示了一個大型資料庫中的高階分析過
程。

 


整合後的資料探勘體系

  應用資料探勘技術,較為理想的起點就是從一個資料倉儲開始,這個資料倉儲裡面應儲存著所有客戶的合同資訊,並
且還應有相應的市場競爭對手的相關資料。這樣的資料庫可以是各種市場上的資料庫:、、Rerick、和其
他等等,並且可以針對其中的資料進行速度上和靈活性上的。

  聯機分析OLAP可以使一個十分複雜的終端使用者商業模型應用於資料倉儲中。資料庫的多維結構可以讓使用者
從不同角度,——比如產品分類,地域分類,或者其他關鍵角度——來分析和觀察他們的生意運營狀況。資料探勘伺服器
在這種情況下必須和聯機分析伺服器,以及資料倉儲緊密地整合起來,這樣就可以直接跟蹤資料和並輔助使用者作出商
業決策,並且使用者還可以在資料的時候不斷發現更好的行為,並將其運用於未來的決策當中。

  資料探勘系統的出現代表著常規決策支援系統的基礎結構的轉變。不象查詢和報表語言僅僅是將資料查詢結果反饋給
終端使用者那樣,資料探勘高階分析伺服器把使用者的商業模型直接應用於其資料倉儲之上,並且反饋給使用者一個相關資訊的
分析結果。這個結果是一個經過分析和抽象的動態檢視層,通常會根據使用者的不同需求而變化。基於這個檢視,各種報表
工具和視覺化工具就可以將分析結果展現在使用者面前,以幫助使用者計劃將採取怎樣的行動。

產生利潤的工具

  有很多公司都成功地了資料探勘工具。早先採用了這種技術的公司大部分都是資訊密集型公司,比如金融服務和
營銷系統,但是現在這種技術已經準備好應用於各個公司中,只要公司具有大型資料庫,並且有強烈的透過軟體技術
改善公司管理的願望。但是採用資料探勘技術,公司必須兩個關鍵的因素,一個就是大型的,整合化的資料庫;另一個就
是定義完善的商業處理,這樣資料探勘才好緊密地應用於公司資料之上。

  採用資料探勘技術的一些成功應用,例如一個藥品公司,透過對它最近的營銷強度和銷售結果的分析,來決定哪一種
營銷活動在最近幾個月內對高附加值的醫生群體影響最大,這樣的分析建立在競爭對手的銷售活動資訊和當地健康狀況的
資料系統之上。然後這個藥品公司可以透過其辦公,將分析結果傳達到各地的銷售代表處,銷售代表們則可以根據公
司傳遞的關鍵資訊來作出相應的銷售抉擇,這樣,在快速變化的、動態的市場上,銷售代表們都可以根據各種特殊情況的
分析作出最優的選擇。

結語
  全面整合了客戶、供應者以及市場資訊的大型資料倉儲導致公司內的資訊呈爆炸性增長,企業在市場競爭中,需要及
時而準確地對這些資訊作複雜的分析。為了更加及時地,更加準確地作出利於企業的抉擇,建立在關聯式資料庫和聯機分析
技術上的資料探勘工具為我們帶來了一個新的轉機。目前,資料探勘工具正以前所未有的速度發展,並且擴大著使用者群
體,在未來越加激烈的市場競爭中,擁有資料探勘技術必將比別人獲得更快速的反應,贏得更多的商業機會。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/10752043/viewspace-989366/,如需轉載,請註明出處,否則將追究法律責任。

相關文章