資料探勘專案的特徵和關鍵環節

bzxb1188發表於2020-12-19
1 資料探勘簡介
 
資料探勘業界權威michael berry和gordon linoff的論述,資料探勘是利用自動或半自動手段揭示大量資料中有意義的潛在規律的處理過程。這裡需要強調的是“大量資料”和“有意義的潛在規律”,這兩個特徵將資料探勘與傳統的獨立分散的資料分析及簡單的資料庫查詢、報表應用區分開來。
 
資料探勘應用在近年來迅速發展,其基礎是關係型資料庫系統應用的逐步普及和成熟,以資料庫形態存在的業務資料大量積累,為資料探勘中的“大量資料”和“自動或半自動手段”提供了可能;其驅動力是業務需求的發展,尤其是資料庫應用系統上線後給業務需求帶來的正反饋作用;其核心是產品化的資料探勘產品和實施諮詢服務。
 
2 資料探勘專案形態
 
2.1基於資料倉儲的資料探勘

在很多專案中,資料探勘是整合資料平臺特別是資料倉儲的延伸應用。通常,大型專案中,在資料倉儲中為特定主題的資料探勘建立資料集市,使得資料可以通過比較系統的形式定期載入更新,作為較為穩定的資料探勘資料來源;經過資料探勘得到的資料規律,以計分預測或者與營銷系統整合等形式釋出到企業中,並經過一定的收效評估和階段回顧,得出專案階段性結論[1]。這種型別的專案,資料探勘和資料倉儲緊密結合,取用統一資料,有利於資料探勘過程在企業的重用和固化,建立穩定的應用模式;但是資料探勘的過程在較大程度上受到資料倉儲建設的制約,見效的週期可能會較長,短期的投資見效比不理想,而且專案有很可能因資料倉儲方面的問題而非資料探勘的問題導致失敗。

2.2先導型資料探勘

資料探勘專案也可以獨立於資料倉儲存在。在挖掘的主題已經明確而相應的資料倉儲還未建立,或者是專案有較強的預研性的情況下,資料探勘專案可以直接進入主題,取用運營系統的原始資料,建立針對具體資料探勘用途的專用資料區,不考慮太多的重用批量載入環節,儘快地開始挖掘過程,並將結果與業務迅速溝通。這樣做的好處是便於企業更直接地體驗資料探勘的效益,尤其是業務管理部門可以很快得到來自資料規律的直接決策支援資訊,資料探勘受資料倉儲建設過程的制約較少,見效週期短,短期的投資見效比比較好。但是比較難形成較為穩定的應用模式,同時由於資料來源及轉換處理往往獨立於企業資料倉儲建設,部分工作可能會在以後的資料集市過程中重複開始,甚至出現資料的不一致性,如果存在過多的這種彼此獨立的專案,將造成區域性“資訊孤島”現象[2]。

在我們實施的資料探勘案例中,將以上兩種模式有機地結合在一起,先利用一個或幾個主題的獨立資料探勘專案的開展,為企業資料倉儲提供面向資料探勘的資料需求,同時,這些獨立專案中的資料準備環節充分考慮資料倉儲的思路。這樣,在資料倉儲建設中,可以得到更多的來自資料探勘的設計要求和參考經驗,有效地建立資料倉儲和資料探勘整體系統。

3 資料探勘專案的架構

3.1資料探勘方法論簡介

資料探勘的架構是建立在成熟、合理的方法論基礎上的。主要有semma方法論和crisp-dm方法論。semma方法論以抽樣(sample)、探索(explore)、修改(modify)、建模(model)、評估(assess)為核心環節,強調資料探勘過程是這5個環節的有機迴圈。crisp-dm是跨行業資料探勘標準流程(cross-industry standard process for data mining)的縮寫,強調以業務理解(business understanding)、資料理解(data understanding)、資料準備(data preparation)、建模(modeling)、評價(evaluation)、釋出(deployment)為核心環節,將資料探勘目標和商務目標有機地聯絡在一起[3]。

在實際應用中,我們將上述兩種方法有機地結合起來,crisp-dm強調高層的商務目的實現過程,semma強調具體的資料探勘技術實現過程。

3.2主要環節

綜合我們實際進行的資料探勘,資料探勘專案可以分為以下幾個主要環節,如圖1所示。
 
500)this.style.width=500;" border="0" style="font-family: -apple-system, "Helvetica Neue", Helvetica, Arial, "PingFang SC", "Hiragino Sans GB", "WenQuanYi Micro Hei", "Microsoft Yahei", sans-serif; -webkit-font-smoothing: antialiased; margin: 0px 0px 15px; padding: 0px; border: none; max-width: 100%; font-size: 16px; word-break: break-all; width: 485px; height: 270px; cursor: pointer;">
a) 定義業務問題

這個環節的任務包括:評估資料探勘過程的成本和商務收益間是否平衡,識別分析目標的焦點範圍,收集相關的業務規則,確定資料來源的可用性和驗證行業專家的觀點。

b) 轉換資料格式使之適應資料探勘的要求

這是技術性最強的環節,包括了資料準備和資料探勘建模。主要流程如圖2。
 
500)this.style.width=500;" border="0" style="font-family: -apple-system, "Helvetica Neue", Helvetica, Arial, "PingFang SC", "Hiragino Sans GB", "WenQuanYi Micro Hei", "Microsoft Yahei", sans-serif; -webkit-font-smoothing: antialiased; margin: 0px 0px 15px; padding: 0px; border: none; max-width: 100%; font-size: 16px; word-break: break-all; cursor: pointer;">
確定並獲取資料

首先,要根據已經明確的業務問題,定義需要被預測或研究的目標因素。然後,確認資料中包含在歷史上已經發生的目標因素的結果值,例如,預測客戶流失,歷史資料中需要包含客戶是否發生流失的資訊。同時資料中還應該包含與目標因素可能相關的各類資訊,在瞭解資料來源的過程中,還應該明確資料的更新載入方式,這樣才能夠形成不斷使用最近資料,預測未來目標的迴圈應用模式。
 
驗證,探索,清洗資料

需要確定資料的來源是否可靠。考察資料項是自動衍生還是手工錄入,是否存在缺失現象,取值是否符合規定,是否合理,數值分佈是否可以解釋,等等。

轉置資料,形成合適的顆粒度

資料探勘需要的資料往往是一個事件一行,一行中包含所有的相關屬性。例如,客戶價值分析中,以客戶號為核心,將客戶的各種指標在時間上的快照聚集到一行上。這種形式,需要對原始資料進行相應的轉置操作,例如,將多個屬性行對應一個一個客戶的結構轉置成一個客戶行多個屬性列的格式。

增加衍生變數

很多情形下,原始的資料列和目標因素之間不易找到明顯的相關性,需要增加一些衍生變數,以輔助分析。例如,在客戶使用量這個指標的基礎上,增加客戶的用量的三個月平均變動率,等等。
 
準備建模用的資料
這個環節需要考慮分析的時間段和時間顆粒度(周,月,季等),建模用的資料必須匹配相應的時間要求,資料中時間的發生必須在相應的時間段內。同時,可能需要對小概率事件進行過抽樣(oversampling)以適應建模技術。在很多情形下,還可能對資料做剖分(partition),將歷史資料分為訓練(train)、驗證(validate)、測試(test)三個部分,以便取得較好的預測效果,避免過擬合(overfitting)現象[4]。這些操作,將使資料更加適合資料探勘的建模工作。
 
選擇合適建模技術,訓練模型

這個環節,就是狹義上的“資料探勘”,實質上是挖掘建模的具體技術過程。我們採用semma方法論逐步找到合適的建模技術,訓練資料,最終找到規律和模式[5]。
 
檢驗模型的效果

在模型檢驗中,會使用歷史資料中部分已有結果,以測試資料的形式與模型預測結果對比,客觀地考察預測準確性。在真正的預測期間,只能等到未來的資料結果變成現實後,才能對預測結果作出對比,因此,需要有一個模型在市場環境中的試投放的時期,來檢驗模型真實效果。

c) 對分析結果進行理解和應用

利用資料探勘的最終結果和中間結果,可以深入瞭解企業資料的分佈特徵和存在的問題,進行一次性的專題分析或是週期性分析預測,還可以建立實時評分系統如客戶信用評分系統等,也可以為企業資料系統的改進提供重要的依據。

d) 評估模型的收效

將模型的結果和投入成本與真實的業務收效相比,最終對資料探勘過程作出綜合評價。

4 小結
 
資料探勘專案在目前,特別是在國內,還處於邊界條件尚未明確界分的階段,並不是很成熟。但是資料探勘專案的特質之一就是動態性,這種動態性是由它與企業業務的密切結合決定的,它對於業務的輔助作用的力度和直接程度超過了傳統的業務支撐系統、mis系統,也超過了資料倉儲應用中的報表查詢系統;企業對於決策資訊的需求,在資料探勘專案中,找到了前所未有的載體,因此,資料探勘應用擁有更加廣闊深遠的前景。隨著資料探勘中某些應用的進一步成熟,資料探勘將在各大行業中逐步形成有層次的產業鏈。

所以,不斷地跟蹤最新的資料探勘知識和專案實施方法論,不斷地通過資料探勘專案實踐來創造業務效益,應該作為國內資訊科技領域在今後一個時期的焦點命題。本文掛靠中國民航飛行學院科研基金,專案名稱是“裝置虛擬網”,基金編號是j2004-23。

參考文獻

[1] michael j.a. berry and gordon s. linoff . mastering data mining. john wiley & s isbn 0-471-33123-6,copyright 2000.

[2] y. vassiliou, maurizio lenzerini, panos vassiliadis. fundamentals of data warehouses november 2002 publisher. springer verlag; 2nd edition (january 17, 2003).

[3](加)jiawei han micheline kamber. 資料探勘概念與技術. 機械工業出版社,2001年.

[4] 薩師煊. 資料庫系統概論. 高等教育出版社,2004年.

[5] 郭崇慧. 資料探勘教程. 清華大學出版社,2005年.

相關文章