資料探勘的基本步驟有哪些?具體流程是怎樣的?

候鳥之戀發表於2023-03-10

資料探勘的步驟包括商業理解、資料準備、資料理解、模型建立、模型評估和模型應用。

 

首先是商業理解,也就是對資料探勘問題本身的定義。所謂做正確的事比正確的做事更重要,在著手做資料模型之前一定要花時間去理解需求,弄清楚真正要解決的問題是什麼,根據需求制定工作方案。這個過程需要比較多的溝通和市場調查,瞭解問題提出的商業邏輯。在溝通交流過程中,為了便於對溝通效果進行把控,可以採取思維導圖等工具對的結果進行記錄、整理。

 

明確需求後,接下來就是要收集並整理資料建模所需要的資料。這個過程是資源調配的過程,需要與企業的相關部門明確可以使用的資料維度有哪些,哪些維度與建模任務相關性比價高。這個過程通常需要一定的專業背景知識。

 

資料理解指的是對用於挖掘資料的預處理和統計分析過程,有時也稱為 ETL過程。主要包括資料的抽取、清洗、轉換和載入,是整個資料探勘過程最耗時的過程,也是最為關鍵的一環。資料處理方法是否得當,對資料中所體現出來的業務特點理解是否到位,將直接影響到後面模型的選擇及模型的效果,甚至決定整個資料探勘工作能否完成預定目標。該過程需要有一定的統計學理論和實際經驗,並具備一定的專案經驗。

 

模型建立是是整個資料探勘流程中最為關鍵的一步,需要在資料理解的基礎上選擇並實現相關的挖掘演算法,並對演算法進行反覆除錯、實驗。通常模型建立和資料理解是相互影響,經常需要經過反覆的嘗試、磨合,多次迭代後方可訓練處真正有效的模型。 gendan5.com/zs/djia.html

 

模型評估是在資料探勘工作基本結束的時候,對最終模型效果進行評測的過程。在挖掘演算法初期需要制定好最終模型的評測方法、相關指標等,在這個過程中對這些評測指標進行量化,判斷最終模型是否可以達到預期目標。通常模型的評估人員和模型的構建人員不是同一批人,以保證模型評估的客觀、公正性。

 

最終,當挖掘得到的模型透過評測後可以安排上線、正式進入商業化流程中。為了避免由於建模資料與線上真實情況不一致而導致模型失效的狀況出現,通常在應用過程中採取 A/B測試的步驟,對模型在實際線上環境中的執行狀況進行觀察跟蹤,確保模型線上上環境中符合預期。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70014563/viewspace-2939110/,如需轉載,請註明出處,否則將追究法律責任。

相關文章