資料探勘的基本步驟有哪些?具體流程是怎樣的?
資料探勘的步驟包括商業理解、資料準備、資料理解、模型建立、模型評估和模型應用。
首先是商業理解,也就是對資料探勘問題本身的定義。所謂做正確的事比正確的做事更重要,在著手做資料模型之前一定要花時間去理解需求,弄清楚真正要解決的問題是什麼,根據需求制定工作方案。這個過程需要比較多的溝通和市場調查,瞭解問題提出的商業邏輯。在溝通交流過程中,為了便於對溝通效果進行把控,可以採取思維導圖等工具對的結果進行記錄、整理。
明確需求後,接下來就是要收集並整理資料建模所需要的資料。這個過程是資源調配的過程,需要與企業的相關部門明確可以使用的資料維度有哪些,哪些維度與建模任務相關性比價高。這個過程通常需要一定的專業背景知識。
資料理解指的是對用於挖掘資料的預處理和統計分析過程,有時也稱為 ETL過程。主要包括資料的抽取、清洗、轉換和載入,是整個資料探勘過程最耗時的過程,也是最為關鍵的一環。資料處理方法是否得當,對資料中所體現出來的業務特點理解是否到位,將直接影響到後面模型的選擇及模型的效果,甚至決定整個資料探勘工作能否完成預定目標。該過程需要有一定的統計學理論和實際經驗,並具備一定的專案經驗。
模型建立是是整個資料探勘流程中最為關鍵的一步,需要在資料理解的基礎上選擇並實現相關的挖掘演算法,並對演算法進行反覆除錯、實驗。通常模型建立和資料理解是相互影響,經常需要經過反覆的嘗試、磨合,多次迭代後方可訓練處真正有效的模型。 gendan5.com/zs/djia.html
模型評估是在資料探勘工作基本結束的時候,對最終模型效果進行評測的過程。在挖掘演算法初期需要制定好最終模型的評測方法、相關指標等,在這個過程中對這些評測指標進行量化,判斷最終模型是否可以達到預期目標。通常模型的評估人員和模型的構建人員不是同一批人,以保證模型評估的客觀、公正性。
最終,當挖掘得到的模型透過評測後可以安排上線、正式進入商業化流程中。為了避免由於建模資料與線上真實情況不一致而導致模型失效的狀況出現,通常在應用過程中採取 A/B測試的步驟,對模型在實際線上環境中的執行狀況進行觀察跟蹤,確保模型線上上環境中符合預期。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70014563/viewspace-2939110/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 資料探勘的步驟有哪些?
- 大資料探勘的大致步驟是怎樣的?大資料
- 思邁特軟體Smartbi:資料探勘的基本步驟
- Java訪問資料庫的具體步驟:Java資料庫
- 資料探勘的過程有哪些
- 資料探勘的辦法有哪些
- 開自動檔車具體操作流程是怎麼樣的
- 完整的資料分析是怎樣的流程
- 紐約消防局是怎樣利用資料探勘的?
- [zt]為了提高資料庫的處理速度,怎樣設計資料庫?具體方法有哪些?資料庫
- 大資料視覺化分析的步驟有哪些大資料視覺化
- 通過哪些方法判斷goroutine洩漏?有沒有具體的除錯步驟的文章?Go除錯
- 有哪些常見的資料探勘方法?
- 資料庫的基本分類是怎樣的?資料庫
- iOS framework的具體合成步驟iOSFramework
- 使用Oracle Statpack的具體步驟Oracle
- 資料視覺化的基本流程是怎樣的,看完這篇你就明白視覺化
- 資料庫設計的基本步驟資料庫
- 實現PMC的數字化轉型需要哪些具體的步驟?
- 手機app開發的基本流程步驟APP
- 什麼是大資料測試?大資料測試實現步驟有哪些?大資料
- 多媒體展廳建設有哪些具體流程?
- MYSQL查詢和插入資料的流程是怎樣的MySql
- 大資料探勘有哪些技術大資料
- SNP乾貨分享:SAP資料脫敏的具體實施步驟
- 講解Oracle資料庫冷備份恢復的具體步驟Oracle資料庫
- 大資料分析技術有哪些應用步驟大資料
- 小程式中接入廣告的具體步驟
- Logminer的使用,具體執行步驟
- Linux核心裁剪的具體步驟Linux
- 進行資料探勘常見的方法有哪些呢?
- Nginx軟體企業功能應用有哪些?linux學習基本步驟NginxLinux
- 零售行業進行資料探勘的七個步驟行業
- 網路優化設定的具體步驟優化
- Oracle資料庫登入流程的步驟介紹Oracle資料庫
- 詳細講解DB2資料庫效能監控的具體步驟DB2資料庫
- 資料視覺化如何進行?大致流程是怎樣的?視覺化
- 在oracle中,匯出某使用者的資料和匯入的具體步驟Oracle