關於資料探勘你想了解的都在這

環音儀資料發表於2022-04-01

隨著計算機技術的革新和網路媒體的快速發展,人們的生活以及企業發展進入了高速資訊數字化時代。每天的生活以及生產都要產生大量的資料,例如交通,網路、文字、方位等。但是人們很少能夠意識到這些豐富資料中隱藏了有價值的資訊。

 

什麼是資料探勘?


2009年穀歌根據人們搜尋的歷史記錄等大資料成功預測H1N1流感爆發地。


圖片3.png

 


從技術的角度來看,資料探勘是指利用大量不完整並充滿隨機性的應用在實際的資料,進而從中提取潛在而有價值的資訊。從商業的角度來看,它是指從商業資料庫中提取、轉換、分析等大量業務資料的關鍵資訊,以協助商業決策。


簡而言之:大資料探勘是發現資料中隱含的有價值資訊,並受科學資訊、資料庫技術、統計學、機器學習、視覺化等多學科的影響。

 

資料探勘的建模過程


1.定義挖掘目標


通過以下步驟確定挖掘目標

(1)需求背景是什麼?

(2)什麼是客戶的痛點

(3)對映到挖掘上,是要實現什麼功能?


例如在銀行客戶流失案例中:


背景:客戶是發展銀行業務重點,客戶流失問題就成為整個行業迫切需要解決的問題。


痛點:傳統的方式是靠人工經驗判斷客戶是否會流失,存在主觀性的滯後性,解決問題的關鍵是提高客戶流失的預見性。


挖掘功能:通過歷史客戶資料,建立預測模型,對超過一定閾值的客戶發出預警資訊,並提前採取保留措施。


2.資料獲取


圖片5.png 


資料探索是指通過繪製圖表和計算某些特徵來分析樣本資料集的結構特徵和分佈特徵的過程。該步驟有助於選擇合適的資料預處理和資料分析技術,它是資料建模的依據,比如:資料探索發現資料稀疏,建模時則選擇對稀疏資料支援相對較好的分析方案。


資料質量分析:對原始資料進行檢查,看其中是否又髒資料。例如缺失值、異常值、不一致的值、重複資料、含有特殊符號的資料等。


資料特徵分析:展示資料分佈情況、資料對比分析、統計分析、正態性檢驗、相關性分析。


4.資料預處理


資料預處理是將不規整的業務資料整理為相對規整的建模資料,資料的質量決定了模型輸出的結果。


資料清洗:去除噪聲和無關資料。


資料轉換:將原始資料轉換成合適資料探勘的形式。


資料整合:結合多個資料來源中的資料,儲存在一致的資料儲存中。


資料規約:維歸約、資料壓縮、資料離散化、資料規範化等等。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69985379/viewspace-2885406/,如需轉載,請註明出處,否則將追究法律責任。

相關文章