如何提升企業的資料探勘能力

大資料小知識發表於2022-03-30

  資料探勘是指用相關演算法從大量的資料中探索隱藏在其中的資訊的過程。看似與大資料分析的含義有點類似,但相較而言,資料探勘涉獵的知識面更廣,要求更高。因為資料探勘會涉及到很多演算法,有源於機器學習的神經網路和決策樹,也有基於統計學理論的支援向量機、分類迴歸樹和關聯分析的諸多演算法等等。

  資料探勘這種可以從大量的、模糊的資料中,提取隱含其中的有用資訊和知識的技術不斷被人們應用到企業管理中來。資料探勘已經不停留在原本的抽樣,而是根據整體的資料來就行挖掘和分析。新型的模式採集資料海量、迅速且多樣化,從而為企業帶來了更多精準有效的資料,能夠讓企業在決策的制定中更加準確。

  企業如何實施資料探勘:

  1、確立研究動機

  考慮實際可行性和帶來的收益預測,充分理解業務需求,考慮資料驅動利潤核算,資料驅動使用者運營等,這需要大資料科學家和行業專業,以及客戶的業務專家一起來明確問題。這是整個大資料探勘中最關鍵的一步。

  2、分析資料

  看看到底哪些資料能夠支撐我們的業務,用哪些資料去解決問題。在分析資料這個階段,對資料進行基本處理,首先對原始輸入進行預處理,如調整大小,去除噪音等,其次對預處理輸出的資料提取特徵,進行特徵抽取及特徵選擇的操作,之後再進行特徵降維等,獲得通過特徵向量表示的樣本,使用各種模型進行學習和訓練,最終完成具體任務,如分類,識別等,在此過程中,我們可能發現資料不足,或者資料質量太差,這個時候就可能要尋求第三方資料的幫助,或者規劃如何去採集更多的資料。

  3、資料探勘

  首先對資料進行處理,從資料中提取特徵。這是資料探勘非常關鍵的一步,特徵的好壞直接影響最終模型的效果。在資料探勘過程中,演算法其實並不是最主要的因素,影響效果最直接的因素就是特徵。良好的特徵需要有非常好的區分度,只有這些特徵,才能很好的去解決問題。在提取特徵時,因為我們是大資料探勘,所以要使用大資料技術去從原始資料中提取特徵。

  4、建立模型

  在實際的建模過程中,由於資料量過於龐大,演算法訓練過程往往十分緩慢,如何加速演算法計算速度,是一個非常突出的問題。

  5、模型評估

  模型評估最重要的是建立模型的評價指標。這個評價指標必須是要結合業務來建立的。當模型效果不佳時,我們要回到特徵提取,建模過程來不斷的迭代,甚至可能要重新分析業務和資料。

  如何提升企業的資料探勘能力.中琛魔方大資料平臺表示目前商業決策面臨的最大挑戰不是缺少資料,而是資料太多。對於大部分企業來講,資料探勘的挑戰在於:一是資料混亂,根本找不到解決得辦法;二是海量資料無邊無際,企業現有得資訊系統無法高效地處理。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69936596/viewspace-2884928/,如需轉載,請註明出處,否則將追究法律責任。

相關文章