為什麼業務知識會嚴重影響建模效果?
我們知道一個完整的資料探勘專案通常包含以下流程(1)業務理解、(2)資料理解、(3)資料準備、(4)資料預處理和建模、(5)模型評估、(6)模型部署應用。而要完成一個資料探勘任務,必須要具備兩方面的技能,技術能力和業務知識。技術能力主要包括資料統計分析能力,演算法能力,計算機能力等,業務知識體現的則是對業務的熟悉程度。這兩大能力都很重要缺一不可,但是業務知識的重要性卻是經常容易被忽視的。今天我們就來具體聊一下,這兩大能力是如何貫穿於整個流程並影響建模效果。
拿到一個資料探勘專案,首先要進行的就是業務理解和資料理解,瞭解商務背景,明確挖掘目標和建模資料。建模的目的是為了解決業務問題,業務目標是所有資料解決方案的源頭,它定義了資料探勘的主題。只有正確理解了業務才能夠明確挖掘的正確方向。例如,在信貸風險預測中,需要預測出高風險的客戶群體,那麼如何定義歷史資料中的高風險客戶就很重要,通常我們會認為有違約行為的客戶是高風險客戶,但是進一步分析之後就會發現有一些客戶雖然有違約行為,但只是偶爾一兩次的逾期幾天而已,透過業務常識可以判斷這些客戶可能只是忘記還款而違約的,並不是高風險客戶。再例如做產品的精準營銷模型時,有沒有必要透過細分客戶群體來建模,又或是區分地域差別來建模。這些都需要充分了解業務才能做出準確的判斷。還有,建模資料範圍的,也需要有業務知識的支撐才能進行,否則就是大海撈針,效率低下。因此,在這個環節,業務知識能力占主導地位,技術能力會檢視資料就足夠了。在建模過程中,業務思路上的最佳化比建模技術思路上的最佳化更重要,而建模技術思路上的最佳化又比單純的建模技巧的最佳化更重要。
建模目標和資料範圍確定好以後,就進入到第二個階段準備資料。資料準備的目的是建立資料集市或者寬表,主要工作包括選擇資料、清洗資料、構造資料、整合資料、格式化資料等。這個環節同樣需要用到業務知識,例如建模的資料通常會來自於多個表格或資料來源,那麼就需要了解各個表格之間的業務邏輯,才能將資料整合到一起,例如 A 表是訂單資料,B 表是產品屬性資料,C 表是客戶資訊資料,要整合 3 張表首先要縷清楚他們之間的邏輯關係,如果完全不懂業務是很難縷清楚或者很容易出錯的。在資料準備過程中,通常還需要做很多資料彙總,特徵提取的工作,例如在原始的訂單資料中可能會出現同一使用者多個賬號,同一賬號多個訂單,同一訂單又包含多個產品的情況,這是也需要對業務有一定了解才能清楚其中的關係。在技術能力方面,需要會一些 ETL 的操作,這件事從 0 開始做並不容易,但大多數情況下都有 IT 部門建設好的資料倉儲,所以經常也不需要做。
在資料預處理和建模環節,對技術能力的要求就比較高了,需要涉及到統計學分析,演算法能力和調參能力等內容。也正式這部分工作難度比較大,專業人才少,實現困難,才造成很多人誤以為資料探勘是一項純技術的工作,而忽略了業務知識的重要性。不過令人欣慰的是,這部分技術性的工作可以藉助 AI 來實現,例如,當前興起的自動建模技術就可以自主的完成資料預處理和建模工作。自動建模技術是將統計學家和數學家的資料處理經驗和理論融入到軟體中,使得軟體能夠智慧的去完成資料預處理,建模型,選引數,做評估等一系列的工作。對於使用者來講只需要將資料丟進自動建模工具,並且配置好目標,工具就能夠自動建出優質模型。即使是沒有統計學背景,不瞭解演算法的初學者,或者普通的 IT 程式設計師都可以透過自動建模技術來建出高質量模型。
模型建好後,能否合理評估模型也很重要,很多時候並不是建不出好的模型,而是不知道什麼才是好的模型。在這個環節,技術能力需要了解各種模型指標的含義,例如,AUC, ROC, Gini,Lift,Mse……, 業務知識能力則需要知道如何根據業務目標來選擇合適的評價指標。例如某企業希望銷售 50 件產品,建立了兩個模型來選擇待推銷客戶,混淆矩陣如下,應該選擇哪個模型更合適呢?
只考慮準確率,似乎應當選擇 A 模型,但這時候我們需要對 75(=50/0.667,預測購買者中有 66.7% 的實際會購買,即精確率)個客戶推銷才可能賣出 50 件商品;而選擇模型 B,則只要對 60(=50/0.833)個客戶推銷就可能賣出 50 件商品了,推銷成本反而降低了。在這裡業務目標是銷售 50 個產品,因此要基於該目標去選擇合適的評價指標,而不是隨便指定。
綜上,技術能力和業務知識能力是實現資料探勘任務的必要條件,兩者都具備才能建出好的模型。其中對技術能力要求較高的預處理和建模過程,可以藉助自動建模技術來實現,但是業務知識的運用則是 AI 難以替代的。
對進一步資料探勘和 AI 技術感興趣的同學還可以搜尋“乾學院”,上面有面向小白的零基礎“資料探勘”免費課程,或者直接點下面的連結也可以:
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69900830/viewspace-2710384/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 政府網站和政務新媒體內容存在問題,會造成哪些嚴重影響?網站
- 如何防止勒索軟體攻擊造成嚴重影響
- Premiere影片重影效果怎麼做?Premiere製作影片重影效果的方法REM
- 【知識分享】跨境業務為什麼選擇海外伺服器伺服器
- UNWTO:疫情對全球旅遊業造成嚴重影響 96%旅行地關閉
- Premiere視訊重影效果怎麼做?Premiere製作視訊重影效果的方法REM
- 知識庫終極指南:為什麼您的企業需要知識庫?
- Linux穩定版核心撤回嚴重影響效能的Spectre補丁Linux
- 為什麼建模技術對業務分析師BA如此重要?- modernanalystNaN
- 廣告行業抱怨 Safari 的防追蹤技術 ITP 太有效,嚴重影響收入行業
- 為什麼說保險業需要KGB知識圖譜加持
- 知識圖譜入門——知識表示與知識建模
- 美團二季度營收247億元,到店、酒店等業務下滑13.4%,將繼續受疫情嚴重影響營收
- 什麼是軟體開發業務建模分析和結構化建模分析
- 服務為什麼會崩潰
- 企業使用CRM以後會有什麼效果?
- 什麼是知識
- 【知識分享】什麼是IT運維管理服務運維
- SpringMVC系列知識:(二)什麼是springMVC,為什麼要使用springMVCSpringMVC
- A+M:新冠病毒嚴重影響了馬來西亞戶外廣告收入
- linux 基礎知識 什麼是殭屍程序?有什麼影響?如何解決?Linux
- 關於「內隱知識」:你說不清楚為什麼某作品會紅
- spring事務的傳播屬性是什麼?它會影響什麼?Spring
- 【知識分享】伺服器為什麼要測壓需要注意什麼伺服器
- 【知識分享】香港伺服器的IPMI是什麼?為什麼需要它?伺服器
- 《美國預防醫學雜誌》:研究發現電子煙嚴重影響男性性功能
- 知識圖譜中的資料服務是什麼?
- 為什麼說 TiDB 線上擴容對業務幾乎沒有影響TiDB
- 為什麼碼農要了解業務?
- 【知識分享】伺服器為什麼要使用防火牆伺服器防火牆
- 使用知識圖實現領域知識建模與測試
- 什麼是Linux?為什麼企業會需要Linux運維?Linux運維
- 為什麼雲原生會統領SaaS服務?
- 從業人士談為什麼UX設計師應該具備心理學知識UX
- 為什麼說session依賴cookie,以及cookie的常用知識SessionCookie
- 【知識分享】為什麼linux系統伺服器病毒更少Linux伺服器
- 會話式知識庫問答的焦點實體轉換建模會話
- 每日一個知識點:什麼時候會觸發Full GCGC