為什麼業務知識會嚴重影響建模效果?

xiaohuihui發表於2020-08-10

我們知道一個完整的資料探勘專案通常包含以下流程(1)業務理解、(2)資料理解、(3)資料準備、(4)資料預處理和建模、(5)模型評估、(6)模型部署應用。而要完成一個資料探勘任務,必須要具備兩方面的技能,技術能力和業務知識。技術能力主要包括資料統計分析能力,演算法能力,計算機能力等,業務知識體現的則是對業務的熟悉程度。這兩大能力都很重要缺一不可,但是業務知識的重要性卻是經常容易被忽視的。今天我們就來具體聊一下,這兩大能力是如何貫穿於整個流程並影響建模效果。

為什麼業務知識會嚴重影響建模效果?

拿到一個資料探勘專案,首先要進行的就是業務理解和資料理解,瞭解商務背景,明確挖掘目標和建模資料。建模的目的是為了解決業務問題,業務目標是所有資料解決方案的源頭,它定義了資料探勘的主題。只有正確理解了業務才能夠明確挖掘的正確方向。例如,在信貸風險預測中,需要預測出高風險的客戶群體,那麼如何定義歷史資料中的高風險客戶就很重要,通常我們會認為有違約行為的客戶是高風險客戶,但是進一步分析之後就會發現有一些客戶雖然有違約行為,但只是偶爾一兩次的逾期幾天而已,透過業務常識可以判斷這些客戶可能只是忘記還款而違約的,並不是高風險客戶。再例如做產品的精準營銷模型時,有沒有必要透過細分客戶群體來建模,又或是區分地域差別來建模。這些都需要充分了解業務才能做出準確的判斷。還有,建模資料範圍的,也需要有業務知識的支撐才能進行,否則就是大海撈針,效率低下。因此,在這個環節,業務知識能力占主導地位,技術能力會檢視資料就足夠了。在建模過程中,業務思路上的最佳化比建模技術思路上的最佳化更重要,而建模技術思路上的最佳化又比單純的建模技巧的最佳化更重要。

建模目標和資料範圍確定好以後,就進入到第二個階段準備資料。資料準備的目的是建立資料集市或者寬表,主要工作包括選擇資料、清洗資料、構造資料、整合資料、格式化資料等。這個環節同樣需要用到業務知識,例如建模的資料通常會來自於多個表格或資料來源,那麼就需要了解各個表格之間的業務邏輯,才能將資料整合到一起,例如 A 表是訂單資料,B 表是產品屬性資料,C 表是客戶資訊資料,要整合 3 張表首先要縷清楚他們之間的邏輯關係,如果完全不懂業務是很難縷清楚或者很容易出錯的。在資料準備過程中,通常還需要做很多資料彙總,特徵提取的工作,例如在原始的訂單資料中可能會出現同一使用者多個賬號,同一賬號多個訂單,同一訂單又包含多個產品的情況,這是也需要對業務有一定了解才能清楚其中的關係。在技術能力方面,需要會一些 ETL 的操作,這件事從 0 開始做並不容易,但大多數情況下都有 IT 部門建設好的資料倉儲,所以經常也不需要做。

在資料預處理和建模環節,對技術能力的要求就比較高了,需要涉及到統計學分析,演算法能力和調參能力等內容。也正式這部分工作難度比較大,專業人才少,實現困難,才造成很多人誤以為資料探勘是一項純技術的工作,而忽略了業務知識的重要性。不過令人欣慰的是,這部分技術性的工作可以藉助 AI 來實現,例如,當前興起的自動建模技術就可以自主的完成資料預處理和建模工作。自動建模技術是將統計學家和數學家的資料處理經驗和理論融入到軟體中,使得軟體能夠智慧的去完成資料預處理,建模型,選引數,做評估等一系列的工作。對於使用者來講只需要將資料丟進自動建模工具,並且配置好目標,工具就能夠自動建出優質模型。即使是沒有統計學背景,不瞭解演算法的初學者,或者普通的 IT 程式設計師都可以透過自動建模技術來建出高質量模型。

模型建好後,能否合理評估模型也很重要,很多時候並不是建不出好的模型,而是不知道什麼才是好的模型。在這個環節,技術能力需要了解各種模型指標的含義,例如,AUC, ROC, Gini,Lift,Mse……, 業務知識能力則需要知道如何根據業務目標來選擇合適的評價指標。例如某企業希望銷售 50 件產品,建立了兩個模型來選擇待推銷客戶,混淆矩陣如下,應該選擇哪個模型更合適呢?

為什麼業務知識會嚴重影響建模效果?

只考慮準確率,似乎應當選擇 A 模型,但這時候我們需要對 75(=50/0.667,預測購買者中有 66.7% 的實際會購買,即精確率)個客戶推銷才可能賣出 50 件商品;而選擇模型 B,則只要對 60(=50/0.833)個客戶推銷就可能賣出 50 件商品了,推銷成本反而降低了。在這裡業務目標是銷售 50 個產品,因此要基於該目標去選擇合適的評價指標,而不是隨便指定。

綜上,技術能力和業務知識能力是實現資料探勘任務的必要條件,兩者都具備才能建出好的模型。其中對技術能力要求較高的預處理和建模過程,可以藉助自動建模技術來實現,但是業務知識的運用則是 AI 難以替代的。

對進一步資料探勘和 AI 技術感興趣的同學還可以搜尋“乾學院”,上面有面向小白的零基礎“資料探勘”免費課程,或者直接點下面的連結也可以:

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69900830/viewspace-2710384/,如需轉載,請註明出處,否則將追究法律責任。

相關文章