資料探勘的定義與價值
資料探勘指從大量資料(包括文字)中挖掘出隱含的、未知的、對決策有潛在價值的關係、模式和趨勢,並利用這些知識和規則建立用於決策支援的模型,提供預測性決策支援的方法、工具和過程。通常,資料探勘會用到應用數學、統計學、資料庫技術、機器學習和人工智慧等多種技術。
在企業經營管理過程中,資料探勘可以幫助企業發現業務趨勢、揭示客觀規律、預測未知結果、最佳化戰略決策的效率與效果,同時,資料探勘還可以幫助企業最佳化業務運營的流程,提升使用者與員工的體驗。用好資料探勘工具,構建基於資料驅動的戰略決策(Data-Driven Decision-Making (DDDM))體系,將讓企業在面向未來不確定性時做出明智的戰略抉擇。
機器學習的分類與經典模型介紹
機器學習是資料探勘的重要技術支撐,根據學習正規化的不同,機器學習可劃分為有監督學習、無監督學習、強化學習和深度學習。有監督學習指從有標註訓練資料中推匯出預測函式,一般用於解決預測或者分類問題;無監督學習指對無標籤樣本進行學習揭示資料內在規律,從給定資料中找到隱藏的模式和見解,一般用於解決聚類或者關聯關係探查等問題;強化學習不依賴標註資料,用於描述和解決智慧體(agent)在與環境的互動過程中透過環境給予的反饋(獎勵)學習策略以達成回報最大化或實現特定目標的問題。深度學習指使用神經網路模型來學習資料的特徵,可以在大規模資料上進行訓練。
機器學習的分類
其中,有監督、無監督學習是主流常用的機器學習模型,在企業戰略決策中有著豐富的使用場景。有監督學習使用的演算法模型包括線性迴歸、邏輯迴歸、時序模型、決策樹模型,無監督學習使用的演算法模型包括K-means、PCA、DBSCAN、Apriori等。
經典模型的介紹
建模的步驟與流程
應用資料探勘輔助戰略決策分為5大步驟:問題定義、資料分析、特徵工程、演算法建模與模型評價。
問題定義:將現實業務經營管理問題對映到數學表示,明確資料探勘目標。
資料分析:包括取樣、探索及預處理三個步驟,核心目的是提高資料集。
特徵工程:是把原始資料轉變為模型的訓練資料的過程,目的是獲取更好的訓練資料特徵,使得機器學習模型逼近訓練上限。
演算法建模:是資料探勘工作的核心環節,需要思考建模屬於資料探勘應用中的哪類問題並選用對應演算法進行模型構建。
模型評價:需要一組沒有參與預測模型建立的獨立資料集,即測試集資料,評價預測模型的準確率。
建模步驟與流程
資料探勘在戰略決策中的實戰案例
實戰案例①:幫助某酒店集團進行常住酒店公寓選址
案例關鍵詞:#酒店行業# #有監督學習# #迴歸模型# #決策樹模型#
客戶核心訴求:提高常住酒店公寓專案選址決策效率,在城市中篩選住客入住需求集中的地塊,保證專案投運後的收益。
資料探勘步驟:
● 定義挖掘目標:合理進行門店的規劃選址,選擇潛在高銷量區域。
● 分析地塊資料:匯入已有門店資訊、門店銷量、競品門店銷量、宏觀指標、市場表現等資料,開展資料分析。
● 構建特徵工程:包括門店特徵、地塊特徵、城市特徵、競品特徵等。
● 決策樹建模:採用決策樹模型在訓練集進行訓練,對備選區域在地塊得分、競品門店數量、投資回報週期等關鍵選址決策要素下的表現進行分類。
● 效果驗證:在測試集對演算法模型進行效果驗證,並進行合理性分析。
● 選址決策應用:在不同區域應用選址決策模型,輸出門店選址與擴張策略。
建模步驟與流程
戰略決策輸出:在試點城市跑通模型後輸出標準化選址決策機制,可在集團內部其餘區域業務擴張過程中提供決策支援,同時根據不同城市地塊的模型決策結果追蹤輔助判斷地區業務發展空間及潛力,適當調整區域業務戰略側重,聚焦重點區域及重點地塊的資源投入。
實戰案例②:幫助某鞋業公司搭建暢銷商品補貨模型
案例關鍵詞:#鞋服零售# #有監督學習# #時序模型# #補貨預測模型#
客戶核心訴求:對門店內的暢銷款式銷售資料進行挖掘,構建銷量預測及補貨預測模型,以儘可能小的庫存,為暢銷款高效配置庫存、銷售資源,最大化暢銷款的銷售機會。
資料探勘步驟:
● 挖掘目標定義:透過及時、足量補貨等手段,以儘可能小的庫存,為暢銷款商品高效配置資源,實現銷量最大化。
● 資料取樣與探索:挖掘門店、倉庫資料體系中的銷售、進貨、庫存指標,探索指標相關性。
● 資料預處理:基於資料計算為各類商品貼標籤,包括“毛利率水平偏高”、“庫存水平偏低”、“新貨品”等標籤。
● 特徵開發:剔除部分標籤,如“庫存水平偏高”、“連續三週銷售下降”,保留與暢銷貨品高度相關的標籤作為模型特徵。
● 模型構建:根據時序模型構建“滾動銷量預測演算法”,輸入季節、貨品銷量、性別、風格細類等相關特徵。
● 模型測試:利用測試集資料開展模型測試。
基於資料分析為各類商品貼標籤
根據時序模型構建“滾動銷量預測演算法”
戰略決策輸出:根據預測銷量,測算期末庫存以制定大促期間的到貨計劃,若(上週期末庫存-當週預測銷量)<0,則需以訂貨數量的倍數進貨,並基於到貨計劃,根據供應鏈前置時間(lead time)進行下單,以此減少期末庫存壓力,高效調動庫存配置和銷售資源,實現爆款商品銷量最大化。
實戰案例③:幫助某零售連鎖企業進行門店分群與經營評估
案例關鍵詞:#零售行業# #無監督學習# #聚類分析# #門店經營評估#
客戶核心訴求:對已有門店進行分群,挖掘不同類別門店特徵,識別優秀或異常門店,煥新門店分類管理策略。
資料探勘步驟:
● 挖掘目標定義:透過提取門店的各類特徵,構建門店經營評估與分群模型
● 資料取樣與探索:選取資料庫中的商戶屬性、經營資訊、風險資訊等相關資料指標。檢驗租金、銷售資料是否符合正態分佈規律。
● 特徵開發:對資料進行取值SQL、取值維度、指標缺失值、指標異常值、指標一致性等特徵處理。
● 模型構建:透過降維,篩選出從資料視角分析得出的關鍵因子,確定最終的因子並構建演算法模型。
● 門店分群:每個群組門店特徵會呈現差異,針對不同群組的特徵進行分析,識別不同型別門店特徵,確定門店劃分標準與分群結果。
● 成因分析:基於門店特徵挖掘結果,選取有代表性門店開展生命週期分析。
戰略決策輸出:根據模型聚類的三類門店特質,匹配差異化管理舉措。對於表現優秀的門店,挖掘其成功經驗並在其他門店進行推廣,對於存在潛在風險的門店可及時進行干預。
聚類分析模型:在未設定標籤的情況下,根據資料相似度進行分組
結語
經驗主義哲學家弗朗西斯·培根曾說過:“我們大部分的人的理解力容易出現偏差,我們的心智容易被假象所困住。”在現代企業的戰略決策中,管理者的戰略判斷也常常會受到固有認知、個人直覺或理解偏差所影響。資料探勘的意義在於幫助管理者從大量的資料中去提取那些隱藏其中的、預先未知的、但有潛在價值的客觀規律,讓管理者在進行決策時有更堅實的依據與更充分的論斷。
資料從來不是全部,資料也不能替代思考,但他可以讓你站在巨人的肩膀上。
來自: 羅蘭貝格管理諮詢