阿里雲大資料認證——機器學習PAI實現精細化營銷-課堂筆記

YBCarry發表於2019-02-25

阿里雲Clouder認證

三、機器學習PAI實現精細化營銷

1. 課程目標

(1) 瞭解精細化營銷的概念和適用場景
(2) 瞭解機器學習如何實現精細化營銷
(3) 掌握利用PAI實現精細化營銷
(4) 提升利用機器學習解決問題的能力

(5)目錄
	- 什麼是精細化營銷
	- 精細化營銷實現技術   
	- 機器學習平臺PAI簡介
	- 實驗任務:利用PAI實現精細化營銷
複製程式碼

2. 什麼是精細化營銷

(1)精細化營銷

  • 精細化營銷(Precision Marketing)就是在精準定位的基礎上,依託現代資訊科技手段建立個性化的顧客溝通服務體系,實現企業可度量的低成本擴張之路,是有態度的網路營銷理念中的核心觀點之一(百科)。在企業實際運營中即以客戶細分為基礎,細分客戶和市場,進行精細化管理、精細化運營。
  • 精細化營銷的動因:
    • 企業單位成本收益(或長遠收益)最大化
    • 通過營銷管理的精細化,提升營銷團隊的凝聚力
    • 提高各環節的效率實現節流的目的
    • 提升企業市場競爭力
    • 提升企業品牌影響力
    • ......
  • 營銷層次:
    • 目標客戶
    • 營銷方法
    • 營銷管理

(2)精細化營銷的實現方法

  • 準確的細分市場和差異化的營銷策略是精細化營銷的核心。市場細分是指營銷者根據顧客之間的需求的差異性把整個市場劃分為若干個消費者群的市場分類過程。而客戶分群則是瞭解客戶、進行市場細分和進行目標市場營銷的前提。
  • 客戶分群常見方法:
    • **聚類:**即將物理或抽象物件的集合分成由類似的物件組成的多個類的過程。(無參考物)
    • **分類:**即按照種類、等級或性質分別歸類。(有參考物)
  • 精細化營銷的資料處理過程:
    • 商業理解:(業務理解或需求理解)目標確認,所利用的計算方法、技術工具,所參考的計算模型,所採用的流程和方案。
    • **資料理解:**擁有什麼樣的資料,資料是如何分佈的,資料的來源,如何獲取資料、通過什麼方式來獲取資料,資料質量如何,所涉及到的業務及能否覆蓋,所涉及到的業務和流程能否解決體現現在的問題等等。
    • **資料預處理:**包括歸因、取樣、拆分、過濾、對映等等。解決噪聲資料(髒資料、錯誤資料)的問題,把資料規整化、標準化,提升資料的質量,使模型可靠。
    • **構建模型:**常用模型有迴歸、分類、聚類。
    • **模型評估:**目的是找到最能滿足需求的一個方法。將上述過程的所得分析結果進行評估,考核是否滿足要求,是否能夠實現原來預估的目的,是否達到目標。
    • 模型釋出

3. 精細化營銷案例

  • 精細化營銷被應用於各行各業,為企業發展提供動力。

(1)案例一

  • 某通訊公司採用聚類分析方法針對集團客戶的健康度進行分析,評估集團客戶的健康度狀況,分析不同健康級別客戶的分佈特徵,為市場、集團客戶服務部門制定分層分級的營銷、服務策略提供依據;其中高危集團客戶三個月減少100多家,集團新申辦語言業務55萬部......

(2)案例二

  • 美國西南航空通過客戶分群、價值評估對客戶進行精細化營銷管理,降低空座率;平均每個座位英里的運營成本比其他航空公司低15~30%......

(3)案例三

  • 美國零售商塔基特百貨通過精細化營銷針對孕婦用品銷售,銷售額從2002年的440億美元提升到2010年的670億美元......

4. 精細化營銷實現技術

  • 精細化營銷中客戶細分主要是根據客戶的屬性、行為、需求、偏好以及價值等因素對客戶進行分類,並且提供有針對性的產品、服務和銷售模式。

(1)常見技術

  • 資料儲存、處理載體即資料處理平臺,常見如資料庫、資料倉儲、海量資料處理平臺(如MaxCompute)等;
  • 資料加工處理技術:SQL、MR、指令碼語言、機器學習、資料探勘等;
  • 常見的演算法模型:
    • 決策樹、Logit迴歸(事前處理)
    • 聚類分析、分類模型(事後處理)
  • 實現過程:
    • 特徵細分
    • 價值區間細分
    • 共同需求細分
    • 細分聚類演算法
    • 評估

(2)大資料處理服務MaxCompute

  • 大資料計算服務(MaxCompute,原ODPS)由阿里雲自主研發,提供針對TB/PB級資料、實時性要求不高的分散式處理能力,應用於資料分析、挖掘、商業智慧等領域。
  • 適用場景:資料倉儲/商業智慧、分散式大資料應用、大資料統計分析、機器學習/人工智慧。

(3)精細化營銷的資料處理過程-資料探勘

  • 資料探勘(Data mining,DM)=機器學習+資料倉儲,是對儲存於資料倉儲/資料平臺中的大量資料、通過查詢和抽取方式獲得以前未知的有用資訊、模式、規則的過程。資料探勘是一個過程,而這個過程通過機器學習來實現。精細化營銷資料處理過程就是機器學習過程、就是資料探勘過程。
  • 這是一個以資料為中心的循序漸進的螺旋式的資料探索、處理過程;
  • 這是各種分析辦法、資料處理方法的集合;
  • 這是一個海量資料的處理過程;
  • 機器學習的目的最終目的是輔助獲取知識。

(4)精細化營銷的資料處理過程-機器學習

  • 機器學習:是一門多領域交叉學科。從範圍上講機器學習和資料探勘是類似的,可以等同於資料探勘。從廣義上來說,機器學習是一種能夠賦予機器學習的能力以此讓它完成直接程式設計無法完成的功能的方法。但從實踐的意義上來說,機器學習是一種通過利用資料,訓練出模型,然後使用模型預測的一種方法。

(5)精細化營銷演算法-客戶細分聚類模型

  • 聚類分析(clustering)分析是將一組物件劃分成簇(cluster),使簇內物件相似性儘量大,而簇間物件相似性儘量小。常見的五大類演算法:劃分法、層次法、基於密度的方法、基於網格的方法、基於模型的方法。
    • **劃分法(partitioning methods):**給定一個由n個元祖或記錄組成的資料集,劃分法將構造k個分組。每個分組代表一個聚類,k<=n。k個分組滿足下列條件:
      • <1>. 每個分組至少包含一個物件;
      • <2>. 每個資料記錄屬於且僅屬於一個分組。
      • 演算法:k-means、k-medois、CLARANS。
    • **層次法(hierarchical methods):**對給定的資料集進行層次分解,直到滿足某種條件位置。具體可分為“自底向上”的凝聚法和”自頂向下“的分裂法兩種法案。代表演算法:BIRCH、CURE、CHAMELEON。
    • **密度法(density-based methods):**不是基於距離,而是基於密度。能克服基於距離的算只能發現“類圓形”聚類的缺點。代表演算法:DBSCAN、OPTICS。
    • **網格方法(grid-based methods):**首先將資料空間劃分成有限個單元的網格結構,所有的處理都以單元為物件。優點處理速度很快。代表演算法:STING、CLIQUE、Wave-Cluster。
    • **模型方法(model-based methods):**給每個聚類假定一個模型,然後去尋找資料對給定模型進行最佳擬合。給定模型可能是資料點在空間中的密度分佈的數或其他。

(6)精細化營銷演算法-k-Means

  • **k-Means即K均值聚類:**屬於劃分聚類。其工作原理為根據初始化的聚類中心資訊,計算每個樣本到這些中心的距離,可以判斷每個樣本均歸屬於每個樣本到新的聚類中心對應的類中,重複進行,直到滿足條件。
    • <1>. 確定聚類的個數k,並指定k個聚類的中心C1 , C2 ... Ck
    • <2>. 計算每個樣本Si點到k箇中心的距離,並將該點歸入最近的Cj類中;
    • <3>. 重新計算k個類簇的中心點,更新原有中心點的位置C1 , C2 ... Ck

5. 機器學習平臺PAI簡介

  • 阿里雲機器學習平臺PAI是構建在阿里雲MaxConpute計算平臺之上,集資料處理、建模、離線預測、線上預測為一體的機器學習平臺。
  • 阿里雲機器學習平臺PAI:
    • 工具、演算法庫:降低技術門檻
    • 高效能雲端計算:降低儲存和計算成本

(1)機器學習PAI特點

  • 基於MaxCompute、GPU叢集、支援MR、MPI、SQL、BSP、SPARK等計算型別。
  • 內建阿里、螞蟻多年沉澱的分散式演算法,支援百億級資料量訓練。
  • WEB介面、通過拖、拉、拽等配置方式即可完成複雜資料流程。

(2)機器學習PAI的演算法

  • PAI提供最豐富的演算法:包含特徵工程、資料預處理、統計分析、機器學習、深度學習框架、預測與評估這一整套的機器學習演算法元件,共100餘種。

(3)機器學習PAI應用場景

  • 營銷類場景:商品推薦、使用者群體畫像、廣告精準投放
  • 金融類場景:貸款發放預測、金融風險控制、股票走勢預測、黃金價格預測
  • SNS關係挖掘:微博粉絲領袖分析、社交關係鏈分析
  • 文字類場景:新聞分類、關鍵詞提起、文章摘要、文字內容分析
  • 非結構化資料處理場景:圖片分類、圖片文字內容提取OCR
  • 其他各類預測場景:降雨預測、足球比賽結果預測

(4)機器學習PAI應用流程

  • 在首先明確任務、目標、實際情況的前提下:
    • <1>. 資料預處理
    • <2>. 選擇特徵
    • <3>. 選擇模型進行資料訓練
    • <4>. 模型評估
    • <5>. 模型釋出(再學習訓練)

  • 一個完整的機器學習流程
    • **<1>. 開通服務:**實名認證賬號、登入控制檯、進入機器學習
    • **<2>. 匯入輸入:**新建/倒入資料來源、上傳本地資料、編輯資料集...
    • **<3>. 資料預處理:**資料去噪、維度填充、型別轉換...
    • **<4>. 特徵工程:**特徵變換、特徵評估、特徵選擇、特徵生成...
    • **<5>. 訓練和預測:**選擇模型、配置引數、資料處理、預測結果...
    • **<6>. 評估:**選擇模型、配置引數、查驗結果...

6. 使用PAI實現精細化營銷

(1)特徵因子分析

  • 資料中包含的資料變數(屬性),如果過多參與建模,勢必會削弱主要業務屬性的影響,並給理解分群帶來困難;襄汾如果太少則可能遺漏一些重要的屬性關係,因此特徵因子分析對建立模型至關重要。
    • 品牌(brand)和區域分公司(district)的烯較小,說明分佈傾斜,而年齡段分佈較均勻。
    • 年齡段、性別的資訊增益最小,表明不確定性低,而品牌的增益比率最大屬性特徵明顯。

(2)分群規劃

  • 實驗案例有使用者資料業務的消費資訊以及客戶基本屬性,合理規劃分群數目便於方便管理;品牌的熵最小,表明特徵確定,這也符合通訊行業的業務邏輯,模型設計時可以不作為變數。按業務量處理分群,實驗資料為9個月業務量總量最大78.45,平均23.18,實驗可以分為9個群;入網大部分使用者在一年以內(離散),可以不做特徵處理。

(3)模型處理

  • 採用K均值聚類元件分類,首先將年齡、性別、地域數字化,然後組合業務資訊進行分類,聚類數設定為9,其他引數設為預設數值,檢視輸出結果(包括模型、統計結果、聚類結果)。

(4)模型評估

  • 採用聚類模型評估,評價聚類模型的優劣;係數CH(Calinski-Harabasz)是基於類內聚合度和類間分離度定義的聚類評價指標,數值越大表明劃分越優。(注意:分類不同最優聚類數不同)

(5)結果分析示例

  • 分組1(編號0):入網長、使用量少、消費低;屬於低端一般客戶
  • 分組2(編號1):入網長、消費低、時間長、流量少;低端書檢客戶
  • 分組3:入網1年以上、消費低、時間很長、流量較少;低端高耗客戶
  • 分組4:新入網、消費能力差、使用量和使用時長都少的客戶;低端新客戶
  • 分組5:低端不足一年的一般客戶
  • 分組6:新入網高消費客戶
  • 分組7:消費能力一般新入網普通客戶,但年齡偏大低端客戶
  • 分組8:使用量、使用時長穩定的入網半年以上高消費客戶
  • 分組9:使用量、使用時長穩定的新入網高消費客戶

相關文章