桔妹導讀：小桔車服為滴滴旗下品牌，圍繞車主及汽車生命週期，整合運營多項汽車服務，更加智慧更加用心地為車主提供適合的一站式用車服務，致力於讓每一個人擁有輕鬆車生活。

本次分享的主題為強化學習在小桔車服使用者運營中的實踐。在網際網路場景下，面向使用者的營銷是每個業務所對的共同問題，而如何幫助小桔車服運營提升營銷的 ROI 是我們演算法同學的工作重點之一。在本文，我們將向大家介紹如何將車服的營銷問題建模為一個強化學習過程，並且如何精細化地對每個人做出個性化的營銷動作，在實際業務中又取得了怎樣的效果。

1.

小桔車服使用者運營演算法體系

▍滴滴使用者運營演算法模型

為了支援使用者增長的需求，小桔車服構建了一個平臺，一個系統以及四個演算法策略模組：即流量分發平臺、標籤系統、畫像模組、目標人群定向模組、營銷策略模組、觸達最佳化模組。

流量分發平臺
是對使用者進行場景化廣告的彈出，和使用者進行一些互動，包括髮 push 訊息、播報及發簡訊訊息等各種渠道。
標籤系統
一方面線上上服務中判別使用者的身份屬性、狀態以及身份，另一方面是幫助各業務的運營人員去細粒度的圈選目標人群。

針對使用者運營的四個階段，也有相應的演算法策略模組：

模組一：畫像
包括使用者畫像，商家畫像以及車輛畫像，目標是把生態內的各個實體細粒度的刻畫出來。
模組二：目標人群的定向
使用者運營首先根據任務和使用者生命週期去找到合適的使用者群體，比如對使用者長期價值的定向、對短期的轉化率的預估、使用者流失預警、體系外使用者的精準定向等。
模組三：營銷策略
分兩部分，一個是滴滴體系內線上的一些演算法策略模組，如強化學習、組合策略、個性化推薦，滴滴體系內有大量的拉單司機、專車司機、快車司機、順風車司機以及計程車司機，他們和滴滴平臺有非常緊密的聯絡，每天都在平臺內拉單，使用者行為非常稠密，為智慧營銷提供了豐富的源資料。另一部分是滴滴體系外的使用者增長，如社交營銷、DSP 外投廣告。
模組四：觸達最佳化
演算法根據使用者的狀態和行為發放給使用者一張一定面額的優惠券或一個活動提醒，為了增強使用者的轉化意願，在觸達最佳化階段對使用者進行個性化的訊息提醒。因為平臺業務眾多，各業務下的運營活動眾多，為了避免無節制地把所有的活動訊息在很短的時間內推送給同一個人，需要做一些取捨，這就是全域性流量最佳化解決的問題：在儘量減少打擾使用者的限制下，提升平臺的收益

▍滴滴人工運營的痛點和解決檔案

人工運營的痛點和解決方案

人工運營和監督學習方法可以圈選目標人群進行運營活動，但是比較粗放，依賴運營人員的經驗，將使用者生命週期強制分成拉新、提頻、沉默召回等階段，由不同運營人員負責，但是這樣將連續過程割裂開不利於運營效果的提升；同時沒有利用平臺使用者線上線下豐富的行為特徵，很難對使用者進行精細化的分析和運營；訊息提醒千篇一律，使用者會感到疲勞從而影響轉化率。

針對這些痛點，小桔車服採用強化學習方法對使用者和平臺之間的互動過程進行建模，並且在訊息提醒階段，使用 graph embedding 方法根據使用者的興趣進行個性化的訊息提醒，真正的做到精準觸達。

2.

智慧營銷建模方法

▍強化學習

強化學習是一種與監督學習不一樣的學習正規化，透過一個智慧體與環境進行互動從而達到學習目標。其最重要的概念包括狀態 State、動作 Action、回報 Reward，智慧體接收到環境的狀態後，對該狀態做出一個動作，環境根據該動作做出一個回報，然後進行一輪一輪的過程學習。

強化學習的典型應用有遊戲、個性化推薦、效果廣告和網約車排程，如 AlphaGo Zero 在圍棋領域戰勝世界頂級選手、多款遊戲中的 OpenAI 基本戰勝人類，滴滴的網約車排程也採用強化學習去預測司機和乘客在時空中的匹配價值，進而在提升平臺 GMV 的同時也提升了乘客和使用者的產品體驗。

強化學習分類

大的方面強化學習可分為 Model based 和 Model free，兩者的區別是 Model based 可以完整的瞭解並學習 Agent 所處的環境，Model free 卻不能。Model free 分為三方面：策略梯度最佳化、Q-learning 及兩者的結合，策略梯度最佳化適用的場景是動作連續的或者動作空間非常大，比較適合推薦或廣告領域，典型的方法有 A3C 和 PPO；Q-learning 適合的場景是動作空間有限的幾個或幾十個，典型方法有 deep Q-learning；兩者結合的典型方法有 DDPG 和 SAC。

針對車服使用者運營的問題，首先兩個實體中 Agent 是車服平臺，Environment 是使用者，或者其他上下文。在每一輪迭代中 Agent 會向環境傳送一張一定面額一定週期的優惠券，或者一定週期的訊息或者空動作，Environment 收到動作後經過一定週期會做出一個正向或負向反饋，該反饋被量化後傳送給 Agent，環境狀態的變化 State 也會返回給 Agent。

強化學習圖解 + Action 週期

在這個場景裡，強化學習的第一個要素 Action 包括不同面額優惠券的推送、不同週期的訊息推送、空動作；第二個要素 State 是觀察和抽取出來的一些特徵的表徵，包括使用者線下行為、使用者線上行為、靜態行為、模型學習預估分；第三個要素 Reward 是使用者對 Action 的反饋，如空動作加油、訊息推送加油、用優惠券加油；使用者檢視優惠券、檢視訊息；無加油無檢視。

除此之外，針對場景需要定義了兩類 Action 週期：動作週期和沉默週期，傳統強化學習當 Agent 發出動作 Environment 會馬上給出一個響應，但在 O2O 場景下使用者需要一定週期（動作週期）對動作做出響應，如加油，並且在下一時刻使用者不可能再去加油，會進入沉默週期。

Double DQN 演算法流程

因為經典的 DQN 會帶來 Q 值預估的 overstimatation，進而引起接下來訓練的震盪，所以具體的演算法採用 Double deep Q-learning network，演算法分為訓練部分和預測部分：訓練部分的核心是損失值 loss 的不同，double DQN 中左邊網路訓練的 Q 值會週期性的複製給右側的 target Q-network，二者共同去計算得到最終的損失值 loss；預測部分是 Environment 會把當前的狀態輸出給 Double DQN，透過計算將 Q 值最大的 Action 返回給環境，如發一張合適的優惠券、一個訊息推送或者空動作。此外針對正負比例不均衡的情況，演算法採用了負取樣的方法。

▍Double DQN 演算法流程

訊息提醒部分可分為三個階段：首先是運營統一配置，在這個階段所有人收到的訊息是一樣的，使用者容易產生疲勞；其次是初步的個性化，同時構建使用者的需求畫像和平臺的供給畫像，然後將二者匹配起來，這樣可以達到一個相對較好的結果。

最後是為了達到更好的個性化結果，基於使用者的行為序列構建相應的圖，採用 graph embedding 學習方法實現個性化訊息的推送，具體使用了三種方法：LINE、TransE、Graphsage。LINE 適用同質圖進行學習，在同一空間表徵使用者和場站，使用使用者在特權場站與非特權場站的融合轉化序列資料；TransE 適用於異質圖，節點的種類包含使用者或場站，邊為使用者與場站的關係；Graphsage 適用於同質或異質圖，可同時使用結構資訊和量化特徵。

▍強化學習和 graph embedding 相結合

將強化學習和 graph embedding 兩者結合，目前在端到端 "無人駕駛" 的大流量上已經實現了自動化運營，透過在各個模組中機器學習模型的應用，實現了智慧化運營。首先透過特徵提取模組的學習得到強化學習所需要的 State、Action、Reword 三要素，然後放到強化學習演算法中去學習和訓練，產出營銷動作進而執行，執行的時候透過 graph embedding 個性化的訊息推送，給每個使用者匹配合適的服務，進而提高使用者的訊息開啟率和轉化率，最後透過使用者行為收集進入下一輪的迭代，而且在強化學習過程中，實現了中間引數持久化的無狀態化訓練。

3.

效果展示

▍強化學習演算法效果

強化學習部分，從 ROI 的趨勢圖可以看到強化學習實驗組 ROI 是穩定的，基本上是穩定的高於對照組的。

ROI趨勢圖

目前強化學習演算法已經全流量覆蓋加油業務使用者，包括有券提醒和無券推送，強化學習桶比人工運營桶在拉新率和召回率上都有約8%的提升，同時成本大約降低了一半，真正實現了一個比較高的 ROI，從而做到了更加精細化的運營。

強化學習拉新召回率對比

拉新成本對比和召回成本對比

▍Graph embedding 個性化訊息提醒效果

關於個性化訊息提醒方面的最佳化，首先用 LINE 方法和人工供需匹配做對比，在訊息開啟率和轉化率上分別提升了7%和10%；然後將 TransE 方法和 LINE 方法做對比，在開啟率和轉化率方面分別提升了4%和6%，累計起來的話 TransE 方法比人工供需匹配在開啟率上提升11%，轉化率上提升16%。總之，目前基於 graph embedding 的個性化訊息提醒方法在加油業務全流量上，每天對大量使用者進行個性化的訊息提醒，使用者體驗也明顯提升。

在使用者增長上，車服演算法團隊初步建立起來一套智慧營銷的體系，透過資料驅動的方式精細化地賦能了運營，提升了使用者增長的效果和效率。

本次分享就到這裡，謝謝大家！

文章首發自 DataFunTalk ，點選此處可檢視原文。

本文作者
▬
劉 凱
滴滴 | 高階演算法專家
博士畢業於中國科學院自動化所。做人低調，做事高調。以第一作者發表了多篇頂級國際學術雜誌和會議文章，深耕於個性化推薦、效果廣告、智慧營銷等相關領域。

強化學習在小桔車服使用者運營中的實踐

1.