強化學習在e成科技人崗匹配系統中的應用

e成科技發表於2019-02-25

原文網址 : http://www.jiqizhixin.com/articles/2019-02-21-4

一、背景介紹

人崗匹配系統是e成HR saas 服務的重要組成部分，主要場景是HR建立職位描述（job description，簡稱jd）後，從人才庫或者使用者主動投遞的簡歷中通過匹配，排序得到最合適該jd的簡歷列表（cv list）。

人崗匹配的價值在於提高HR search人才的效率，這個場景可以看做使用者輸入query為jd長文字的搜尋引擎，因此排序是這個系統最重要的一環，而基於使用者反饋資料的LTR（learning to rank）演算法已經被廣泛地應用於各類排序問題。然而，LTR是基於當前線上展示結果的行為資料優化而得到的，受本身排序策略的影響，我們有大量的樣本是沒有被展現或者低頻展現，所以LTR並不是真正的全域性最優。

使用者在瀏覽匹結果的過程中的行為會包括瀏覽、點選、邀約、翻頁、離開這四個動作，而如何讓機器和使用者互動的過程中通過這些行為資料優化序列決策問題使得累積收益（Accumulative Rewards）最大，需要應用強化學習（Reinforcement Learning）來解決，後續第二部分介紹我們業務場景下的MDP（Markov Decision Process）建模過程。

二、問題建模

HR在系統中搜尋簡歷的行為不同於通用的搜尋引擎，在通用的搜尋引擎一般來說使用者在越靠前的位置找到滿意的結果系統的效果越好，而在我們的場景下，評價效果的好壞在於使用者能夠翻頁搜尋到越多合適的人才，因此，我們對reward的定義需要調整。

馬爾可夫決策過程（Markov Decision Process，MDP）是強化學習基本模型。MDP可以由一個四元組<S, A, R, T>表示：（1）S為狀態空間（State Space）；（2）A為動作空間（Action Space）；（3）R為reward；（4）T為狀態轉移

1. S：狀態包括使用者目前所處的pageno以及目前在每一頁使用者歷史行為（邀約、點選等）所對應簡歷的所組成的特徵向量

2. A：通常情況下有兩種型別：1）通過rank function得到每個結果的score

2）直接通過list-wise的方法得到最優的排序，我們採用前者

3. R：在人崗匹配的場景下，HR邀約簡歷並面試通過給予offer的reward設為r_offer ，僅僅邀約面試為r_invite，點選行為 r_click，翻頁行為為r_turn-page （由於使用者在這個場景下需要搜尋更多合適的簡歷，所以翻頁行為代表目前的效果尚可有興趣繼續搜尋），其中

r_offer＞ r_invite ＞r_clic_k＞ r_turn-page

然而對於沒有任何行為的頁面r_non-action和離開r_abandon 的行為應當認為負向收益最後當前頁面下的reward為：R=Σr_offer+ Σr_invite+ Σr_click+ r_turn-page- r_non-action- r_abandon

三、模型訓練

T : 主要為P（s，a），即agent在狀態s下采取行動a後的狀態轉移概率

由於我們的action空間較大，單純使用value-based的方法，例如Q-learning等不太適合我們的場景，而策略迭代的方法存在高方差，收斂速度慢的問題，因此我們使用actor-critic的方法

我們使用DDPG的基本框架，其中cirtic網路估計當前狀態下采用action a所得到的Q，同Q-learning的方法，採用regression方法預估，使用MSE作為loss function：

強化學習在e成科技人崗匹配系統中的應用

對於actor網路

強化學習在e成科技人崗匹配系統中的應用

Critic網路不斷優化自己對Q(s,a)的估計，Actor通過Critic的判斷的梯度，求解更好的策略函式。如此往復，直到Actor收斂到最優策略的同時，Critic收斂到最準確的Q(s,a)估計。

e成科技人崗匹配中的匹配模型
2019-07-15
模型
強化學習在金融市場中的應用（上）
2019-01-17
強化學習
深度強化學習在時序資料壓縮中的應用
2020-12-21
強化學習
【強化學習篇】--強化學習從初識到應用
2018-06-30
強化學習
深度學習及深度強化學習應用
2021-01-04
深度學習強化學習
DeepMind用元強化學習框架探索多巴胺在學習過程中的作用
2019-02-21
強化學習框架
強化學習之原理與應用
2019-02-20
強化學習
深度學習在OC中的應用
2019-02-22
深度學習
人，才是強化學習在真實世界中面臨的真正挑戰
2019-09-12
強化學習
八千字長文深度解讀，遷移學習在強化學習中的應用及最新進展
2019-10-21
遷移學習強化學習
多智慧體強化學習及其在遊戲AI上的應用與展望
2021-10-19
智慧體強化學習遊戲AI
深度學習在推薦系統中的應用綜述（最全）
2018-05-05
深度學習
DeepMind綜述深度強化學習中的快與慢，智慧體應該像人一樣學習
2019-05-03
強化學習智慧體
AI在汽車中的應用：實用深度學習
2018-10-26
AI深度學習
RecSys提前看 | 深度學習在推薦系統中的最新應用
2019-09-12
深度學習
一文了解強化學習的商業應用2
2018-11-09
強化學習
深度強化學習技術開發與應用
2022-08-10
強化學習
奇異值分解在機器人學中的應用
2024-08-15
機器人
機器學習在金融比賽中的應用
2019-02-16
機器學習
【AI in 美團】深度學習在OCR中的應用
2018-06-29
AI深度學習
機器學習在SAP Cloud for Customer中的應用
2018-09-10
機器學習Cloud
百度NLP：強化學習之原理與應用
2019-02-22
強化學習
在物聯網中應用機器學習
2019-02-28
機器學習
gRPC在 ASP.NET Core 中應用學習
2021-03-07
RPCASP.NET
統計學習：EM演算法及其在高斯混合模型(GMM)中的應用
2022-03-09
演算法模型
異構記憶體及其在機器學習系統的應用與優化
2021-06-08
記憶體機器學習優化
影象格式轉化在人臉識別應用中的實踐
2019-04-02
強化學習-學習筆記14 | 策略梯度中的 Baseline
2022-07-12
強化學習筆記梯度
深度學習模型在序列標註任務中的應用
2018-11-01
深度學習模型
機器學習在客戶管理場景中的應用
2018-10-22
機器學習
深度學習在視覺搜尋和匹配中的應用
2020-09-27
深度學習視覺
如何理解雅克比矩陣在深度學習中的應用？
2021-10-23
矩陣深度學習
多工學習(MTL)在轉化率預估上的應用
2021-04-05
卷積操作的概念及其在深度學習中的應用
2023-04-16
卷積深度學習
什麼是深度強化學習？又是如何應用在遊戲中的？
2019-10-18
強化學習遊戲
深度學習在股票市場的應用
2019-02-26
深度學習
強化學習
2020-12-05
強化學習
強化學習-學習筆記13 | 多智慧體強化學習
2022-07-10
強化學習筆記智慧體

強化學習在e成科技人崗匹配系統中的應用

相關文章