人崗匹配排序的探索與實踐

e成科技發表於2019-12-13

原文網址 : https://www.jiqizhixin.com/articles/2019-12-12-9

排序

”人崗匹配“是企業人力資源管理的核心問題，更是所有HR追求的目標。毫不誇張地說，”人崗匹配“是人力資源的起點，也是人力資源的核心目標之一。

本質上，企業和個人是利益共同體，只有使得組織利益和個體價值得到統一，做到“崗得其人”、“人適其崗”，根據人不同的素質和個性將其安排在最合適的崗位上，做到“人盡其才，物盡其用”，才能使人才發揮最大價值，同時啟用組織。

那麼，HR如何做好人崗匹配呢？

以前，在千百萬份簡歷中篩選人才，是HR工作中“解不開的劫”，每天花費大量的時間和精力對優秀簡歷和職位資訊人工做匹配，不僅消耗著HR的積極性，往往結果也不盡如人意，篩不到合適的人才，難以滿足業務部門的需求。

現在，數字經濟時代的新技術給HR帶來了更多可能，AI技術將助力HR實現智慧人崗匹配、大大提升人崗匹配效率與準確率，將HR從機械、瑣碎的招聘工作中解放出來。

在人崗匹配的任務中存在HR、職位（JD）、簡歷（CV）三種實體，人崗推薦系統中由HR釋出職位，根據釋出職位來推薦簡歷，該場景中需要優化推薦的準確率、召回率，提升HR更高的工作效率，提升崗位和簡歷的匹配度來減少招聘人才的成本。

在經典的機器學習排序模型中通常分為兩種：複雜的人工特徵工程+簡單的模型，簡單的人工特徵+複雜的模型。本著該原則我們對以文字為主的職位和簡歷對進行了匹配排序實踐。

特徵為王

以JD和CV對為背景，該場景為經典的機器學習排序問題，目標在於預測JD和CV是否匹配，資料集的採集則是來自我司產品ATS平臺，HR從系統根據JD推薦的CV來進行選擇，符合要求將要走面試程式的則標為1，否則標為0。

2.1特徵介紹>

常見的JD如下圖1所示，其中包含格式化離散資料和整段文字資料，從整段文字資料獲取招聘意圖是提取JD特徵的重點難點。

為了更好的解決該問題，我們分別引入知識圖譜（KG）方法和自然語言處理（NLP）方法，其中KG負責去充分提取文字中實體的關係和聯絡，NLP則更好的獲取JD本文和CV文字相似性資訊。因涉及個人隱私此處不展示CV資訊。

人崗匹配排序的探索與實踐

圖1 JD示例

在以JD和CV對是否匹配的背景下，我們將特徵主要分為以下幾類：

JD特徵：包含地點，學歷硬性要求和利用知識圖譜中提取的實體特徵如（職能，公司，技能，專業，行業）等；
CV特徵：包含性別，年齡，學歷等基礎資訊和從工作經歷描述文字中提取的實體資訊，以及文字類特徵等。

2.2特徵處理>

在獲取JD和CV的基礎特徵之後我們主要將特徵主要分為四種型別：

ID離散特徵：比如UID，職能ID，公司ID，行業ID，技能ID，專業ID等。
硬性離散類特徵：除了性別，年齡，工作地點等基礎型別特徵，還包含有知識圖譜提取的實體之間的關係特徵比如學校是否匹配，職能（工作職位對應能力）是否匹配等，此處成為match特徵。
連續性特徵：除薪資等，還包含有知識圖譜提取的實體之間的graph embedding的vector相似性值，此處成為IDsim特徵。
Emdedding特徵：包括了ID離散特徵的vector，該vector有知識圖譜的graph embedding方法產生（如 DeepWalk，LINE等）。文字embedding特徵，該特徵以JD和CV對的方式輸入DSSM模型產生vector。

在此基礎上我們還加入了相應統計特徵，統計特徵主要有強特徵的共現特徵以及強特徵之間的多樣性統計。特徵之間的應用以及組合根據模型不同而展開討論，不同模型對不同特徵的表徵能力不同。

模型演變

在模型方面主要可以分為兩個總方向，分別是非線性樹和deep模型的探索，在探索上主要是根據不同模型的性質進行特徵工程。

3.1非線性樹模型>

我們主要以gbdt為主的樹模型展開特徵工程的探索，gbdt的實現以xgboost

圖2

和lgb為主。gbdt模型結構如圖2所示，gbdt為一個boosting模型，通過疊加多個弱模型來提升擬合能力，根據xgboost模型的優缺點我們可以充分挖掘可用特徵。

人崗匹配排序的探索與實踐

我們再次整理上一節可用特徵，主要有ID類特徵（職能、行業、公司、技能、專業等）；基本資訊匹配特徵（年齡，工作經驗，學校等）該特徵為二分類特徵，以JD和CV的ID類特徵是否匹配來構建二分類特徵（如職能是否匹配等稱為match特徵），將這兩類統稱為硬性離散類特徵；JD和CV類的graph embedding產生vector對計算餘弦值作為連續特徵（稱為IDsim特徵），加上文字相似性特徵（稱為textsim特徵）和薪資組成連續特徵。值得注意的是文字特徵主要根據JD和CV的格式分為title 和description兩個部分來挖掘。考慮到xgboost處理連續值的缺點我們將連續值進行分桶，桶數可由某維特徵的分佈來確定。將ID類特徵也一同加入到樹模型中，這是考慮到組合特徵的業務意義。分析特徵重要性之後，我們根據特徵現象去做統計特徵，比如出現頻率統計，特徵共現統計，多維特徵多樣性統計等操作。相對應的title和description 文字特徵也可通過簡單的加權命中率來構成特徵加入到樹模型中。

總之實驗證明ID類特徵，二分類特徵，連續特徵離散化，統計類特徵，以及embedding產生的vector的交叉特徵都會給模型帶來正向收益。

3.2深度模型的探索>

深度模型對比樹模型更加突出了非線性的擬合能力，以及高階特徵的交叉融合功能。但是帶來的弊端就是模型的可解釋性變差，根據結果反向特徵工程變得困難起來。我們在JD和CV匹配場景下分別使用了DNN，Wide&Deep，DeepFM，等模型嘗試。

同時並借鑑了PNN、DCN、DLRM和DKN網路原理正在適配適合現有資料型別的模型。本節主要簡要介紹DNN和Wide&Deep，DeepFM的使用，再闡述對現有資料的思考。

以YouTube的經典NN為開端（如圖3，引用自相應論文），現有的資料下如何去使用DNN達到收益正是我們所考慮的。在現有的特徵中除了上文提到的二分類特徵，embedding相似性等特徵之外我們包含知識圖譜抽取的實體embedding和文字embedding。文字embedding主要有DSSM模型產生，雙塔模型的輸入分別為JD的title、description，CV工作經驗的title、description，雙塔輸出為JD和CV是否匹配。我們以雙塔的每坐塔的最後輸出vector作為JD和CV的表徵。本著論文中提到的原理我們去除了樹模型中ID類特徵，換成了ID對應的vector，保留原有的二分類和連續特徵，另外在加入了文字embedding特徵，最後的結果不是很樂觀。因此分析原因可能是某些特徵缺失ID（比如CV職能等）初始化為0導致，還存在的原因可能是由於ID vector的知識結構和文字embedding知識結構不同導致，此處知識結構可以理解為不同訓練任務下的embedding空間結構。

人崗匹配排序的探索與實踐

圖3

經歷了DNN嘗試沒帶來正向收益我們偏向於以線性和深度非線性結合的Wide&Deep結構（如圖4）進行適配，此時我們考慮到DNN的實驗產生的問題。

人崗匹配排序的探索與實踐

圖4

我們並未直接加入由知識圖譜產生的ID embedding和由文字DSSM模型產生的文字embedding的結果，我們採用ID類特徵進行隨機初始化的embedding在連線match，IDsim和textsim等特徵作為deep的輸入，將match，IDsim，textsim連線作為wide的輸入。以輸入ID類特徵，match類特徵，IDsim特徵，textsim的xgboost模型作為wide&deep的比較模型，實驗證明wide&deep模型略優於xgboost模型，但是如果對此基礎上xgboost做統計特徵則可超過wide&deep模型。以上可得deep模型非線性表徵能力還是略微的比xgboost能力強。

經過wide&deep模型的實驗基礎上我們想更加利用交叉特徵的功能，因此我們嘗試了deepFM模型，deepFM模型結構圖如圖5所示（引用自deepFM相應論文）,deepFM將wide&deep的wide部分替換成了FM機制提升了模型對特徵的交叉組合能力。根據此模型特徵我們將UID，圖譜產生的ID類特徵等稀疏特徵輸入FM部分，match特徵、IDsim特徵以及textsim特徵為dense特徵輸入。結果很是令人歡喜，達到了以上實驗的最優值，可能這就是深度學習帶來的魅力吧。

人崗匹配排序的探索與實踐

圖5

在喜悅的同時，我們想現有的ID初始化embedding都能產生如此大的魅力，利用graph embedding豈不更加喜人。在DeepFM模型輸入基礎上我們將ID的graph embedding也加入到模型的dense feature部分，然而實驗證明並沒有想當然的好,甚至產生了負作用。但至少證明了特徵交叉能帶來收益，至於graph embedding的加入為啥效果不好卻是值得思考和探索的問題。

經過上面的探索我們獲取了一些經驗，例如交叉特徵有用，用embedding產生的向量兩兩相似性計算對樹模型有用，因此我們本著上面積累的經驗進行了人工構建交叉特徵作為xgboost模型的輸入。在此基礎上加入統計特徵，這波操作再次給我們帶來了0.5%的收益。

最後總結下模型方面的探索結果，以上實驗說明我們還沒有充分利用graph embedding 和由DSSM產出的文字embedding，也證明了embedding內涵的巨大作用，後期我們將加大力度去挖掘該部分的內容。

現階段成果和未來展望

4.1現階段成果>

經過上文特徵和模型的探索在此我們分方案來展示我們的實驗結果，分別包含以下方案：

方案1：ID 類特徵+match特徵+IDsim特徵+textsim特徵+gbdt
方案2：ID vector特徵+match特徵+IDsim特徵+text vector特徵+dnn
方案3：ID 類特徵（隨機初始化embedding）+match特徵+IDsim特徵+textsim特徵+deepFM
方案4：ID類特徵+match特徵+IDsim特徵+ID vector inner（交叉）特徵+textsim特徵+統計特徵+gbdt

主要以這四種有效的遞進關係來展示，其中多種的組合嘗試就不一一列舉了。效果如表格1中，我們的評價指標主要為正例的準確率，召回率，F1值和總的AUC值作為評價指標。

人崗匹配排序的探索與實踐表1以上結果都為資料清洗特徵工程後結果，本次資料量JD和CV對大致為86萬，其中負例和正例比大致為7:1，我們將其隨機分成8:1:1其中8成訓練集、1成訓練集和1成測試集。

4.2未來展望>

特徵為王說法不無道理，在加入深度學習探索時應該思考資料質量與資料量是否能支援，在資料質量和量的保證下我們相信深度學習帶來的魅力是巨大的。最近由Facebook出品的DLRM處理異構embedding的能力使我們躍躍欲試。另外由微軟出品的DKN網路也證明了graph embedding所隱藏的資訊量對推薦效果有很大幫助。文獻5中結合知識圖譜在電商環境下的推薦也使得我們相信充分挖掘embedding資訊可以帶來不錯的收益。

作為以技術為驅動的企業，e成科技在AI技術的基礎上，創新性地提出基於人才畫像和崗位畫像的匹配，為人崗匹配帶來革命性變革。

文獻引用：

[1] Chen T , Guestrin C . XGBoost: A Scalable Tree BoostingSystem[J]. 2016.

[2] Covington P, AdamsJ, Sargin E, et al. Deep Neural Networks for YouTube Recommendations[C].conference on recommender systems, 2016: 191-198.

[3] Cheng H, Koc L, Harmsen J, et al. Wide& Deep Learning for Recommender Systems[C]. conference on recommendersystems, 2016: 7-10.

[4] Guo H, Tang R, Ye Y, et al. DeepFM: AFactorization-Machine based Neural Network for CTR Prediction[J]. arXiv:Information Retrieval, 2017.

[5] Wang J, Huang P, Zhao H, et al.Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba[C].knowledge discovery and data mining, 2018: 839-848.

e成科技人崗匹配中的匹配模型
2019-07-15
模型
ChatGPT的探索與實踐
2023-09-21
ChatGPT
OceanBase 的探索與實踐
2024-12-05
美團搜尋多業務商品排序探索與實踐
2021-11-20
排序
Flutter探索與實踐
2019-03-04
Flutter
Presto在滴滴的探索與實踐
2020-10-16
REST
彈性探索與實踐
2021-10-28
開源實踐 | 攜程在OceanBase的探索與實踐
2022-01-06
開源實踐 | 攜程在 OceanBase 的探索與實踐
2022-01-09
資料庫治理的探索與實踐
2022-08-04
資料庫
Flink CDC 在京東的探索與實踐
2023-04-12
Android元件化探索與實踐
2019-03-02
Android元件化
前端資料層的探索與實踐（一）
2019-03-16
前端
前端資料層的探索與實踐（二）
2019-03-16
前端
Flutter包大小治理上的探索與實踐
2020-09-28
Flutter
vivo 故障定位平臺的探索與實踐
2023-01-09
FlutterWeb效能優化探索與實踐
2021-12-20
FlutterWeb優化
vivo 敏感詞匹配系統的設計與實踐
2021-12-06
企業架構管控的探索與實踐
2024-04-28
架構
美團多場景建模的探索與實踐
2023-09-19
螞蟻金服 DB Mesh 的探索與實踐
2019-12-16
《探索Python Requests中的代理應用與實踐》
2024-07-12
Python
流批一體在京東的探索與實踐
2022-07-01
雲原生技術領域的探索與實踐
2022-05-31
混合雲網路生態的探索與實踐
2022-04-19
G7在實時計算的探索與實踐
2018-10-15
最佳實踐：路徑路由匹配規則的設計與實現
2023-05-10
路由
Kotlin程式碼檢查在美團的探索與實踐
2018-07-06
Kotlin
美圖個性化推薦的實踐與探索
2018-06-28
低程式碼與大語言模型的探索實踐
2024-02-24
模型
愛奇藝微服務監控的探索與實踐
2020-07-15
微服務
快取框架 Caffeine 的視覺化探索與實踐
2024-07-26
快取框架視覺化
Android對so體積優化的探索與實踐
2022-06-06
Android優化
RocketMQ 5.0：無狀態代理模式的探索與實踐
2022-10-10
MQ模式
金融系統IT運維監控的探索與實踐
2023-04-12
運維
Flink 在 B 站的多元化探索與實踐
2022-12-09
資料庫智慧運維探索與實踐
2018-12-14
資料庫運維
vivo 在離線混部探索與實踐
2024-02-29

人崗匹配排序的探索與實踐

相關文章