人崗匹配排序的探索與實踐

e成科技發表於2019-12-13
”人崗匹配“是企業人力資源管理的核心問題,更是所有HR追求的目標。毫不誇張地說,”人崗匹配“是人力資源的起點,也是人力資源的核心目標之一。

本質上,企業和個人是利益共同體,只有使得組織利益和個體價值得到統一,做到“崗得其人”、“人適其崗”,根據人不同的素質和個性將其安排在最合適的崗位上,做到“人盡其才,物盡其用”,才能使人才發揮最大價值,同時啟用組織。

那麼,HR如何做好人崗匹配呢?

以前,在千百萬份簡歷中篩選人才,是HR工作中“解不開的劫”,每天花費大量的時間和精力對優秀簡歷和職位資訊人工做匹配,不僅消耗著HR的積極性,往往結果也不盡如人意,篩不到合適的人才,難以滿足業務部門的需求。

現在,數字經濟時代的新技術給HR帶來了更多可能,AI技術將助力HR實現智慧人崗匹配、大大提升人崗匹配效率與準確率,將HR從機械、瑣碎的招聘工作中解放出來。

在人崗匹配的任務中存在HR、職位(JD)、簡歷(CV)三種實體,人崗推薦系統中由HR釋出職位,根據釋出職位來推薦簡歷,該場景中需要優化推薦的準確率、召回率,提升HR更高的工作效率,提升崗位和簡歷的匹配度來減少招聘人才的成本。

在經典的機器學習排序模型中通常分為兩種:複雜的人工特徵工程+簡單的模型,簡單的人工特徵+複雜的模型。本著該原則我們對以文字為主的職位和簡歷對進行了匹配排序實踐

特徵為王

以JD和CV對為背景,該場景為經典的機器學習排序問題,目標在於預測JD和CV是否匹配,資料集的採集則是來自我司產品ATS平臺,HR從系統根據JD推薦的CV來進行選擇,符合要求將要走面試程式的則標為1,否則標為0。

2.1特徵介紹>

常見的JD如下圖1所示,其中包含格式化離散資料和整段文字資料,從整段文字資料獲取招聘意圖是提取JD特徵的重點難點。

為了更好的解決該問題,我們分別引入知識圖譜(KG)方法和自然語言處理(NLP)方法,其中KG負責去充分提取文字中實體的關係和聯絡,NLP則更好的獲取JD本文和CV文字相似性資訊。因涉及個人隱私此處不展示CV資訊。

人崗匹配排序的探索與實踐

圖1 JD示例

在以JD和CV對是否匹配的背景下,我們將特徵主要分為以下幾類

  • JD特徵:包含地點,學歷硬性要求和利用知識圖譜中提取的實體特徵如(職能,公司,技能,專業,行業)等;

  • CV特徵:包含性別,年齡,學歷等基礎資訊和從工作經歷描述文字中提取的實體資訊,以及文字類特徵等。

2.2特徵處理>

在獲取JD和CV的基礎特徵之後我們主要將特徵主要分為四種型別:
  • ID離散特徵:比如UID,職能ID,公司ID,行業ID,技能ID,專業ID等。

  • 硬性離散類特徵:除了性別,年齡,工作地點等基礎型別特徵,還包含有知識圖譜提取的實體之間的關係特徵比如學校是否匹配,職能(工作職位對應能力)是否匹配等,此處成為match特徵。

  • 連續性特徵:除薪資等,還包含有知識圖譜提取的實體之間的graph embedding的vector相似性值,此處成為IDsim特徵。

  • Emdedding特徵:包括了ID離散特徵的vector,該vector有知識圖譜的graph embedding方法產生(如 DeepWalk,LINE等 )。文字embedding特徵,該特徵以JD和CV對的方式輸入DSSM模型產生vector。

在此基礎上我們還加入了相應統計特徵,統計特徵主要有強特徵的共現特徵以及強特徵之間的多樣性統計。特徵之間的應用以及組合根據模型不同而展開討論,不同模型對不同特徵的表徵能力不同。

模型演變

在模型方面主要可以分為兩個總方向,分別是非線性樹和deep模型的探索,在探索上主要是根據不同模型的性質進行特徵工程

3.1非線性樹模型>
我們主要以gbdt為主的樹模型展開特徵工程的探索,gbdt的實現以xgboost
圖2

和lgb為主。gbdt模型結構如圖2所示,gbdt為一個boosting模型,通過疊加多個弱模型來提升擬合能力,根據xgboost模型的優缺點我們可以充分挖掘可用特徵。

人崗匹配排序的探索與實踐

我們再次整理上一節可用特徵,主要有ID類特徵(職能、行業、公司、技能、專業等);基本資訊匹配特徵(年齡,工作經驗,學校等)該特徵為二分類特徵,以JD和CV的ID類特徵是否匹配來構建二分類特徵(如職能是否匹配等稱為match特徵),將這兩類統稱為硬性離散類特徵;JD和CV類的graph embedding產生vector對計算餘弦值作為連續特徵(稱為IDsim特徵),加上文字相似性特徵(稱為textsim特徵)和薪資組成連續特徵。值得注意的是文字特徵主要根據JD和CV的格式分為title 和description兩個部分來挖掘。考慮到xgboost處理連續值的缺點我們將連續值進行分桶,桶數可由某維特徵的分佈來確定。將ID類特徵也一同加入到樹模型中,這是考慮到組合特徵的業務意義。分析特徵重要性之後,我們根據特徵現象去做統計特徵,比如出現頻率統計,特徵共現統計,多維特徵多樣性統計等操作。相對應的title和description 文字特徵也可通過簡單的加權命中率來構成特徵加入到樹模型中。

總之實驗證明ID類特徵,二分類特徵,連續特徵離散化,統計類特徵,以及embedding產生的vector的交叉特徵都會給模型帶來正向收益。

3.2深度模型的探索>

深度模型對比樹模型更加突出了非線性的擬合能力,以及高階特徵的交叉融合功能。但是帶來的弊端就是模型的可解釋性變差,根據結果反向特徵工程變得困難起來。我們在JD和CV匹配場景下分別使用了DNN,Wide&Deep,DeepFM,等模型嘗試。

同時並借鑑了PNN、DCN、DLRM和DKN網路原理正在適配適合現有資料型別的模型。本節主要簡要介紹DNN和Wide&Deep,DeepFM的使用,再闡述對現有資料的思考。

YouTube的經典NN為開端(如圖3,引用自相應論文),現有的資料下如何去使用DNN達到收益正是我們所考慮的。在現有的特徵中除了上文提到的二分類特徵,embedding相似性等特徵之外我們包含知識圖譜抽取的實體embedding和文字embedding。文字embedding主要有DSSM模型產生,雙塔模型的輸入分別為JD的title、description,CV工作經驗的title、description,雙塔輸出為JD和CV是否匹配。我們以雙塔的每坐塔的最後輸出vector作為JD和CV的表徵。本著論文中提到的原理我們去除了樹模型中ID類特徵,換成了ID對應的vector,保留原有的二分類和連續特徵,另外在加入了文字embedding特徵,最後的結果不是很樂觀。因此分析原因可能是某些特徵缺失ID(比如CV職能等)初始化為0導致,還存在的原因可能是由於ID vector的知識結構和文字embedding知識結構不同導致,此處知識結構可以理解為不同訓練任務下的embedding空間結構。

人崗匹配排序的探索與實踐

圖3

經歷了DNN嘗試沒帶來正向收益我們偏向於以線性和深度非線性結合的Wide&Deep結構(如圖4)進行適配,此時我們考慮到DNN的實驗產生的問題。

人崗匹配排序的探索與實踐

圖4
我們並未直接加入由知識圖譜產生的ID embedding和由文字DSSM模型產生的文字embedding的結果,我們採用ID類特徵進行隨機初始化的embedding在連線match,IDsim和textsim等特徵作為deep的輸入,將match,IDsim,textsim連線作為wide的輸入。以輸入ID類特徵,match類特徵,IDsim特徵,textsim的xgboost模型作為wide&deep的比較模型,實驗證明wide&deep模型略優於xgboost模型,但是如果對此基礎上xgboost做統計特徵則可超過wide&deep模型。以上可得deep模型非線性表徵能力還是略微的比xgboost能力強。

經過wide&deep模型的實驗基礎上我們想更加利用交叉特徵的功能,因此我們嘗試了deepFM模型,deepFM模型結構圖如圖5所示(引用自deepFM相應論文),deepFM將wide&deep的wide部分替換成了FM機制提升了模型對特徵的交叉組合能力。根據此模型特徵我們將UID,圖譜產生的ID類特徵等稀疏特徵輸入FM部分,match特徵、IDsim特徵以及textsim特徵為dense特徵輸入。結果很是令人歡喜,達到了以上實驗的最優值,可能這就是深度學習帶來的魅力吧。

人崗匹配排序的探索與實踐

圖5
在喜悅的同時,我們想現有的ID初始化embedding都能產生如此大的魅力,利用graph embedding豈不更加喜人。在DeepFM模型輸入基礎上我們將ID的graph embedding也加入到模型的dense feature部分,然而實驗證明並沒有想當然的好,甚至產生了負作用。但至少證明了特徵交叉能帶來收益,至於graph embedding的加入為啥效果不好卻是值得思考和探索的問題。

經過上面的探索我們獲取了一些經驗,例如交叉特徵有用,用embedding產生的向量兩兩相似性計算對樹模型有用,因此我們本著上面積累的經驗進行了人工構建交叉特徵作為xgboost模型的輸入。在此基礎上加入統計特徵,這波操作再次給我們帶來了0.5%的收益。

最後總結下模型方面的探索結果,以上實驗說明我們還沒有充分利用graph embedding 和由DSSM產出的文字embedding,也證明了embedding內涵的巨大作用,後期我們將加大力度去挖掘該部分的內容。

現階段成果和未來展望

4.1現階段成果>

經過上文特徵和模型的探索在此我們分方案來展示我們的實驗結果,分別包含以下方案:

  • 方案1:ID 類特徵+match特徵+IDsim特徵+textsim特徵+gbdt

  • 方案2:ID vector特徵+match特徵+IDsim特徵+text vector特徵+dnn

  • 方案3:ID 類特徵(隨機初始化embedding)+match特徵+IDsim特徵+textsim特徵+deepFM

  • 方案4:ID類特徵+match特徵+IDsim特徵+ID vector inner(交叉)特徵+textsim特徵+統計特徵+gbdt

主要以這四種有效的遞進關係來展示,其中多種的組合嘗試就不一一列舉了。效果如表格1中,我們的評價指標主要為正例的準確率,召回率,F1值和總的AUC值作為評價指標。

人崗匹配排序的探索與實踐表1以上結果都為資料清洗特徵工程後結果,本次資料量JD和CV對大致為86萬,其中負例和正例比大致為7:1,我們將其隨機分成8:1:1其中8成訓練集、1成訓練集和1成測試集。

4.2未來展望>

特徵為王說法不無道理,在加入深度學習探索時應該思考資料質量與資料量是否能支援,在資料質量和量的保證下我們相信深度學習帶來的魅力是巨大的。最近由Facebook出品的DLRM處理異構embedding的能力使我們躍躍欲試。另外由微軟出品的DKN網路也證明了graph embedding所隱藏的資訊量對推薦效果有很大幫助。文獻5中結合知識圖譜在電商環境下的推薦也使得我們相信充分挖掘embedding資訊可以帶來不錯的收益。

作為以技術為驅動的企業,e成科技在AI技術的基礎上,創新性地提出基於人才畫像和崗位畫像的匹配,為人崗匹配帶來革命性變革。

文獻引用:

[1] Chen T , Guestrin C . XGBoost: A Scalable Tree BoostingSystem[J]. 2016.
[2] Covington P, AdamsJ, Sargin E, et al. Deep Neural Networks for YouTube Recommendations[C].conference on recommender systems, 2016: 191-198.
[3] Cheng H, Koc L, Harmsen J, et al. Wide& Deep Learning for Recommender Systems[C]. conference on recommendersystems, 2016: 7-10.
[4] Guo H, Tang R, Ye Y, et al. DeepFM: AFactorization-Machine based Neural Network for CTR Prediction[J]. arXiv:Information Retrieval, 2017.
[5] Wang J, Huang P, Zhao H, et al.Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba[C].knowledge discovery and data mining, 2018: 839-848.

相關文章