人才庫變成「一潭死水」？因為你缺了這個！

e成科技發表於2019-01-11

原文網址 : http://www.jiqizhixin.com/articles/2019-01-11-19

先給大家看一組數字：

● 一家企業在進行了5年以上的招聘，通過不同渠道可以接觸到行業內60%以上目標候選人。

● 經過3年以上招聘的中大型企業，從不同渠道累積獲取的簡歷可達到10萬份以上。

● 企業人才庫簡歷的平均利用率不到10%。

換句話說，經過幾年招聘，大部分企業都會積累豐富的簡歷資源。但是，這樣的人才金礦並沒有得到充分的利用。人才池的水平線不斷上漲，最終卻成了一潭死水。

為什麼企業不願意優先從人才庫中搜尋已有簡歷，反而不斷投入人力和金錢從外部渠道獲取人才呢？

很大一部分原因就是人才庫系統不好用，只是簡單的簡歷儲存。上萬份甚至上百萬份簡歷堆砌在一個庫裡，要找人的時候怎麼也找不到。

要處理海量資料，AI演算法就體現了天然的優勢。HR只要通過關鍵詞和標籤，強大的搜尋引擎就可以快速錨定目標候選人，基於人才畫像，自動篩選高質量簡歷，從成千上萬的候選人簡歷中快速找到最匹配的那個TA，從而達到快速填補空缺職位、提高招聘效率、降低招聘成本的目的。

那具體AI是怎麼做到的呢？e成科技演算法團隊今天就來給大家科普一下人才庫搜尋引擎背後的演算法知識：

知識圖譜在e成科技人才搜尋引擎中的應用

背景介紹

人才搜尋引擎是e成科技企業服務中的重要組成部分，為使用者提供人才庫搜尋服務。e成科技早期的搜尋引擎主要依賴於term weight、bm25等傳統的資訊檢索相關技術，在語義匹配方面相對薄弱，而隨著e成科技人力資源知識圖譜的落地，搜尋引擎引入知識圖譜相關資料在效果上獲得較大提升。

知識圖譜

e成科技的知識圖譜主要組成部分是實體（entity）和實體間關係，實體型別主要有職能、技能和行業等, 實體關係主要為上下位關係，基於整個graph，可以訓練出每個entity的embedding。

人才搜尋引擎的主要模組

人才搜尋引擎主要有以下幾個主要模組組成：

Query understanding:

query理解的主要工作包括對query切詞，以及基本的短語識別，去除停用詞，並通過NER和分類演算法進行tagging，以及通過word重要性模型weighting，知識圖譜落地後，NER識別後還需要通過實體連結將識別出的term/phrase對應到graph中的相應實體id。

Talent document understanding：

同樣對於簡歷和人才畫像等特徵，通過識別和實體連結實體id的集合。

Match：

通過匹配模型計算query和document的match score。

Rank：

結合match模組的相關特徵以及文件時效性，使用者招聘偏好等特徵基於pairwise的LTR模型得到document的排序。

模型介紹

1. 神經網路在文字匹配上有兩種型別:

representation:

包括DSSM, CDSSM等，主要思想在於將query和document對映到語義空間，最後通過計算相似性表徵兩者的match score，這種方法的優點在於可用來建立索引，但是忽略了詞粒度的特徵以及重要性。

interaction：

包括MatchPyramid、KNRM、DRMM等，設計match function對query和document中的word進行兩兩交叉，得到match score從而構建interaction matrix。這種方法的效果優於前一種方法，主要原因在於在我們的場景下，崗位和人才的相關性往往取決於重要性最靠前的實體是否精確匹配或者有與之非常相關的實體出現在人才簡歷或畫像中。

2. 基於知識圖譜計算word/entity matrix

因此，我們採用了interaction型別的模型，如何構建interaction matrix是核心問題。首先通過query和document解析，得到query和document的表示

Query：<QueryEntity₁_, QueryEntity₂……QueryEntity_n,QueryWord₁, ……QueryWord_n>

doc：<DocEntity₁_, DocEntity₂……DocEntity_n,DocWord₁, …DocWord_n>

entity之間的match score通過entity embedding計算得到，entity和word以及word和word之間的match score有其他的模型計算得出，這裡不詳細闡述。

人才庫變成「一潭死水」？因為你缺了這個！

query entity和word與document的entity 和word交叉通過match function得到相應的矩陣。

我們選定DRMM為大體框架，而DRMM中對上述交叉後的matrix進行Histogram Pooling，考慮到這種方式會帶來一定的資訊損失，我們將其更換為mlp，並增加一維用來表徵是否為extract match。

以下為model網路結構圖：

人才庫變成「一潭死水」？因為你缺了這個！

由於word和entity的重要性在計算match feature時比較重要，我們通過attention網路計算每個query中entity/word在計算match feature時的貢獻度

人才庫變成「一潭死水」？因為你缺了這個！

其中V_i為query中一個entity或者word對應的embedding向量拼接對應的實體型別等其他特徵後的向量，是可訓練的引數。

由於搜尋排序還需要考慮其他因素，在match feature的基礎上拼接了一些額外的特徵，如doc的時效性、query中的entitiy在文件出現位置的proximity、使用者招聘偏好等，最後計算出score。

模型訓練

我們使用系統的使用者行為資料構造偏序關係，在同一query下已offer的人才>面試邀約的人才>未邀約的人才，構建pairwise的hinge loss.

人才庫變成「一潭死水」？因為你缺了這個！

參考文獻

[1] Jiafeng Guo, Yixing Fan, Qingyao Ai, andW Bruce Cro.. 2016. A deep relevance matching model for ad-hoc retrieval. In CIKM. ACM, 55–64.

[2] Po-Sen Huang, Xiaodong He, Jianfeng Gao, Li Deng, Alex Acero, and Larry

Heck. 2013. Learning deep structured semantic models for web search using clickthrough data. In CIKM. ACM, 2333–2338.

因為你這個人，我選擇了這個公司
2018-06-25
成為高薪人工智慧人才，你要邁出這一步
2018-06-11
高薪人工智慧
因為你安全了,所以你危險了——空指標引用
2020-03-26
指標
你用不慣 RxJava，只因缺了這把鑰匙
2019-04-18
RxJava
因為這個好用便籤，我放棄了紙質便籤
2024-12-09
因為 GitHub Actions 我發現了 Jake Wharton 的一個倉庫
2019-11-15
Github
想成為RPA人才？RPA人才成長指南
2020-01-14
因為這個歸因模型，廣告轉化率提升7%
2020-05-21
模型
SSD行業要變天了！因為這種快閃記憶體晶片要來
2018-07-28
行業記憶體晶片
假如騰訊阿里消失了，這個社會將變成什麼樣?
2020-05-22
阿里
因為這幾個TypeScript程式碼的壞習慣，同事被罰了500塊
2021-04-17
TypeScript
這9個鮮為人知的Python庫，你用過幾個？
2019-03-12
Python
《關於我因為flink成為spark原始碼貢獻者這件小事》
2023-02-16
Spark原始碼
因為美女太多，這所學校設定了三個計算機類學院
2019-08-26
計算機
低程式碼這麼火，它的人才認證你考了嗎？
2021-11-20
成為合格的資料分析師，這幾項能力你具備了嗎？
2019-03-07
2020版Bootstrap入門教程為你助力成為企業需要的高薪前端人才
2020-04-23
boot高薪前端
曾經有人因為這場比賽改變了整個人生，萬向區塊鏈黑客馬拉松最後招募中
2018-08-22
區塊鏈黑客
你的人生有沒有因為意外而改變？你知道哪些因意外而產生價值的事件？
2018-05-09
事件
JVM難學？那是因為你沒認真看完這篇文章
2018-09-27
JVM
身為初學Java的你，這些IDE的優缺點你都知道嗎？
2021-09-23
JavaIDE
為什麼越胖越想吃？因為你胖到自己的大腦了！
2018-09-01
AI現狀人才短缺成為障礙
2020-06-11
AI
太任性！因為美女太多，這所學校設定了三個計算機類學院
2019-08-26
計算機
Python抽象基類：ABC謝謝你，因為有你，溫暖了四季！
2022-04-23
Python抽象
為什麼進步太慢，因為你沒有一個好習慣
2019-03-10
因為我的一個低階錯誤，生產資料庫崩潰了將近半個小時
2020-06-28
資料庫
核聚變可能應用於汽車你以為這是個玩笑嗎？
2018-10-03
因為一個bug,我掀開了openfeign的神秘面紗
2024-02-19
大學四年因為知道了這32個網站，我成了別人眼中的大神！
2020-02-05
網站
有點東西，template可以直接使用setup語法糖中的變數原來是因為這個
2024-06-14
變數
掌握這七點，讓你成為CleanMyMac使用專家！
2018-09-28
Mac
怪不得這位程式設計師有女朋友，原來是因為這個！
2020-12-08
程式設計師
為了設計這個計程車遊戲，開發者真的成為了一名網約車司機
2019-10-14
遊戲
讀了這篇文章，你將變身web分析大師
2018-11-14
Web
完了，這個硬體成精了，它竟然繞過了 CPU...
2020-08-16
大學四年，因為知道這些開發工具，我成為別人眼中的大神
2020-02-14
一個資料庫死鎖竟然被測試發現了，這你敢信
2024-03-13
資料庫

人才庫變成「一潭死水」？因為你缺了這個！

相關文章