人才庫變成「一潭死水」?因為你缺了這個!

e成科技發表於2019-01-11

先給大家看一組數字:

● 一家企業在進行了5年以上的招聘,通過不同渠道可以接觸到行業內60%以上目標候選人。

● 經過3年以上招聘的中大型企業,從不同渠道累積獲取的簡歷可達到10萬份以上。

● 企業人才庫簡歷的平均利用率不到10%

換句話說,經過幾年招聘,大部分企業都會積累豐富的簡歷資源。但是,這樣的人才金礦並沒有得到充分的利用。人才池的水平線不斷上漲,最終卻成了一潭死水。

為什麼企業不願意優先從人才庫中搜尋已有簡歷,反而不斷投入人力和金錢從外部渠道獲取人才呢?

很大一部分原因就是人才庫系統不好用,只是簡單的簡歷儲存。上萬份甚至上百萬份簡歷堆砌在一個庫裡,要找人的時候怎麼也找不到。

要處理海量資料,AI演算法就體現了天然的優勢。HR只要通過關鍵詞和標籤,強大的搜尋引擎就可以快速錨定目標候選人,基於人才畫像,自動篩選高質量簡歷,從成千上萬的候選人簡歷中快速找到最匹配的那個TA,從而達到快速填補空缺職位、提高招聘效率、降低招聘成本的目的

那具體AI是怎麼做到的呢?e成科技演算法團隊今天就來給大家科普一下人才庫搜尋引擎背後的演算法知識:

知識圖譜在e成科技人才搜尋引擎中的應用

背景介紹

人才搜尋引擎是e成科技企業服務中的重要組成部分,為使用者提供人才庫搜尋服務。e成科技早期的搜尋引擎主要依賴於term weight、bm25等傳統的資訊檢索相關技術,在語義匹配方面相對薄弱,而隨著e成科技人力資源知識圖譜的落地,搜尋引擎引入知識圖譜相關資料在效果上獲得較大提升。

知識圖譜

e成科技的知識圖譜主要組成部分是實體(entity)和實體間關係,實體型別主要有職能、技能和行業等, 實體關係主要為上下位關係,基於整個graph,可以訓練出每個entity的embedding。

人才搜尋引擎的主要模組

人才搜尋引擎主要有以下幾個主要模組組成:

Query understanding

query理解的主要工作包括對query切詞,以及基本的短語識別,去除停用詞,並通過NER和分類演算法進行tagging,以及通過word重要性模型weighting,知識圖譜落地後,NER識別後還需要通過實體連結將識別出的term/phrase對應到graph中的相應實體id。

Talent document understanding: 

同樣對於簡歷和人才畫像等特徵,通過識別和實體連結實體id的集合。

Match:

通過匹配模型計算query和document的match score。

Rank:  

結合match模組的相關特徵以及文件時效性,使用者招聘偏好等特徵基於pairwise的LTR模型得到document的排序。

模型介紹

1. 神經網路在文字匹配上有兩種型別:

representation

包括DSSM, CDSSM等,主要思想在於將query和document對映到語義空間,最後通過計算相似性表徵兩者的match score,這種方法的優點在於可用來建立索引,但是忽略了詞粒度的特徵以及重要性。

interaction: 

包括MatchPyramid、KNRM、DRMM等,設計match function對query和document中的word進行兩兩交叉,得到match score從而構建interaction matrix。這種方法的效果優於前一種方法,主要原因在於在我們的場景下,崗位和人才的相關性往往取決於重要性最靠前的實體是否精確匹配或者有與之非常相關的實體出現在人才簡歷或畫像中。

2. 基於知識圖譜計算word/entity matrix

因此,我們採用了interaction型別的模型,如何構建interaction matrix是核心問題。首先通過query和document解析,得到query和document的表示

Query:<QueryEntity1, QueryEntity……QueryEntityn,QueryWord1, ……QueryWordn>

doc:<DocEntity1, DocEntity……DocEntityn,DocWord1, …DocWordn>

entity之間的match score通過entity embedding計算得到,entity和word以及word和word之間的match score有其他的模型計算得出,這裡不詳細闡述。

人才庫變成「一潭死水」?因為你缺了這個!

query entity和word與document的entity 和word交叉通過match function得到相應的矩陣。

我們選定DRMM為大體框架,而DRMM中對上述交叉後的matrix進行Histogram Pooling,考慮到這種方式會帶來一定的資訊損失,我們將其更換為mlp,並增加一維用來表徵是否為extract match。

以下為model網路結構圖:

人才庫變成「一潭死水」?因為你缺了這個!

由於word和entity的重要性在計算match feature時比較重要,我們通過attention網路計算每個query中entity/word在計算match feature時的貢獻度

人才庫變成「一潭死水」?因為你缺了這個!

其中Vi為query中一個entity或者word對應的embedding向量拼接對應的實體型別等其他特徵後的向量,是可訓練的引數

由於搜尋排序還需要考慮其他因素,在match feature的基礎上拼接了一些額外的特徵,如doc的時效性、query中的entitiy在文件出現位置的proximity、使用者招聘偏好等,最後計算出score。

模型訓練

我們使用系統的使用者行為資料構造偏序關係,在同一query下已offer的人才>面試邀約的人才>未邀約的人才,構建pairwise的hinge loss.

人才庫變成「一潭死水」?因為你缺了這個!

參考文獻

[1]  Jiafeng Guo, Yixing Fan, Qingyao Ai, andW Bruce Cro.. 2016. A deep relevance matching model for ad-hoc retrieval. In CIKM. ACM, 55–64.

[2]  Po-Sen Huang, Xiaodong He, Jianfeng Gao, Li Deng, Alex Acero, and Larry

Heck. 2013. Learning deep structured semantic models for web search using clickthrough data. In CIKM. ACM, 2333–2338.

相關文章