畫像是什麼?
如今,為了提高客戶體驗和運營效率,畫像早已被應用在各行各業。金融企業是最早開始使用使用者畫像的行業,在人力資本領域,人才/崗位畫像的應用大大提升了HR的工作效率和質量,是人力資本數字化的重要入口和核心要素。所謂人才/崗位畫像,即是基於企業招聘的顯性的職位描述和隱形的內在潛質共同組成的使用者畫像(以下簡稱“畫像”)。
業界有一套較為成熟的畫像構建方法,為了讓畫像成為可普遍使用的基礎服務,需要對畫像的欄位進行數值化處理。其中結構化資料比較容易進行數值編碼(例如:性別/年齡/工作年限等),而非結構化資料(例如工作經歷/職能/技能等)多數為文字型別處理難度較高。對於非結構化資料,生成具備語義含義的Embedding是業界較為廣泛使用的方案。
在畫像構建過程中,對於結構化資料業界已經積累了大量的成熟有效的方案。然而非結構化資料(例如文字型別)包含了更全面和深度的使用者潛在資訊,目前通過詞向量加權平均依舊是主流使用的處理方法。
此類方法存在一些缺陷:
2.直接加權平均的方法,容易掩蓋掉重要的資訊,且權重不好定義。
經過優化的人才/崗位畫像,在數字化招聘、人崗匹配、人才盤點、薪酬預測等多個下游業務場景中均取得顯著的優化提升。
部分場景舉例
人才選拔:通過人才畫像分析,使人才供給與業務發展速度高度匹配,優化人才隊伍配置效率,降低人才流失率;
人才任用:通過崗位畫像和人才畫像的分析與匹配度分析,實現人才和崗位最優配置,使優秀人才能充分發揮能力與主觀能動性,提高人力資本效率;
人才盤點:利用大資料分析及AI技術,全面挖掘人才素質,評估人才潛力,動態校準人才畫像,即時展現人才能力、績效、潛力等分佈情況,為人才識別、發展、配置提供價值,啟用組織與人才發展;
薪酬預測:根據人才畫像和崗位畫像,結合行業崗位知識,分析人才/候選人技能及發展水平,預測候選人及企業未來薪酬水平;
接下來,為大家介紹我們在有關領域的最新方案以及應用成果。
ELMoVS Word2Vec,更優的特徵提取器
Word2Vec是近幾年非常流行的Word Eembedding提取模型。模型通過預先構建的詞表將輸入語句中某單詞前、後所有詞語編碼為多個one-hot向量傳入模型,隨後通過一個共享的引數矩陣將這些向量對映到隱藏層,最後使用softmax將隱藏層的輸出轉化為詞表中每個單詞的概率作為輸出,其中概率最高的單詞即為最終預測結果。經過充分訓練後,詞表中每個單詞的語義資訊已經充分“嵌入”了用於對映輸入層和隱藏層的引數矩陣中。使用時只需用單詞的one-hot向量和引數矩陣相乘就可以得到對應的Word Embedding。
這樣的網路結構為Word2Vec帶來了一個嚴重的問題,它無法為語言中常見的多義詞提取Embedding。由於同一個單詞在引數矩陣中只佔據一個向量,網路只能將多義詞的不同語義資訊全部編碼到相同的向量中,反而降低了這些詞向量的表達能力。此外,Word2Vec只採用了一個線性隱藏層,特徵提取能力較弱,對Embedding的表現也有很大的影響。
Attention機制是近幾年提出的新型特徵提取器,在NLP領域的表現效果遠超以往使用的卷積神經網路和LSTM等技術。Bert的優異表現正是建立在這一機制的基礎上,多層Self-Attention單元構成的大型網路和巧妙設計的無監督訓練方式使模型可以利用豐富的自由文字進行訓練,從中提取多層次的語言特徵。
e成科技的應用:知識表徵模型
我們的知識表徵模型(以下簡稱“模型”)同樣使用了多層Self-Attention單元作為基本的特徵提取器,嘗試從e成科技豐富的資料中挖掘出可描述職能和技能各自特徵及其相關關係的Embedding。
為了訓練這樣的模型,我們借鑑並調整了Bert的設計思路,建立一套符合我們訴求的模型結構。模型將e成科技知識圖譜中職能和技能的實體名稱作為Embedding提取粒度,端到端地進行特徵提取,避免字粒度模型提取特徵後還需將其重新組合成詞語的麻煩,也減少了模型的資訊損失。
模型訓練時,我們使用職能、技能前後拼接的資料結構,其中來自相同CV資料的職能、技能作為正樣本,來自相似行業中不同CV資料的職能、技能作為負樣本。正負樣本數量比例為1:1。為了防止模型僅抽取職能對技能的依賴關係,我們在將職能和技能調換順序後的資料加入樣本中同時訓練,以提取雙向的依賴關係。
經過充分訓練後,模型可以提供多樣化的使用方式。模型最後一層輸出和輸入序列等長的Embedding序列,其中第一個Embedding包含整條資料的特徵,之後每個Embedding與輸入序列的詞語一一對應,分別是每個詞語的動態特徵。將序列頭Embedding接入下游任務網路中可以對模型進行fine-tune,可進一步用於不同的細分領域任務。同時,其餘Embedding也可以直接作為詞語特徵使用。考慮到模型結構複雜,運算時間較長,針對某些效能要求較高的業務場景,可以將模型輸入層對應的Embedding作為靜態詞向量使用,通過查表方式大大簡化運算流程。
薪酬預測任務中,每個模型需要提取候選人的技能Embedding作為下游任務的引數,輔助判斷候選人的薪酬水平。實驗中模型之間互不影響,且使用相同的下游薪酬預測模型。結果中可以看到,我們的知識技能表達模型對下游任務各項指標均有5%左右的提升。而人崗匹配任務中,我們將崗位和候選人各自技能Embedding之和作為它們的特徵向量,通過特徵向量相似度判斷候選人和崗位是否匹配。評估結果顯示,我們的模型表現非常出眾,提升效果明顯。
測試過程中,模型可以將大部分被覆蓋的詞語還原為正確結果,下面是從測試樣例中抽取的部分未正確還原的情況。可以看到即使還原失敗,模型也能夠預測到行業內與正確結果相似的答案。