基於bert架構的精準知識表徵模型

e成科技發表於2019-12-12

畫像是什麼?

“畫像”的出現,得益於大資料、雲端計算人工智慧等新技術的飛速發展。使用者畫像(persona)的概念最早由互動設計之父Alan Cooper提出:“Personas are a concrete representation of target users.” 是指真實使用者的虛擬代表,是建立在一系列屬性資料之上的目標使用者模型。

如今,為了提高客戶體驗和運營效率,畫像早已被應用在各行各業。金融企業是最早開始使用使用者畫像的行業,在人力資本領域,人才/崗位畫像的應用大大提升了HR的工作效率和質量,是人力資本數字化的重要入口和核心要素。所謂人才/崗位畫像,即是基於企業招聘的顯性的職位描述和隱形的內在潛質共同組成的使用者畫像(以下簡稱“畫像”)。

基於bert架構的精準知識表徵模型
△一張畫像,沒有讀不懂的人才

構建畫像的核心工作,主要是利用儲存在伺服器上的海量日誌和資料庫裡的大量資料進行分析和挖掘,給使用者貼“標籤”而“標籤”是能表示使用者某一維度特徵的標識

業界有一套較為成熟的畫像構建方法,為了讓畫像成為可普遍使用的基礎服務,需要對畫像的欄位進行數值化處理。其中結構化資料比較容易進行數值編碼(例如:性別/年齡/工作年限等),而非結構化資料(例如工作經歷/職能/技能等)多數為文字型別處理難度較高。對於非結構化資料,生成具備語義含義的Embedding是業界較為廣泛使用的方案。

職能/技能可以統稱為使用者的知識體系,即使每一個職能/技能生成了具備語義含義的Embedding,如何透過聚合生成使用者整個知識體系的數值表達並儘可能保留文字自身的資訊,依舊是亟待解決的問題

在畫像構建過程中,對於結構化資料業界已經積累了大量的成熟有效的方案。然而非結構化資料(例如文字型別)包含了更全面和深度的使用者潛在資訊,目前透過詞向量加權平均依舊是主流使用的處理方法。

此類方法存在一些缺陷

1.生成的Embedding完全基於語義表達,缺失了其內在業務含義;

2.直接加權平均的方法,容易掩蓋掉重要的資訊,且權重不好定義。

基於此,我們針對人力資本場景,借鑑Bert的思想提出了一個新方法,能夠更好地用數學的方法對人才/崗位畫像進行表示。

為了讓AI+資料驅動的數字化招聘更為精準智慧,我們以e成科技獨有的HR行業職能/技能知識圖譜作為先驗的業務知識,並基於海量簡歷和崗位描述資料(千萬級),借鑑Bert的模型架構專門對畫像中的知識體系相關欄位(職能/技能)進行了深度最佳化。該方法提供的知識表徵,首先包含了技能/職能的內在關係,其次透過attention的方式聚合能保證重要業務資訊的不丟失。

經過最佳化的人才/崗位畫像,在數字化招聘、人崗匹配、人才盤點、薪酬預測等多個下游業務場景中均取得顯著的最佳化提升。

部分場景舉例

  • 人才選拔:透過人才畫像分析,使人才供給與業務發展速度高度匹配,最佳化人才隊伍配置效率,降低人才流失率;

  • 人才任用:透過崗位畫像和人才畫像的分析與匹配度分析,實現人才和崗位最優配置,使優秀人才能充分發揮能力與主觀能動性,提高人力資本效率;

  • 人才盤點:利用大資料分析及AI技術,全面挖掘人才素質,評估人才潛力,動態校準人才畫像,即時展現人才能力、績效、潛力等分佈情況,為人才識別、發展、配置提供價值,啟用組織與人才發展;

  • 薪酬預測:根據人才畫像和崗位畫像,結合行業崗位知識,分析人才/候選人技能及發展水平,預測候選人及企業未來薪酬水平;

接下來,為大家介紹我們在有關領域的最新方案以及應用成果。

ELMoVS Word2Vec,更優的特徵提取器 

Word2Vec是近幾年非常流行的Word Eembedding提取模型。模型透過預先構建的詞表將輸入語句中某單詞前、後所有詞語編碼為多個one-hot向量傳入模型,隨後透過一個共享的引數矩陣將這些向量對映到隱藏層,最後使用softmax將隱藏層的輸出轉化為詞表中每個單詞的機率作為輸出,其中機率最高的單詞即為最終預測結果。經過充分訓練後,詞表中每個單詞的語義資訊已經充分“嵌入”了用於對映輸入層和隱藏層的引數矩陣中。使用時只需用單詞的one-hot向量和引數矩陣相乘就可以得到對應的Word Embedding。

這樣的網路結構為Word2Vec帶來了一個嚴重的問題,它無法為語言中常見的多義詞提取Embedding。由於同一個單詞在引數矩陣中只佔據一個向量,網路只能將多義詞的不同語義資訊全部編碼到相同的向量中,反而降低了這些詞向量的表達能力。此外,Word2Vec只採用了一個線性隱藏層,特徵提取能力較弱,對Embedding的表現也有很大的影響。基於bert架構的精準知識表徵模型

ELMo(Embedding from Language Models)模型使用與Word2Vec截然不同的方式提取Embedding,並採用更優的特徵提取器,很好地解決了多義詞問題,同時增強了詞向量的表達能力。模型使用兩層雙向LSTM(Long Short Term Memory)單元作為模型中間層,其中正向LSTM順序接受輸入語句中給定單詞的上文,逆向LSTM倒序接受語句中給定單詞的下文。訓練完成後將輸入層Embedding和兩層LSTM產生的Embedding加權結合後作為句中每個單詞的Embedding使用。與Word2Vec查表式獲取靜態的Embedding不同,ELMo可以根據上下文資訊動態調整詞語的Embedding。多層LSTM特徵提取器可以從文字中分別提取句法、語義等不同層次的資訊,大大提升了詞語特徵的豐富程度。

Attention機制是近幾年提出的新型特徵提取器,在NLP領域的表現效果遠超以往使用的卷積神經網路和LSTM等技術。Bert的優異表現正是建立在這一機制的基礎上,多層Self-Attention單元構成的大型網路和巧妙設計的無監督訓練方式使模型可以利用豐富的自由文字進行訓練,從中提取多層次的語言特徵。

e成科技的應用:知識表徵模型

我們的知識表徵模型(以下簡稱“模型”)同樣使用了多層Self-Attention單元作為基本的特徵提取器,嘗試從e成科技豐富的資料中挖掘出可描述職能和技能各自特徵及其相關關係的Embedding。

為了訓練這樣的模型,我們借鑑並調整了Bert的設計思路,建立一套符合我們訴求的模型結構。模型將e成科技知識圖譜中職能和技能的實體名稱作為Embedding提取粒度,端到端地進行特徵提取,避免字粒度模型提取特徵後還需將其重新組合成詞語的麻煩,也減少了模型的資訊損失。

模型訓練時,我們使用職能、技能前後拼接的資料結構,其中來自相同CV資料的職能、技能作為正樣本,來自相似行業中不同CV資料的職能、技能作為負樣本。正負樣本數量比例為1:1。為了防止模型僅抽取職能對技能的依賴關係,我們在將職能和技能調換順序後的資料加入樣本中同時訓練,以提取雙向的依賴關係。

經過充分訓練後,模型可以提供多樣化的使用方式。模型最後一層輸出和輸入序列等長的Embedding序列,其中第一個Embedding包含整條資料的特徵,之後每個Embedding與輸入序列的詞語一一對應,分別是每個詞語的動態特徵。將序列頭Embedding接入下游任務網路中可以對模型進行fine-tune,可進一步用於不同的細分領域任務。同時,其餘Embedding也可以直接作為詞語特徵使用。考慮到模型結構複雜,運算時間較長,針對某些效能要求較高的業務場景,可以將模型輸入層對應的Embedding作為靜態詞向量使用,透過查表方式大大簡化運算流程

我們使用內部標註的薪酬預測、人崗匹配資料對不同模型進行了評估,結果如下:
基於bert架構的精準知識表徵模型

薪酬預測任務中,每個模型需要提取候選人的技能Embedding作為下游任務的引數,輔助判斷候選人的薪酬水平。實驗中模型之間互不影響,且使用相同的下游薪酬預測模型。結果中可以看到,我們的知識技能表達模型對下游任務各項指標均有5%左右的提升。而人崗匹配任務中,我們將崗位和候選人各自技能Embedding之和作為它們的特徵向量,透過特徵向量相似度判斷候選人和崗位是否匹配。評估結果顯示,我們的模型表現非常出眾,提升效果明顯。

測試過程中,模型可以將大部分被覆蓋的詞語還原為正確結果,下面是從測試樣例中抽取的部分未正確還原的情況。可以看到即使還原失敗,模型也能夠預測到行業內與正確結果相似的答案。

基於bert架構的精準知識表徵模型

相關文章