【知識圖譜】知識圖譜資料構建的“硬骨頭”,阿里工程師如何拿下?深度學習在知識圖譜構建中的應用。
阿里妹導讀:搜尋“蕃茄”,你不但能知道它的營養功效、熱量,還能順帶學會煲個牛腩、炒個雞蛋!搜尋引擎何時變成“暖男”了?原來背後有“知識圖譜”這個強大的祕密武器。
作為近年來搜尋領域和自然語言處理領域的熱點,知識圖譜正引領著搜尋引擎向知識引擎的轉變。在阿里的“神馬搜尋”中,知識圖譜及其相關技術的廣泛應用不僅能幫助使用者找到最想要的資訊,更能讓使用者有意想不到的知識收穫。
背景簡介
為了不斷提升搜尋體驗,神馬搜尋的知識圖譜與應用團隊,一直在不斷探索和完善圖譜的構建技術。其中,開放資訊抽取(Open Information Extraction),或稱通用資訊抽取,旨在從大規模無結構的自然語言文字中抽取結構化資訊。它是知識圖譜資料構建的核心技術之一,決定了知識圖譜可持續擴增的能力。
“神馬搜尋”介面
本文聚焦於開放資訊抽取中的重要子任務——關係抽取,首先對關係抽取的各種主流技術進行概述,而後結合業務中的選擇與應用,重點介紹了基於DeepDive的方法,並詳述它在神馬知識圖譜資料構建工作中的應用進展。
關係抽取概述
關係抽取技術分類
現有的關係抽取技術主要可分為三種 :
有監督的學習方法 :該方法將關係抽取任務當做分類問題,根據訓練資料設計有效的特徵,從而學習各種分類模型,然後使用訓練好的分類器預測關係。該方法的問題在於需要大量的人工標註訓練語料,而語料標註工作通常非常耗時耗力。
半監督的學習方法 :該方法主要採用Bootstrapping進行關係抽取。對於要抽取的關係,該方法首先手工設定若干種子例項,然後迭代地從資料從抽取關係對應的關係模板和更多的例項。
無監督的學習方法 :該方法假設擁有相同語義關係的實體對擁有相似的上下文資訊。因此可以利用每個實體對對應上下文資訊來代表該實體對的語義關係,並對所有實體對的語義關係進行聚類。
這三種方法中,有監督學習法因為能夠抽取並有效利用特徵,在獲得高準確率和高召回率方面更有優勢,是目前業界應用最廣泛的一類方法。
遠端監督演算法
為了打破有監督學習中人工資料標註的侷限性,Mintz等人提出了遠端監督(Distant Supervision)演算法,該演算法的核心思想是將文字與大規模知識圖譜進行實體對齊,利用知識圖譜已有的實體間關係對文字進行標註。遠端監督基於的基本假設是:如果從知識圖譜中可獲取三元組R(E1,E2)(注:R代表關係,E1、E2代表兩個實體),且E1和E2共現與句子S中,則S表達了E1和E2間的關係R,標註為訓練正例。
遠端監督演算法是目前主流的關係抽取系統廣泛採用的方法,也是該領域的研究熱點之一。該演算法很好地解決了資料標註的規模問題,但它基於的基本假設過強,會引入大量噪音資料。例如,從知識圖譜獲取三元組:創始人(賈伯斯,蘋果公司),下表句1和句2正確表達了該關係,但句3和句4並沒有表達這樣的關係,因此對句3和句4應用基本假設時會得到錯誤的標註資訊。這個問題通常稱為 the wrong label problem。
出現 the wrong label problem 的根本原因,是遠端監督假設一個實體對只對應一種關係,但實際上實體對間可以同時具有多種關係,如上例中還存在CEO(賈伯斯,蘋果公司)的關係,實體對間也可能不存在通常定義的某種關係,而僅因為共同涉及了某個話題才在句中共現。
為了減小 the wrong label problem 的影響,學術界陸續提出了多種改進演算法,主要包括:
基於規則的方法:通過對wrong label cases的統計分析,新增規則,將原本獲得正例標註的wrong label cases直接標為負例,或通過分值控制,抵消原有的正標註。
基於圖模型的方法:構建因子圖(factor graph)等能表徵變數間關聯的圖模型,通過對特徵的學習和對特徵權重的推算減小wrong label cases對全域性的影響。
基於多示例學習(multi-instance learning)的方法:將所有包含(E1,E2)的句子組成一個bag,從每個bag對句子進行篩選來生成訓練樣本。此類方法最早提出時假設如果知識圖譜中存在R(E1,E2),則語料中含(E1,E2)的所有instance中至少有一個表達了關係R。一般與無向圖模型結合,計算出每個包中置信度最高的樣例,標為正向訓練示例。該假設比遠端監督的假設合理,但可能損失很多訓練樣本,造成有用資訊的丟失和訓練的不充分。為了能得到更豐富的訓練樣本,又提出了multi-instance multi-labels的方法。該方法的假設是,同一個包中,一個sentence只能表示(E1,E2)的一種關係,也就是隻能給出一個label,但是不同的sentence可以表徵(E1,E2)的不同關係,從而得到不同的label。多label標註的label值不是正或負,而是某一種關係。它為同時挖掘一個實體對的多種關係提供了可能的實現途徑。另一種改進的方法是從一個包中選取多個valid sentences作為訓練集,一般與深度學習方法相結合,這種方法更詳細的講解和實現會安排在後續介紹深度學習模型的章節中。
神馬知識圖譜構建中的關係抽取方法選擇
知識圖譜的資料構建,就資料來源而言,分為結構化資料,半結構化資料和無結構資料三類。其中,無結構資料是最龐大、最易獲取的資源,同時也是在處理和利用方面難度最大的資源。神馬知識圖譜構建至今,已經發展為一個擁有近5000萬實體,近30億關係的大規模知識圖譜。在經歷了前期以結構化和半結構化資料為主的領域圖譜構建階段,神馬知識圖譜的資料構建重點已經逐漸轉移為如何準確高效地利用無結構資料進行實體與關係的自動識別與抽取。這一構建策略使得神馬知識圖譜在通用領域的建設和可持續擴增方面有很強的競爭力。
遠端監督演算法利用知識圖譜的已有資訊,使得有監督學習中所需的大規模文字標註成為可能。一方面,遠端監督在很大程度上提升了有監督學習關係抽取的規模和準確率,為大規模的知識圖譜資料構建和補充提供了可能;另一方面,遠端監督對現有知識圖譜的資料和規模有較強的依賴,豐富的標註資料對機器學習能力的提升有很大幫助。為了充分利用知識圖譜規模和遠端監督學習這種相輔相成的特性,在神馬知識圖譜的現階段資料構建業務中,我們採用了以圖譜現有的大規模實體與關係資料為依託,以遠端監督演算法為工具的關係抽取技術。
在上一章的綜述中,我們介紹過多種基於遠端監督思想的改進方法。在具體的業務實現中,我們選取了領域內與業務需求最為契合的兩種代表性方法:基於DeepDive的抽取系統和基於深度學習抽取演算法。兩種方法相輔相成,各有優勢:DeepDive系統較多依賴於自然語言處理工具和基於上下文的特徵進行抽取,在語料規模的選擇上更為靈活,能進行有針對性的關係抽取,且能方便地在抽取過程中進行人工檢驗和干預;而深度學習的方法主要應用了詞向量和卷積神經網路,在大規模語料處理和多關係抽取的人物中有明顯的優勢。在下面的章節中,我們來更詳細地瞭解這兩種方法的實現與應用。
DeepDive系統介紹
DeepDive概述
DeepDive (http://deepdive.stanford.edu/) 是史丹佛大學開發的資訊抽取系統,能處理文字、表格、圖表、圖片等多種格式的無結構資料,從中抽取結構化的資訊。系統整合了檔案分析、資訊提取、資訊整合、概率預測等功能。Deepdive的主要應用是特定領域的資訊抽取,系統構建至今,已在交通、考古、地理、醫療等多個領域的專案實踐中取得了良好的效果;在開放領域的應用,如TAC-KBP競賽、維基百科的infobox資訊自動增補等專案中也有不錯的表現。
DeepDive系統的基本輸入包括:
無結構資料,如自然語言文字
現有知識庫或知識圖譜中的相關知識
若干啟發式規則
DeepDive系統的基本輸出包括:
規定形式的結構化知識,可以為關係(實體1,實體2)或者屬性(實體,屬性值)等形式
對每一條提取資訊的概率預測
DeepDive系統執行過程中還包括一個重要的迭代環節,即每輪輸出生成後,使用者需要對執行結果進行錯誤分析,通過特徵調整、更新知識庫資訊、修改規則等手段干預系統的學習,這樣的互動與迭代計算能使得系統的輸出不斷得到改進。
DeepDive系統架構和工作流程
DeepDive的系統架構如下圖所示,大致分為資料處理、資料標註、學習推理和互動迭代四個流程:
資料處理
1、 輸入與切分
在資料處理流程中,DeepDive首先接收使用者的輸入資料,通常是自然語言文字,以句子為單位進行切分。同時自動生成文字id和每個句子在文字中的index。doc_id + sentence_index 構成了每個句子的全域性唯一標識。
2、 NLP標註
對於每個切分好的句子,DeepDive會使用內嵌的Stanford CoreNLP工具進行自然語言處理和標註,包括token切分,詞根還原、POS標註、NER標註、token在文字中的起始位置標註、依存文法分析等。
3、 候選實體對提取
根據需要抽取的實體型別和NER結果,首先對實體mentions進行定位和提取,而後根據一定的配對規則生成候選實體對。需要特別注意,在DeepDive中,每一個實體mention的標定都是全域性唯一的,由doc_id、sentence_index以及該mention在句子中的起始和結束位置共同標識。因此,不同位置出現的同名的實體對(E1,E2)將擁有不同的(E1_id,E2_id),最終的預測結果也將不同。
4、 特徵提取
該步驟的目的是將每一個候選實體對用一組特徵表示出來,以便後續的機器學習模組能夠學習到每個特徵與所要預測關係的相關性。Deepdive內含自動特徵生成模組DDlib,主要提取基於上下文的語義特徵,例如兩個實體mention間的token sequence、NER tag sequence、實體前後的n-gram等。Deepdive也支援使用者自定義的特徵提取演算法。
資料標註
在資料標註階段,我們得到了候選實體對以及它們對應的特徵集合。在資料標註階段,我們將運用遠端監督演算法和啟發式規則,對每個候選實體對進行label標註,得到機器學習所需的正例和負例樣本。
1、 遠端監督
實現遠端監督標註,首先需要從已知的知識庫或知識圖譜中獲取相關的三元組。以婚姻關係為例,DeepDive從DBpedia中獲取已有的夫妻實體對。若候選實體對能在已知的夫妻實體對中找到匹配對映時,該候選對標記為正例。負例的標註針對需要抽取的不同關係有不同的可選方法。例如可以將沒有在知識庫中出現的實體對標註為負例,但在知識庫收入不完整的情況下該方法會引入噪音負例;也可以用知識庫中互斥關係下的例項來做負例標註,例如父母-子女關係,兄弟姐妹關係,都與婚姻關係互斥,用於標註負例基本不會引入噪音。
2、 啟發式規則
正負樣本的標註還可以通過使用者編寫啟發式規則來實現。以抽取婚姻關係為例,可以定義如下規則:
Candidates with person mentions that are too far apart in the sentence are marked as false.
Candidates with person mentions that have another person in between are marked as false.
Candidates with person mentions that have words like "wife" or "husband" in between are marked as true.
使用者可以通過預留的user defined function介面,對啟發式規則進行編寫和修改。
3、 Label衝突的解決
當遠端監督生成和啟發式規則生成的label衝突,或不同規則生成的label產生衝突時,DeepDive採用majority vote演算法進行解決。例如,一個候選對在DBpedia中找到了對映,label為1,同時又滿足2中第2條規則,得到label 為-1,majority vote對所有label求和:sum = 1 - 1 = 0,最終得到的label為doubt。
學習與推理
通過資料標註得到訓練集後,在學習與推理階段,Deepdive主要通過基於因子圖模型的推理,學習特徵的權重,並最終得到對候選三元組為真的概率預測值。
因子圖是一種概率圖模型,用於表徵變數和變數間的函式關係,藉助因子圖可以進行權重的學習和邊緣概率的推算。DeepDive系統中,因子圖的頂點有兩種,一種是隨機變數,即提取的候選實體對,另一種是隨機變數的函式,即所有的特徵和根據規則得到的函式,比方兩個實體間的距離是否大於一定閾值等。因子圖的邊表示了實體對和特徵及規則的關聯關係。
當訓練文字的規模很大,涉及的實體眾多時,生成的因子圖可能非常複雜龐大,DeepDive採用吉布斯取樣(Gibbs sampling)進行來簡化基於圖的概率推算。在特徵權重的學習中,採用標準的SGD過程,並根據吉布斯取樣的結果預測梯度值。為了使特徵權重的獲得更靈活合理,除了系統預設的推理過程,使用者還可以通過直接賦值來調整某個特徵的權重。篇幅關係,更詳細的學習與推理過程本文不做展開介紹,更多的資訊可參考DeepDive的官網。
互動迭代
迭代階段保證通過一定的人工干預對系統的錯誤進行糾正,從而使得系統的準召率不斷提升。互動迭代一般包括以下幾個步驟:
1、 準召率的快速估算
準確率:在P集中隨機挑選100個,看為TP的比例。
召回率:在輸入集中隨機挑選100個positive case,看有多少個落在計算出的P集中。
2、 錯誤分類與歸納
將得到的每個extraction failure(包括FP和FN)按錯誤原因進行分類和歸納,並按錯誤發生的頻率進行排序,一般而言,最主要錯誤原因包括:
在候選集生成階段沒有捕獲應捕獲的實體,一般是token切分、token拼接或NER問題
特徵獲取問題,沒能獲取到區分度高的特徵
特徵計算問題,區分度高的特徵在訓練中沒有獲得相應的高分(包括正負高分)
3、 錯誤修正
根據錯誤原因,通過新增或修改規則、對特徵進行新增或刪除、對特徵的權重進行調整等行為,調整系統,重新執行修改後的相應流程,得到新的計算結果。
神馬知識圖譜構建中的DeepDive應用與改進
在瞭解了DeepDive的工作流程之後,本章將介紹我們如何在神馬知識圖譜的資料構建業務中使用DeepDive。為了充分利用語料資訊、提高系統執行效率,我們在語料處理和標註、輸入規模的控制、輸入質量的提升等環節,對DeepDive做了一些改進,並將這些改進成功運用到業務落地的過程中。
中文NLP標註
NLP標註是資料處理的一個重要環節。DeepDive自帶的Stanford CoreNLP工具主要是針對英文的處理,而在知識圖譜的應用中,主要的處理需求是針對中文的。因此,我們開發了中文NLP標註的外部流程來取代CoreNLP,主要變動如下:
使用Ali分詞代替CoreNLP的token切分,刪除詞根還原、POS標註和依存文法分析,保留NER標註和token在文字中的起始位置標註。
token切分由以詞為單位,改為以實體為單位。在NER環節,將Ali分詞切碎的token以實體為粒度重新組合。例如分詞結果“華盛頓”、“州立”、“大學”將被組合為“華盛頓州立大學”,並作為一個完整的實體獲得“University”的NER標籤。
長句的切分:文字中的某些段落可能因為缺少正確的標點或包含眾多並列項等原因,出現切分後的句子長度超過一定閾值(如200箇中文字元)的情況,使NER步驟耗時過長。這種情況將按預定義的一系列規則進行重新切分。
主語自動增補
資料處理環節的另一個改進是新增了主語自動補充的流程。以中文百科文字為例,統計發現,有將近40%的句子缺少主語。如下圖劉德華的百科介紹,第二段中所有句子均缺少主語。
主語的缺失很多時候直接意味著候選實體對中其中一個實體的缺失,這將導致系統對大量含有有用資訊的句子無法進行學習,嚴重影響系統的準確率和召回率。主語的自動補充涉及兩方面的判斷:
主語缺失的判斷
缺失主語的新增
由於目前業務應用中涉及的絕大多數是百科文字,缺失主語的新增採用了比較簡單的策略,即從當前句的上一句提取主語,如果上一句也缺失主語,則將百科標題的NER結果作為要新增的主語。主語缺失的判斷相對複雜,目前主要採用基於規則的方法。假設需要提取的候選對(E1, E2)對應的實體型別為(T1, T2),則判定流程如下圖所示:
具體的主語補充例項和處理過程舉例如下:
以百科文字為例,經實驗統計,上述主語自動補充演算法的準確率大約在92%。從關係抽取的結果來看,在所有的錯誤抽取case中,由主語增補導致的錯誤比例不超過2%。
基於關係相關關鍵詞的輸入過濾
DeepDive是一個機器學習系統,輸入集的大小直接影響系統的執行時間,尤其在耗時較長的特徵計算和學習推理步驟。在保證系統召回率的前提下,合理減小輸入集規模能有效提升系統的執行效率。
假設需要提取的三元組為R(E1, E2)且(E1, E2)對應的實體型別為(T1, T2)。DeepDive的預設執行機制是:在資料處理階段,提取所有滿足型別為(T1,T2)的實體對作為候選,不考慮上下文是否有表達關係R的可能性。例如,抽取婚姻關係時,只要一個句子中出現大於等於兩個的人物實體,該句子就會作為輸入參與系統整個資料處理、標註和學習的過程。以下五個例句中,除了句1,其它4句完全不涉及婚姻關係:
尤其當句中的兩個人物實體無法通過遠端監督獲取正例或負例標籤時,此類輸入無法在學習環節為系統的準確率帶來增益。為減小此類輸入帶來的系統執行時間損耗,我們提出了以下改進演算法:
實驗證明,利用改進演算法得到的輸入集規模有顯著的減小,以百科文字的抽取為例,婚姻關係的輸入集可縮小至原輸入集的13%,人物和畢業院校關係的輸入集可縮小至原輸入集的36%。輸入集的縮小能顯著減少系統執行時間,且實驗證明,排除了大量doubt標註實體候選對的干擾,系統的準確率也有較大幅度的提升。
需要指出的是,雖然在輸入環節通過關係相關關鍵詞進行過濾減小輸入規模,能最有效地提高系統執行效率(因為跳過了包含特徵提取在內的所有後續計算步驟),但該環節的過濾是以句子為單位,而非作用於抽取的候選實體對。來看一個婚姻關係提取的多人物示例:
除了孫楠、那英等表演嘉賓盛裝出席外,擔任本場音樂會監製的華誼兄弟總裁王中磊先生、馮小剛導演和夫人徐帆,以及葛優、宋丹丹、李冰冰等演藝明星也一一現身紅毯,到場支援此次音樂會。
因為含有婚姻關係相關的關鍵詞“夫人”,該句子將被保留為系統輸入。從該句提取的多個人物候選實體對需要依靠更完善的啟發式規則來完成進一步的標註和過濾。
實體對到多實體的擴充套件
關係抽取的絕大部分任務僅涉及三元組的抽取。三元組一般有兩種形式,一種是兩個實體具有某種關係,形如R(E1, E2),例如:婚姻關係(劉德華,朱麗倩);另一種是實體的屬性值,形如P(E,V),例如:身高(劉德華,1.74米)。DeepDive預設的關係抽取模式都是基於三元組的。但在實際應用中,有很多複雜的關係用三元組難以完整表達,例如,人物的教育經歷,包括人物、人物的畢業院校、所學專業、取得學位、畢業時間等。這些複雜的多實體關係在神馬知識圖譜中用複合型別來表示。因此,為使抽取任務能相容複合型別的構建時,我們對DeepDive的程式碼做了一些修改,將候選實體對的提取,擴充套件為候選實體組的提取。程式碼修改涉及主抽取模組中的app.ddlog、底層用於特徵自動生成的DDlib和udf中的map_entity_mention.py、extract_relation_features.py等檔案。下圖展示了一個擴充套件後的實體組抽取例項,抽取關係為(人物、所在機構、職位):
應用DeepDive的資料構建工作
本節首先給出一個輸入示例以及該示例在DeepDive執行過程中每一步的輸出結果,如下圖所示。通過這個示例,我們可以對DeepDive各模組的功能和輸出有更直觀的認識。
為了更詳細地瞭解DeepDive的應用和改進演算法的效果,以下我們給出一個具體的婚姻關係抽取任務的相關執行資料。
下表顯示了該抽取任務在資料處理階段各步驟的的耗時和產出數量:
在資料標註的遠端監督階段,我們除了使用知識圖譜中已有的夫妻關係做正例標註,還使用了已有的父母-子女關係和兄弟姐妹關係做負例標註,得到正例數千個,正負標註候選實體的比例約為1:2。
在DeepDive系統中,遠端監督的wrong label problem可以依靠合理編寫的啟發式規則得到一定程度的糾正。觀察婚姻關係的wrong label樣例,我們發現較大比例的wrong label是夫妻實體以某種合作形式(如合作演出、合作演唱、合作著書等)共現在一個句子中,夫妻實體有一個出現在書名號中時,也容易發生誤判。例如:
類似的觀察和總結可以編寫成啟發式規則,依靠從規則得到的負標註抵償遠端監督得到的正標註,減小系統在學習和推理時的偏差。
雖然啟發式規則的編寫大多依靠專家知識或人工經驗完成,但規則的完善和擴充可以依靠某些自動機制來輔助實現。例如,規則定義:句中出現“P_1和P_2結婚”,則(P_1,P_2)得到正標註。根據對“和”和“結婚”等token的擴充套件,我們可以得到“P_1與P_2結婚”、“P_1和P2婚後”、“P_1和P_2的婚禮”等類似應該標註為正的語境。這裡,token的擴充套件可以通過word2vec演算法加人工過濾實現。下表給出了該抽取任務中用到的規則和相應的統計資料。整個資料標註過程耗為14m21s。
學習與推理過程耗時約38m50s。我們隨機擷取了部分知識圖譜未收錄的預測實體對的輸出結果展示如下:
對於系統的準確率,我們取expectation為 [0.95,1][0.95,1] 區間內的輸出結果進行分段統計,統計結果如下列圖表所示:
對系統預測的錯誤樣例進行分析,我們總結了幾種錯誤型別,下表按照出現頻率從高到低,給出了錯誤描述和錯誤示例:
系統召回率的計算相比準確率的計算更為複雜,在語料規模較大的情況下,準確估算召回率將耗費大量的人力。我們採用了抽樣檢測的方式來估算召回率,具體實踐了以下三種方法(統計中expectation均取>=0.95):
抽樣含有某個指定實體的所有sentences,計算召回:含實體 “楊冪” 的sentences共78例,含 (楊冪, 劉愷威)實體對的sentences共13例,人工判斷其中9例描述了該實體對的婚姻關係,其中5例被召回,召回率為0.556。
用於遠端監督正例標註的知識圖譜實體對超過4000對,統計表明,其中42.7%的實體對出現在了語料中,26.5%的實體對被召回,召回率為0.621。
輸入集隨機挑選100例positive cases,其中49例的expectation值>=0.95, 召回率為0.49。
基於DeepDive的關係抽取研究目前已較為完整,並已經在神馬知識圖譜的構建業務中落地。目前在資料構建中的應用涉及人物、歷史、組織機構、圖書、影視等多個核心領域,已抽取關係包括人物的父母、子女、兄弟姐妹、婚姻、歷史事件及人物的合稱、圖書的作者、影視作品的導演和演員、人物的畢業院校和就業單位等。以百科全量語料為例,每個關係抽取任務候選sentence集合的規模在80w至1000w,經改進演算法過濾,輸入規模在15w至200w之間,生成的候選實體對規模在30w至500w之間。系統每輪迭代執行的時間在1小時至8小時之間,約經過3-4輪迭代可產出準確率和召回率都較高的資料給運營稽核環節。系統執行至今,已累計產出候選三元組近3千萬。
除此之外,基於深度學習模型的關係抽取技術及其在神馬知識圖譜資料構建中的應用,我們也在不斷探索和實踐。明天,阿里妹將繼續為大家介紹相關的技術進展和業務落地過程中遇到的一些挑戰,敬請關注哦。
參考文獻
[1]. 林衍凱、劉知遠,基於深度學習的關係抽取
[2]. Daojian Zeng, Kang Liu, Yubo Chen, and Jun Zhao. 2015. Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks. In EMNLP. 1753–1762.
[3]. Guoliang Ji, Kang Liu, Shizhu He, Jun Zhao. 2017. Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Descriptions. Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence
[4]. Siliang Tang, Jinjian Zhang, Ning Zhang, Fei Wu, Jun Xiao, Yueting Zhuang. 2017. ENCORE: External Neural Constraints Regularized Distant Supervision for Relation Extraction. SIGIR'17
[5]. Zeng, D.; Liu, K.; Chen, Y.; and Zhao, J. 2015. Distant supervision for relation extraction via piecewise convolutional neural networks. EMNLP.
[6]. Riedel, S.; Yao, L.; and McCallum, A. 2010. Modeling relations and their mentions without labeled text. In Machine Learning and Knowledge Discovery in Databases. Springer. 148–163.
[7]. Ce Zhang. 2015. DeepDive: A Data Management System for Automatic Knowledge Base Construction. PhD thesis.
[8]. Hoffmann, R.; Zhang, C.; Ling, X.; Zettlemoyer, L.; and Weld, D. S. 2011. Knowledge-based weak supervision for information extraction of overlapping relations. In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1, 541–550. Association for Computational Linguistics.
[9]. Surdeanu, M.; Tibshirani, J.; Nallapati, R.; and Manning, C. D. 2012. Multi-instance multi-label learning for relation extraction. In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 455–465. Association for Computational Linguistics.
[10]. Shingo Takamatsu, Issei Sato and Hiroshi Nakagawa. 2012. Reducing Wrong Labels in Distant Supervision for Relation Extraction. Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, pages 721–729
[11]. Zeng, D.; Liu, K.; Lai, S.; Zhou, G.; Zhao, J.; et al. 2014. Relation classification via convolutional deep neural network. In COLING, 2335–2344.
[12]. Ce zhang, Cheistopher Re; et al. 2017. Communications of the ACM CACM Homepage archive
Volume 60 Issue 5, Pages 93-102
[13]. Mintz, M.; Bills, S.; Snow, R.; and Jurafsky, D. 2009. Distant supervision for relation extraction without labeled data. In Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2, 1003–1011. Association for Computational Linguistics.
[14]. http://deepdive.stanford.edu/
深度學習在知識圖譜構建中的應用
本文轉載自公眾號:阿里技術。
深度學習模型介紹
DeepDive系統在資料處理階段很大程度上依賴於NLP工具,如果NLP的過程中存在錯誤,這些錯誤將會在後續的標註和學習步驟中被不斷傳播放大,影響最終的關係抽取效果。為了避免這種傳播和影響,近年來深度學習技術開始越來越多地在關係抽取任務中得到重視和應用。本章主要介紹一種遠端監督標註與基於卷積神經網路的模型相結合的關係抽取方法以及該方法的一些改進技術。
Piecewise Convolutional Neural Networks(PCNNs)模型
PCNNs模型由Zeng et al.於2015提出,主要針對兩個問題提出解決方案:
針對遠端監督的wrong label problem,該模型提出採用多示例學習的方式從訓練集中抽取取置信度高的訓練樣例訓練模型。
針對傳統統計模型特徵抽取過程中出現的錯誤和後續的錯誤傳播問題,該模型提出用 piecewise 的卷積神經網路自動學習特徵,從而避免了複雜的NLP過程。
下圖是PCNNs的模型示意圖:
PCNNs模型主要包括以下幾個步驟:
實驗證明,PCNNs + 多例項學習的方法 Top N 上平均值比單純使用多示例學習的方法高了 5 個百分點。
Attention機制和其它改進
上述模型對於每個實體對只選用一個句子進行學習和預測,損失了大量的來自其它正確標註句子的資訊。為了在濾除wrong label case的同時,能更有效地利用盡量多的正確標註的句子,Lin et al. 於2016年提出了PCNNs+Attention(APCNNs)演算法。相比之前的PCNNs模型,該演算法在池化層之後,softmax層之前加入了一種基於句子級別的attention機制,演算法的示意圖如下:
除了Attention機制外,還有一些其它的輔助資訊也被加入多示例學習模型來改關係抽取的質量,例如在計算實體向量的時候加入實體的描述資訊(Ji et al.,2017);利用外部神經網路獲取資料的可靠性和取樣的置信度等資訊對模型的訓練進行指導(Tang et al.,2017)。
下圖顯示了各模型和改進演算法的準確率和召回率的對比,其中Mintz不對遠端監督的wrong label problem做處理,直接用所有標註樣例進行訓練;MultiR和MIML是採用概率圖模型進行示例篩選的兩種多示例學習模型;PCNN+MIL是本章第一小節介紹的模型;APCNNs 在PCNN+MIL基礎上新增了attention機制;PCNNs+D在PCNN+MIL基礎上新增了對描述資訊的使用;APCNNs+D在APCNNs基礎上新增了對描述資訊的使用。實驗採用的是該領域評測中使用較廣泛的New York Times(NYT)資料集(Riedel et al.,2010)。
深度學習方法在圖譜構建中的應用進展
深度學習模型在神馬知識圖譜資料構建中的應用目前還處於探索階段,本章將介紹當前的工作進展和業務落地過程中遇到的一些問題。
語料準備和實體向量化
深度學習模型較大程度依賴於token向量化的準確性。與基於DeepDive方法的語料準備相同,這裡的token切分由以詞為單位,改為以實體為單位,以NER環節識別的實體粒度為準。Word2vec生成的向量表徵token的能力與語料的全面性和語料的規模都很相關,因此我們選擇百科全量語料作為word2vec的訓練語料,各統計資料和模型引數設定如下表所示:
為了驗證詞向量訓練的效果,我們對word2vec的結果做了多種測試,這裡給出部分實驗資料。下圖所示的是給定一個實體,查詢最相關實體的實驗:
以下是給定一個實體對和預測實體對的其中一個實體,計算預測實體對中另一個實體的實驗。隨機選取了五種預測關係,構造了15組給定實體對和預測實體對,預測結果如下圖所示,除了飄紅的兩個例子,其餘預測均正確:
模型選取與訓練資料準備
具體應用中我們選擇採用APCNNs模型。我們在NYT標準資料集上覆現了上一章提到的幾種關鍵模型,包括CNN+MIL,PCNN+MIL,CNNs(基於Attention機制的CNN模型)和APCNNs。復現結果與論文中給出的baseline基本一致,APCNNs模型的表現明顯優於其它模型。下圖是幾種模型的準召結果對比:
為了得到豐富的訓練資料,我們取知識圖譜中建設相對完善的人物、地理位置、組織機構、電影、電視、圖書等領域下的15個核心關係,如電影演員、圖書作者、公司高管、人物出生地等,對照百科全量語料,產出relation值為15個關係之一的標註正例,合計數目在千萬量級,產出無relation值標註(relation值為NA)的示例超過1億。
應用嘗試和問題分析
APCNNs模型在輔助知識圖譜資料構建中目前還處於嘗試階段。就運算能力而言,APCNNs模型相比DeepDive系統更有優勢,能在大規模語料上同時針對多個關係進行計算,且迭代更新過程無需人工校驗互動。但在業務落地過程中,我們也遇到了一些問題,總結如下:
大規模實驗耗時過長,給引數的調整和每一次演算法策略上的迭代增加了難度
目前學術界通用的測試語料是英文的NYT資料集,相同的模型應用於中文語料時,存在準召率對標困難的問題
深度學習的過程人工難以干預。假設我們要預測(楊冪,劉愷威)的婚姻關係,但從最初的基於大規模語料的詞向量生成開始,如果該語料中(楊冪,劉愷威)共現時的主導關係就不是婚姻關係,而是影視劇中的合作關係(如“該片講述楊冪飾演的夏晚晴在遭遇好友算計、男友婚變的窘境下,被劉愷威飾演的花花公子喬津帆解救,但卻由此陷入更大圈套的故事。”),或基於某些活動的共同出席關係(如“楊冪與劉愷威共同擔任了新浪廈門愛心圖書館的公益大使”),則在attention步驟中得到的關係向量就會偏向合作關係,這將導致計算包中每個句子的權值時,表達婚姻關係的句子難以獲得高分,從而導致後續學習中的偏差。
深度學習模型的結果較難進行人工評測,尤其對於知識圖譜中沒有出現的實體對,需要在大規模的中間過程矩陣中進行匹配和提取,將權重矩陣視覺化為包中每個句子的得分,對計算資源和人工都有不小的消耗。
總結與展望
基於DeepDive的方法和基於深度學習的方法各有優勢和缺陷,以下從4個方面對這兩種方法進行總結和對比:
1、 語料的選取和範圍
Deepdive可適用於較小型、比較專門的語料,例如歷史人物的關係挖掘;可以針對語料和抽取關係的特點進行調整規則,如婚姻關係的一對一或一對多,如偏文言文的語料的用語習慣等。
APCNNs模型適用於大規模語料,因為attention機制能正常執行的前提是word2vec學習到的實體向量比較豐富全面。
2、 關係抽取
Deepdive僅適用於單一關係的判斷,分類結果為實體對間某一關係成立的期望值。針對不同的關係,可以運營不同的規則,通過基於規則的標註能較好地提升訓練集的標註準確率。
APCNNs模型適用於多分類問題,分類結果為relation集合中的關係得分排序。無需針對relation集合中特定的某個關係做規則運營。
3、 長尾資料
Deepdive更適用於長尾資料的關係挖掘,只要是NER能識別出的實體對,即使出現頻率很低,也能根據該實體對的上下文特徵做出判斷。
APCNNs模型需要保證實體在語料中出現的次數高於一定的閾值,如min_count>=5,才能保證該實體有word2vec的向量表示。bag中有一定數量的sentence,便於選取相似度高的用於訓練
4、 結果生成與檢測
Deepdive對輸出結果正誤的判斷僅針對單個句子,同樣的實體對出現在不同的句子中可能給出完全不同的預測結果。測試需要結合原句判斷結果是否準確,好處是有原句作為依據,方便進行人工驗證。
APCNNs模型針對特定的實體對做判斷,對於給定的實體對,系統給出一致的輸出結果。對於新資料的結果正確性判斷,需要結合中間結果,對包中被選取的句子集合進行提取和驗證,增加了人工檢驗有的難度。
在未來的工作中,對於基於DeepDive的方法,我們在擴大抓取關係數目的同時,考慮將業務實踐中沉澱的改進演算法流程化、平臺化,同時構建輔助的資訊增補工具,幫助減輕DeepDive生成結果寫入知識圖譜過程中的人工檢驗工作,例如,對於婚姻關係的實體對,我們可以從圖譜獲取人物的性別、出生年月等資訊,來輔助關係的正誤判斷。
對於基於深度學習的方法,我們將投入更多的時間和精力,嘗試從以下幾方面促進業務的落地和模型的改進:
將已被DeepDive證明有效的某些改進演算法應用到深度學習方法中,例如根據關係相關的關鍵詞進行過濾,縮小資料規模,提高執行效率。
將計算中間結果視覺化,分析attention過程中關係向量與sentence選取的關聯,嘗試建立選取結果好壞的評判機制,嘗試利用更豐富的資訊獲得更準確的關係向量。
考慮如何突破預先設定的關係集合的限制,面向開放領域進行關係抽取,自動發現新的關係和知識。
探索除了文字以外其它形式資料的關係抽取,如表格、音訊、影像等。
參考文獻
[1]. 林衍凱、劉知遠,基於深度學習的關係抽取
[2]. Daojian Zeng, Kang Liu, Yubo Chen, and Jun Zhao. 2015. Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks. In EMNLP. 1753–1762.
[3]. Guoliang Ji, Kang Liu, Shizhu He, Jun Zhao. 2017. Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Descriptions. Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence
[4]. Siliang Tang, Jinjian Zhang, Ning Zhang, Fei Wu, Jun Xiao, Yueting Zhuang. 2017. ENCORE: External Neural Constraints Regularized Distant Supervision for Relation Extraction. SIGIR'17
[5]. Zeng, D.; Liu, K.; Chen, Y.; and Zhao, J. 2015. Distant supervision for relation extraction via piecewise convolutional neural networks. EMNLP.
[6]. Riedel, S.; Yao, L.; and McCallum, A. 2010. Modeling relations and their mentions without labeled text. In Machine Learning and Knowledge Discovery in Databases. Springer. 148–163.
[7]. Ce Zhang. 2015. DeepDive: A Data Management System for Automatic Knowledge Base Construction. PhD thesis.
[8]. Hoffmann, R.; Zhang, C.; Ling, X.; Zettlemoyer, L.; and Weld, D. S. 2011. Knowledge-based weak supervision for information extraction of overlapping relations. In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1, 541–550. Association for Computational Linguistics.
[9]. Surdeanu, M.; Tibshirani, J.; Nallapati, R.; and Manning, C. D. 2012. Multi-instance multi-label learning for relation extraction. In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 455–465. Association for Computational Linguistics.
[10]. Shingo Takamatsu, Issei Sato and Hiroshi Nakagawa. 2012. Reducing Wrong Labels in Distant Supervision for Relation Extraction. Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, pages 721–729
[11]. Zeng, D.; Liu, K.; Lai, S.; Zhou, G.; Zhao, J.; et al. 2014. Relation classification via convolutional deep neural network. In COLING, 2335–2344.
[12]. Ce zhang, Cheistopher Re; et al. 2017. Communications of the ACM CACM Homepage archive
Volume 60 Issue 5, Pages 93-102
[13]. Mintz, M.; Bills, S.; Snow, R.; and Jurafsky, D. 2009. Distant supervision for relation extraction without labeled data. In Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2, 1003–1011. Association for Computational Linguistics.
[14]. http://deepdive.stanford.edu/
人工智慧賽博物理作業系統
AI-CPS OS
“人工智慧賽博物理作業系統”(新一代技術+商業作業系統“AI-CPS OS”:雲端計算+大資料+物聯網+區塊鏈+人工智慧)分支用來的今天,企業領導者必須瞭解如何將“技術”全面滲入整個公司、產品等“商業”場景中,利用AI-CPS OS形成數字化+智慧化力量,實現行業的重新佈局、企業的重新構建和自我的煥然新生。
AI-CPS OS的真正價值並不來自構成技術或功能,而是要以一種傳遞獨特競爭優勢的方式將自動化+資訊化、智造+產品+服務和資料+分析一體化,這種整合方式能夠釋放新的業務和運營模式。如果不能實現跨功能的更大規模融合,沒有顛覆現狀的意願,這些將不可能實現。
領導者無法依靠某種單一戰略方法來應對多維度的數字化變革。面對新一代技術+商業作業系統AI-CPS OS顛覆性的數字化+智慧化力量,領導者必須在行業、企業與個人這三個層面都保持領先地位:
重新行業佈局:你的世界觀要怎樣改變才算足夠?你必須對行業典範進行怎樣的反思?
重新構建企業:你的企業需要做出什麼樣的變化?你準備如何重新定義你的公司?
重新打造自己:你需要成為怎樣的人?要重塑自己並在數字化+智慧化時代保有領先地位,你必須如何去做?
AI-CPS OS是數字化智慧化創新平臺,設計思路是將大資料、物聯網、區塊鏈和人工智慧等無縫整合在雲端,可以幫助企業將創新成果融入自身業務體系,實現各個前沿技術在雲端的優勢協同。AI-CPS OS形成的數字化+智慧化力量與行業、企業及個人三個層面的交叉,形成了領導力模式,使數字化融入到領導者所在企業與領導方式的核心位置:
精細:這種力量能夠使人在更加真實、細緻的層面觀察與感知現實世界和數字化世界正在發生的一切,進而理解和更加精細地進行產品個性化控制、微觀業務場景事件和結果控制。
智慧:模型隨著時間(資料)的變化而變化,整個系統就具備了智慧(自學習)的能力。
高效:企業需要建立實時或者準實時的資料採集傳輸、模型預測和響應決策能力,這樣智慧就從批量性、階段性的行為變成一個可以實時觸達的行為。
不確定性:數字化變更顛覆和改變了領導者曾經仰仗的思維方式、結構和實踐經驗,其結果就是形成了複合不確定性這種顛覆性力量。主要的不確定性蘊含於三個領域:技術、文化、制度。
邊界模糊:數字世界與現實世界的不斷融合成CPS不僅讓人們所知行業的核心產品、經濟學定理和可能性都產生了變化,還模糊了不同行業間的界限。這種效應正在向生態系統、企業、客戶、產品快速蔓延。
AI-CPS OS形成的數字化+智慧化力量通過三個方式激發經濟增長:
創造虛擬勞動力,承擔需要適應性和敏捷性的複雜任務,即“智慧自動化”,以區別於傳統的自動化解決方案;
對現有勞動力和實物資產進行有利的補充和提升,提高資本效率;
人工智慧的普及,將推動多行業的相關創新,開闢嶄新的經濟增長空間。
給決策制定者和商業領袖的建議:
超越自動化,開啟新創新模式:利用具有自主學習和自我控制能力的動態機器智慧,為企業創造新商機;
迎接新一代資訊科技,迎接人工智慧:無縫整合人類智慧與機器智慧,重新
評估未來的知識和技能型別;
制定道德規範:切實為人工智慧生態系統制定道德準則,並在智慧機器的開
發過程中確定更加明晰的標準和最佳實踐;
重視再分配效應:對人工智慧可能帶來的衝擊做好準備,制定戰略幫助面臨
較高失業風險的人群;
開發數字化+智慧化企業所需新能力:員工團隊需要積極掌握判斷、溝通及想象力和創造力等人類所特有的重要能力。對於中國企業來說,創造兼具包容性和多樣性的文化也非常重要。
子曰:“君子和而不同,小人同而不和。” 《論語·子路》雲端計算、大資料、物聯網、區塊鏈和 人工智慧,像君子一般融合,一起體現科技就是生產力。
如果說上一次哥倫布地理大發現,擴充的是人類的物理空間。那麼這一次地理大發現,擴充的就是人們的數字空間。在數學空間,建立新的商業文明,從而發現新的創富模式,為人類社會帶來新的財富空間。雲端計算,大資料、物聯網和區塊鏈,是進入這個數字空間的船,而人工智慧就是那船上的帆,哥倫布之帆!
新一代技術+商業的人工智慧賽博物理作業系統AI-CPS OS作為新一輪產業變革的核心驅動力,將進一步釋放歷次科技革命和產業變革積蓄的巨大能量,並創造新的強大引擎。重構生產、分配、交換、消費等經濟活動各環節,形成從巨集觀到微觀各領域的智慧化新需求,催生新技術、新產品、新產業、新業態、新模式。引發經濟結構重大變革,深刻改變人類生產生活方式和思維模式,實現社會生產力的整體躍升。
產業智慧官 AI-CPS
用“人工智慧賽博物理作業系統”(新一代技術+商業作業系統“AI-CPS OS”:雲端計算+大資料+物聯網+區塊鏈+人工智慧),在場景中構建狀態感知-實時分析-自主決策-精準執行-學習提升的認知計算和機器智慧;實現產業轉型升級、DT驅動業務、價值創新創造的產業互聯生態鏈。
長按上方二維碼關注微信公眾號: AI-CPS,更多資訊回覆:
新技術:“雲端計算”、“大資料”、“物聯網”、“區塊鏈”、“人工智慧”;新產業:“智慧製造”、“智慧金融”、“智慧零售”、“智慧駕駛”、“智慧城市”;新模式:“財富空間”、“工業網際網路”、“資料科學家”、“賽博物理系統CPS”、“供應鏈金融”。
官方網站:AI-CPS.NET
本文系“產業智慧官”(公眾號ID:AI-CPS)收集整理,轉載請註明出處!
版權宣告:由產業智慧官(公眾號ID:AI-CPS)推薦的文章,除非確實無法確認,我們都會註明作者和來源。部分文章推送時未能與原作者取得聯絡。若涉及版權問題,煩請原作者聯絡我們,與您共同協商解決。聯絡、投稿郵箱:erp_vip@hotmail.com
相關文章
- 知識圖譜|知識圖譜的典型應用
- 【知識圖譜】 一個有效的知識圖譜是如何構建的?
- 知識圖譜構建與應用
- 構建知識圖譜-初學
- 知識圖譜學習記錄--知識圖譜概述
- 知識圖譜01:知識圖譜的定義
- 大資料架構師知識圖譜大資料架構
- 知識圖譜學習
- 知識圖譜Knowledge Graph構建與應用
- 知識圖譜構建與應用推薦學習分享
- 知識圖譜之知識表示
- 構建知識圖譜的八個好處
- 【知識圖譜】知識圖譜實體連結無監督學習框架框架
- 使用ChatGPT自動構建知識圖譜ChatGPT
- Redis閒談(1):構建知識圖譜Redis
- 知識圖譜技術的新成果—KGB知識圖譜介紹
- go 知識圖譜Go
- OI知識圖譜
- 如何高效學習 Kubernetes 知識圖譜?
- 為知識的海洋繪製地圖 —— 利用CirroData-Graph圖資料庫構建知識圖譜地圖資料庫
- 安全知識圖譜|構建APT組織圖譜,打破資訊孤島效應APT
- NLPIR系統構建知識圖譜助力智慧客服應用
- Http/2知識圖譜HTTP
- KGB知識圖譜,利用科技解決傳統知識圖譜問題
- 知識圖譜入門——知識表示與知識建模
- 知識點,如何應用“安全知識圖譜”識別內部威脅?
- 知識圖譜的器與用(一):百萬級知識圖譜實時視覺化引擎視覺化
- 知識圖譜構建之實體關係挖掘
- [知識圖譜構建] 一.Neo4j圖資料庫安裝初識及藥材供應圖譜例項資料庫
- 知識圖譜丨知識圖譜賦能企業數字化轉型
- 人力資源知識圖譜搭建及應用
- 事理圖譜,下一代知識圖譜
- 知識圖譜入門2
- NumPy基礎知識圖譜
- 01 知識圖譜概論
- 安全知識圖譜 | 繪製軟體供應鏈知識圖譜,強化風險分析
- 如何畫好一張架構圖?(內含知識圖譜)架構
- 實驗案例1構建簡單的金融知識圖譜