【知識圖譜】知識圖譜實體連結無監督學習框架

產業智慧官發表於2018-04-18

雷鋒網 AI 科技評論按:阿里巴巴有 11 篇論文被 AAAI 2018錄用,分別來自機器智慧技術實驗室、業務平臺事業部、阿里媽媽事業部、人工智慧實驗室、雲零售事業部,其中有 5 位作者受邀在主會做 Oral&Spotlight 形式報告,另有 1 位作者攜兩篇論文在主會以 Poster 形式做報告。論文內容涉及對抗學習、神經網路、提高輕量網路效能的訓練框架、機器翻譯、聊天機器人、無監督學習框架、極限低位元神經網路等技術方向。

以下為阿里巴巴 AI Lab 與微軟研究院、伊利諾伊大學厄巴納-香檳分校的合作論文解讀投稿。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

主要作者(中英文):鍾澤軒 Zexuan Zhong、曹湧 Yong Cao、郭沐 Mu Guo、聶再清 Zaiqing Nie

論文下載地址:https://102.alibaba.com/downloadFile.do?file=1518508273059/CoLink%20An%20Unsupervised%20Framework%20for%20User%20Identity%20Linkage.pdf


摘要

將幾個子知識圖譜上的同一實體資訊連結在一起(也被稱為使用者身份連結(UIL)問題)對很多應用而言都至關重要。實體連結問題有兩大主要難點。

第一,收集人工連結的實體資訊對(user pairs)作為訓練資料的成本非常高昂。

第二,不同子知識圖譜的實體屬性通常有非常不同的定義方式和格式,這使得屬性對齊(attribute alignment)非常困難。

我們在本論文中提出了 CoLink,一種用於實體資訊連結問題的通用型無監督框架。CoLink 使用了一種能同時操作兩個獨立模型(基於屬性的模型和基於關係的模型)的協同訓練演算法,並且能以無監督學習的方式迭代式地讓兩個模型彼此互相增強。我們還提出使用「序列到序列」學習作為基於屬性的模型非常有效,這種方法能將屬性對齊難題當作機器翻譯問題處理。我們將 CoLink 應用到了將企業網路中的員工對映到他們的領英(LinkedIn)個人資料的實體資訊連結任務上。實驗結果表明 CoLink 在 F1 分數上的表現超過之前最佳的無監督方法的 20% 以上。


引言

將不同子知識圖譜上的同一實體資訊連結起來(也被稱為使用者身份連結(UIL)問題)通常能得到對該實體的更好和更深度的理解,這通常又能進一步得到更好的商業智慧。

儘管機器學習演算法已經在實體連結問題上得到了廣泛的應用,但訓練資料的標註工作並不簡單。首先,尋找已連結實體資訊配對是極其耗時的,因為這需要搜尋所有子知識圖譜以及仔細評估大量候選配對。另外這個工作還需要人類標註者具有廣泛的領域知識。其次,由於隱私保護的原因,並非所有知識圖譜的實體資料都可以提供給人類標註者,尤其是當這些資料來自個人社交網路或企業內部網路時。

在兩個子知識圖譜之間連結實體需要仔細比對兩個子圖譜中的實體屬性,比如名稱、職位、位置等。因此,屬性值的對齊對實體連結問題而言至關重要。但是,傳統的字串相似度函式有兩個不足之處:

  • 沒有一個通用方法可以處理相同屬性在不同實體網路中的變化

  • 無法找到隱式的屬性對應關係

在這篇論文中,我們提出了一種用於實體連結問題的通用型無監督框架 CoLink。知識圖譜中的實體資料可以自然地劃分為兩個獨立的角度的特徵:屬性和關係,這完美契合協同訓練(co-training)演算法的要求。

CoLink 使用兩個獨立的模型:一個基於屬性的模型和一個基於關係的模型。基於屬性的模型和基於關係的模型都是二元分類器,決定兩個實體是否能連結起來。它們可以基於任何機器學習或啟發式演算法。因此,只要知識圖譜資料中包含屬性和關係,那就可以將 CoLink 應用於該知識圖譜的實體連結問題上

更進一步,我們在 CoLink 的基於屬性的模型的實現中使用了「序列到序列」學習演算法,這為不同實體網路之間的屬性對齊提供了一種通用方法。我們沒有將屬性對齊當成字串相似度比較而進行處理,而是試圖將一種「語言」(一種特定風格的網路)的屬性值「翻譯」成另一種「語言」。縮略語、縮寫、同義詞甚至隱式對應關係都可被視為翻譯的特殊情況。我們選擇「序列到序列」演算法的原因是其已經表現出了在機器翻譯任務上的有效性。具體而言,「序列到序列」方法有兩種可用於 CoLink 的優勢。首先,它幾乎無需手動提取特徵就能自動得到詞層面的對映和序列層面的對映。其次,它只需要正例(已對齊的屬性對)作為訓練資料,這能減輕取樣負例的工作。

我們將 CoLink 應用到連結社交網路的相同使用者的任務上,其中我們試圖將企業網路中的員工和他們的領英個人資料連結起來。我們進一步比較了 CoLink 和之前最佳的無監督方法。實驗結果表明 CoLink 在 F1 分數上的表現總體上能超過之前最佳的無監督方法的 20%。我們的貢獻總結如下:

  • 我們最早將協同訓練演算法用在了知識圖譜實體連結的問題上。由於實體網路中的實體屬性和實體關係是自然分開的,這使得協同訓練是一種完美且無成本的解決方案。

  • 我們最早將屬性對齊問題建模為機器翻譯。我們使用「序列到序列」方法作為基於屬性的模型的基礎,這幾乎無需提取特徵就能實現很好的泛化。

  • 我們進行了大量實驗,比較了我們提出的方法和之前最佳的無監督方法,列舉了不同的設定和模型,結果表明了我們提出的解決方案的有效性。


CoLink

問題定義

知識圖譜上的實體連結問題定義為:其輸入包括一個源知識圖譜和一個目標知識圖譜。其輸出為一個實體連結對集合,表示從源圖譜中連結到目標圖譜中的實體對。

CoLink 框架

CoLink 框架基於如演算法 1 所示的協同訓練演算法。我們在該框架中定義兩個不同的模型:一個基於屬性的模型 fatt 和一個基於關係的模型 frel。這兩個模型都會進行二元分類預測,將一組給定實體對分類為正例(連結的)或負例(非連結的)。該協同訓練演算法以迭代的方式不斷增強這兩個模型。在每一次協同訓練迭代過程中,兩個模型都會使用已連結配對集 S 進行再訓練。然後使用這兩個模型生成的高質量的已連結配對會被合併到 S 中以用於下一次迭代,直到 S 收斂。在最開始時,需要一個初始的已連結配對集(簡稱種子集)來啟動這個協同訓練過程,這個集合可以通過一組種子規則生成。根據模型所用的演算法,基於屬性的模型和基於關係的模型的訓練可能會需要負例。演算法 1 中沒有給出取樣負例的過程。

640?wx_fmt=jpeg

演算法 1:CoLink 中的協同訓練演算法

這個協同訓練演算法不會修改之前的迭代中生成的已連結配對。因此由之前的迭代引入的誤差不會在後面得到修復。這種演算法的一種替代方案是在協同訓練收斂之後進行一次最終修改。即使用該協同學習過程所得到的最終模型來重構 S。

種子規則

該協同訓練演算法的啟動需要一個已連結實體對構成的小型種子集。獲取種子集的一種簡單直接的方法是根據人工設計的規則來生成,我們稱之為種子規則。這些種子規則可以考慮來自目標知識圖譜的以下事實:

  • 實體名稱唯一性

  • 實體屬性值對映

  • 實體關係傳播

種子規則的選取會直接影響 CoLink 的表現。

基於屬性的模型

基於屬性的模型通過考慮實體的屬性來預測連結的實體對。它可以使用任何分類演算法。在這篇論文中,我們嘗試了兩種不同的機器學習演算法:「序列到序列」和支援向量機(SVM)。

序列到序列

由於屬性有不同的變化形式,所以傳統的字串相似度方法在處理屬性對齊方面表現很差。由於屬性對齊類似於機器翻譯問題,所以我們採用了「序列到序列」方法。縮略語、縮寫、同義詞甚至隱式連結都可被視為翻譯的特殊情況。

我們採用了 Sutskever, Vinyals, and Le (2014) 提出的「序列到序列」網路結構。該網路由兩部分構成:序列編碼器和序列解碼器。編碼器和解碼器都使用了深度長短期記憶(LSTM)架構。編碼器深度 LSTM 會讀取輸入序列並求出每個詞位置的表示向量。然後這些向量會被送入一個注意層(attention layer),從而得到一個考慮了輸出詞位置的輸入序列的整體表示。然後解碼器深度 LSTM 的隱藏狀態會進一步被送入一個全連線層(其輸出包含詞彙庫大小的維度資訊),進而預測輸出詞。

我們按照之前的工作,使用已連結屬性值配對訓練了「序列到序列」網路。但是,我們不是使用網路預測輸出序列,而是在 CoLink 中使用所學習到的「序列到序列」網路來進行二元分類。首先,我們使用該網路求出對於一對屬性匹配的概率。然後,我們選擇一個匹配概率閾值,超過該閾值的實體對被認為是有連結的。

支援向量機

SVM 等傳統的分類演算法也可以用在基於屬性的模型中。不同於只需要正例訓練樣本(已連結配對)的「序列到序列」方法,SVM 還需要負例。因為使用者配對空間非常大,所以正例在整個空間中實際上非常稀疏。在每次聯合訓練迭代中,給定已連結配對,我們還會選擇同等數量的隨機實體對作為負例。

基於關係的模型

基於關係的模型僅使用實體關係來預測連結實體對。只根據關係來尋找兩個網路中同等結點的問題通常被稱為網路對齊問題。

基於關係的模型可以使用任何基於關係的網路對齊模型。因為本文的重點是協同訓練演算法和「序列到序列」的基於屬性的模型,所以我們在本論文中使用了一種簡單的啟發式模型,該模型基於一個假設:如果兩個來自不同網路的實體都具有大量互相關聯的已連結實體,那麼這兩個實體很可能也是連結的。


實驗

我們的實驗比較了 CoLink 與當前最佳的無監督方法。我們還研究了種子規則和連結概率閾值的選擇,以更好地理解它們對連結結果的可能影響方式。

資料集

我們選擇了一個真實資料集來評估 CoLink,它包含兩個社交網路。其中一個社交網路是領英,另一個網路是一個企業內部使用者網路。

640?wx_fmt=jpeg

表 1:資料集總體情況

候選實體對的選擇

我們構建了一個候選實體對過濾器,它能移除大量不可能連結的實體對。該候選項過濾器考慮了以下屬性。

  • 實體名

  • 組織機構

在過濾之後,我們得到了 758046 個候選實體對,其涵蓋了測試集合中所有有連結的配對。

序列到序列

我們實驗中的「序列到序列」網路由一個帶注意網路的深度 LSTM 編碼器和一個深度 LSTM 解碼器構成。編碼器深度 LSTM 和解碼器深度 LSTM 都有 2 個層疊的 LSTM,因為我們發現對於實體連結任務而言,超過 2 層的編碼器或解碼器不能再帶來更多提升。每個 LSTM 的迴圈單元大小為 512。每個詞在被送入編碼器和解碼器之前都首先會被轉換成一個 512 維的嵌入向量。「序列到序列」模型的訓練時間取決於訓練資料的規模。平均而言,使用一個 Tesla K40 GPU,讓模型在 10 萬個屬性配對上完成訓練需要 30 分鐘。

種子規則

為了測試 CoLink 的穩健性,我們嘗試了下列 3 個種子規則集:

  • 粗略調整的集合

  • 精細調整的集合

  • 有噪聲集合

640?wx_fmt=jpeg

圖 1:種子集比較;協同訓練迭代開始後的 P/R/F1 趨勢

協同訓練

我們通過將關係特徵和屬性特徵分開而使用了協同訓練。基於屬性的模型和基於關係的模型都能在每次迭代中找到新配對然後增強彼此。圖 2 給出了每個模型所得到的已連結配對的統計情況。在這項任務中,基於屬性的模型生成的配對比基於關係的模型多,這是因為我們沒有完整的領英關係資料。我們爬取了公開的領英個人資料中的「人們還看了」列表,這隻能為每位使用者提供不到 10 個關係。

640?wx_fmt=jpeg

圖 2:基於粗略調整的種子配對使用聯合訓練迭代得到的已連結配對的增長情況

概率閾值

圖 3 給出了不同閾值的比較情況。使用更嚴格的閾值(更小的百分數)會得到更高的精度和相對更低的召回率。我們在本任務中選擇的閾值是 95%。

640?wx_fmt=jpeg

圖 3:序列到序列連結概率閾值比較

比較結果

640?wx_fmt=jpeg

表 2:不同方法的表現的比較

屬性對齊

通過使用「序列到序列」方法,CoLink 可以處理使用傳統字串相似度函式難以應付的屬性對齊問題。表 3 給出了一些選擇出的應該是對齊的屬性示例以及來自不同方法的相似度分數(全都位於 [0,1] 區間中)。在「序列到序列」的幫助下,幾乎無需提取特徵,就可以輕鬆地將這種方法應用於其它實體匹配任務。

640?wx_fmt=jpeg

表 3:選擇出的一些屬性示例以及它們的相似度分數

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png


人工智慧賽博物理作業系統

AI-CPS OS

人工智慧賽博物理作業系統新一代技術+商業作業系統“AI-CPS OS:雲端計算+大資料+物聯網+區塊鏈+人工智慧)分支用來的今天,企業領導者必須瞭解如何將“技術”全面滲入整個公司、產品等“商業”場景中,利用AI-CPS OS形成數字化+智慧化力量,實現行業的重新佈局、企業的重新構建和自我的煥然新生。


AI-CPS OS的真正價值並不來自構成技術或功能,而是要以一種傳遞獨特競爭優勢的方式將自動化+資訊化、智造+產品+服務資料+分析一體化,這種整合方式能夠釋放新的業務和運營模式。如果不能實現跨功能的更大規模融合,沒有顛覆現狀的意願,這些將不可能實現。


領導者無法依靠某種單一戰略方法來應對多維度的數字化變革。面對新一代技術+商業作業系統AI-CPS OS顛覆性的數字化+智慧化力量,領導者必須在行業、企業與個人這三個層面都保持領先地位:

  1. 重新行業佈局:你的世界觀要怎樣改變才算足夠?你必須對行業典範進行怎樣的反思?

  2. 重新構建企業:你的企業需要做出什麼樣的變化?你準備如何重新定義你的公司?

  3. 重新打造自己:你需要成為怎樣的人?要重塑自己並在數字化+智慧化時代保有領先地位,你必須如何去做?

AI-CPS OS是數字化智慧化創新平臺,設計思路是將大資料、物聯網、區塊鏈和人工智慧等無縫整合在雲端,可以幫助企業將創新成果融入自身業務體系,實現各個前沿技術在雲端的優勢協同。AI-CPS OS形成的字化+智慧化力量與行業、企業及個人三個層面的交叉,形成了領導力模式,使數字化融入到領導者所在企業與領導方式的核心位置:

  1. 精細種力量能夠使人在更加真實、細緻的層面觀察與感知現實世界和數字化世界正在發生的一切,進而理解和更加精細地進行產品個性化控制、微觀業務場景事件和結果控制。

  2. 智慧:模型隨著時間(資料)的變化而變化,整個系統就具備了智慧(自學習)的能力。

  3. 高效:企業需要建立實時或者準實時的資料採集傳輸、模型預測和響應決策能力,這樣智慧就從批量性、階段性的行為變成一個可以實時觸達的行為。

  4. 不確定性:數字化變更顛覆和改變了領導者曾經仰仗的思維方式、結構和實踐經驗,其結果就是形成了複合不確定性這種顛覆性力量。主要的不確定性蘊含於三個領域:技術、文化、制度。

  5. 邊界模糊:數字世界與現實世界的不斷融合成CPS不僅讓人們所知行業的核心產品、經濟學定理和可能性都產生了變化,還模糊了不同行業間的界限。這種效應正在向生態系統、企業、客戶、產品快速蔓延。

AI-CPS OS形成的數字化+智慧化力量通過三個方式激發經濟增長:

  1. 創造虛擬勞動力,承擔需要適應性和敏捷性的複雜任務,即“智慧自動化”,以區別於傳統的自動化解決方案;

  2. 對現有勞動力和實物資產進行有利的補充和提升,提高資本效率

  3. 人工智慧的普及,將推動多行業的相關創新,開闢嶄新的經濟增長空間


給決策制定者和商業領袖的建議:

  1. 超越自動化,開啟新創新模式:利用具有自主學習和自我控制能力的動態機器智慧,為企業創造新商機;

  2. 迎接新一代資訊科技,迎接人工智慧:無縫整合人類智慧與機器智慧,重新

    評估未來的知識和技能型別;

  3. 制定道德規範:切實為人工智慧生態系統制定道德準則,並在智慧機器的開

    發過程中確定更加明晰的標準和最佳實踐;

  4. 重視再分配效應:對人工智慧可能帶來的衝擊做好準備,制定戰略幫助面臨

    較高失業風險的人群;

  5. 開發數字化+智慧化企業所需新能力:員工團隊需要積極掌握判斷、溝通及想象力和創造力等人類所特有的重要能力。對於中國企業來說,創造兼具包容性和多樣性的文化也非常重要。


子曰:“君子和而不同,小人同而不和。”  《論語·子路》雲端計算、大資料、物聯網、區塊鏈和 人工智慧,像君子一般融合,一起體現科技就是生產力。


如果說上一次哥倫布地理大發現,擴充的是人類的物理空間。那麼這一次地理大發現,擴充的就是人們的數字空間。在數學空間,建立新的商業文明,從而發現新的創富模式,為人類社會帶來新的財富空間。雲端計算,大資料、物聯網和區塊鏈,是進入這個數字空間的船,而人工智慧就是那船上的帆,哥倫布之帆!


新一代技術+商業的人工智慧賽博物理作業系統AI-CPS OS作為新一輪產業變革的核心驅動力,將進一步釋放歷次科技革命和產業變革積蓄的巨大能量,並創造新的強大引擎。重構生產、分配、交換、消費等經濟活動各環節,形成從巨集觀到微觀各領域的智慧化新需求,催生新技術、新產品、新產業、新業態、新模式。引發經濟結構重大變革,深刻改變人類生產生活方式和思維模式,實現社會生產力的整體躍升。



產業智慧官  AI-CPS


用“人工智慧賽博物理作業系統新一代技術+商業作業系統“AI-CPS OS”:雲端計算+大資料+物聯網+區塊鏈+人工智慧)在場景中構建狀態感知-實時分析-自主決策-精準執行-學習提升的認知計算和機器智慧;實現產業轉型升級、DT驅動業務、價值創新創造的產業互聯生態鏈


640?wx_fmt=png

640?wx_fmt=png

長按上方二維碼關注微信公眾號: AI-CPS,更多資訊回覆:


新技術“雲端計算”、“大資料”、“物聯網”、“區塊鏈”、“人工智慧新產業:智慧製造”、智慧金融”、“智慧零售”、“智慧駕駛”、智慧城市新模式:“財富空間“工業網際網路”、“資料科學家”、“賽博物理系統CPS”、“供應鏈金融”


官方網站:AI-CPS.NET


本文系“產業智慧官”(公眾號ID:AI-CPS)收集整理,轉載請註明出處!



版權宣告產業智慧官(公眾號ID:AI-CPS推薦的文章,除非確實無法確認,我們都會註明作者和來源。部分文章推送時未能與原作者取得聯絡。若涉及版權問題,煩請原作者聯絡我們,與您共同協商解決。聯絡、投稿郵箱:erp_vip@hotmail.com




相關文章