大資料融合技術:問題與挑戰

Subson發表於2017-06-19

大資料融合技術:問題與挑戰

本文為《大資料融合研究:問題與挑戰》的總結。

概述

資料的特點:

  • 多元性——資料型別多樣;資料內容“維度”多樣;資料所涉及的知識範疇的“粒度”多樣
  • 演化性——指資料隨時間或解釋的變化而變化的特性
  • 真實性——由實體的同名異義、異名同義表示以及關係的變化引起
  • 普適性——指在認知範圍內達成共識的特性,例如“老師”和“蠟燭”具有該特性

資料湖:資料整合的物件,即資料與知識的複合體。傳統的關係型資料是先有模式(表)再有資料,而資料湖是先有資料再有模式。

大資料融合:建立資料間、資訊間、知識片段間多維度、多粒度的關聯關係,實現更多層面的知識互動,從而聚斂出資料湖中的“波紋”(即語義關聯的緊密程度)。

大資料融合存在的問題:

  • 割裂的多源異構資料
  • 資料規模與資料價值的矛盾
  • 跨媒體、跨語言的關聯
  • 實體與關係的動態演化
  • 知識的隱含性

現有技術

普遍採用3V(海量、高速、型別多樣)特性下的整合技術。關鍵技術:

  1. 模式/本體對齊:利用屬性名稱、型別、值的相似性以及屬性之間的鄰接關係來尋找源模式與中介模式的對應關係。所需關鍵技術:
    • 演化模型——檢測模式對映的演化,盡力而為、模糊回答
    • 概率模型——將中介模式按語義表示成源屬性的聚類,源模式會出現與其有不同程度對應關係的多個候選中介模式,然後根據查詢請求為每個候選中介模式分配一個備選概率來確定最佳對映
    • 深度匹配——基於潛在的語義匹配
  2. 實體連結:關鍵在於實體識別,主要是識別相似實體(相似:多個命名實體可對應到一個真實實體)和消除實體歧義(一個實體可對應多個真實實體)。可分為:
    • 面向非結構化文字的命名實體識別與消歧——先後出現針對單查詢、文件、短文件及社會媒體3種型別的識別方法
    • 面向結構化資料的的記錄連結——從資料集中識別和聚合表示現實世界中同一實體的記錄
    • 結構化與非結構化資料之間的複雜資料實體關聯——核心為表象消歧,即建立結構化與非結構化實體之間的連結關係
  3. 衝突解決:從所有衝突中甄別正確的值。這些衝突可分為:
    • 模式衝突——由資料來源的模式異構引起
    • 識別符號衝突——指異名同義現象
    • 資料衝突——同一屬性具有多種不同的值
  4. 關係推演:自動找到關聯資料中的路徑模式和自然語言中的關係詞匯之間的對應關係。關係推演包括以下3種情況:
    • 已知一個實體和一條關係推斷另一個實體,或已知兩個實體預測之間的關係——①
    • 實體間間接關係的推理——②;①、②採用嵌入表示圖特徵模型進行關係的推理與預測
    • 關係的演化度量——實體關係的演化,表現在聚類隨時間的變化,涉及軟聚類2階段聚類方案扥等

現有技術的侷限性

實體連結技術的侷限性

問題1:現有的實體連結基本是實體識別、衝突解決、共指識別序列化執行,忽略了此三步之間的彼此相互影響。這樣存在三個方面的弊病:

  1. 實體識別過程中產生的錯誤會依次向後續過程傳播,且該錯誤不可恢復
  2. 共指識別和衝突解決的結果不能向前反饋
  3. 實體識別過程和衝突解決過程可能會產生不一致輸出

實際中這三者相互影響:實體識別為衝突解決和共指識別提供更多的特徵,同時衝突解決和共指識別為實體識別提供已消歧的連結資訊輔助聚類。針對該弊病,現在研究熱點為交叉迭代

問題2:共指識別還面臨實體關係的演化帶來的挑戰。已有方法沒有考慮可靠性和更新程度、區域性決策對與之關聯表象的影響,並且直接面向動態資料,演化模型依賴於訓練資料集和演化證據的質量,匹配精度高,但是時間代價在大資料環境下無法承受。

問題3:複雜實體關聯方法在適用範圍、準確率等方面都存在不足,主要有:

  1. 非結構化資料一般不顯式包含屬性名,其實體屬性不一定到出現在結構化資料中,結構化資料中實體屬性也不一定能在非結構化資料中找到對應
  2. 新實體的發現是一大難點,關鍵在於相似性判斷閾值的確定沒有有效解決辦法
  3. 大資料融合面向跨語言融合邁進,該方面研究成果不多

衝突解決技術的侷限性

問題1:消歧方法依賴於實際參照資料(資料標註)的可用性,參照資料缺乏領域性和針對性,使得實用性變窄

問題2:資訊的質量直接引發衝突

關係推演技術的侷限性

問題1:關係推理目前只考慮了直接關係和路徑關係的推理,缺乏對關係之間複雜模式的考慮

問題2:演化建模對衝突識別與解決影響很大,雖然現有方法捕獲了實體屬性值的變化,但沒有考慮屬性值變化的複雜模式

相關文章