海量文字中挖掘人物關聯關係核心技術介紹

達觀資料DataGrand發表於2022-12-14

海量文字中挖掘人物關聯關係核心技術介紹

在大資料時代,透過對目標人物的軌跡、通訊、社交、出行、網路等多模態行為進行挖掘並建立人物畫像模型,並依託人物基礎特徵和高層特徵,例項化人物畫像,支撐有關部門分析人員全方位瞭解目標人物的行為、活動、狀態、基本屬性等資訊,同時能夠基於人物畫像指導人物活動規律分析、人物能力分析、人物動向分析等應用。

海量文字中挖掘人物關聯關係核心技術介紹

圖1 某人物組織網路示例


 本文將重點就人物關聯關係挖掘及其關鍵技術進行分析。人物關聯關係挖掘是網路關係挖掘中的重要一步,透過人物關聯關係挖掘,可以獲得關係網路中的關鍵結點和關鍵路徑,進一步獲取更多的人物關聯關係資訊。人物關聯關係挖掘包括通聯關係挖掘、人物群體關係挖掘、關係網路關鍵節點發現以及關聯網路關鍵路徑發現。

海量文字中挖掘人物關聯關係核心技術介紹 圖2 人物關聯關係挖掘技術結構


通聯關係挖掘

透過查詢選定多個人物話單人物,對多人物之間的通聯關係建立網路(如圖2),構建人物之間的關係網路,並計算話單人物間的親密值權重。基於構建的關係網路可以做以下統計分析挖掘:


海量文字中挖掘人物關聯關係核心技術介紹

圖3 多人物關係網路示意圖


01 關鍵節點發現

在構建的關係網路中,以使用者為節點,透過PageRank演算法量化不同粒度網路結構中不同主體的地位,發掘關係網路中的關鍵節點,以發現活躍及高價值人物。


02 最短路徑查詢

在構建的關係網路中,選中兩個人物,發現兩個人物間的最短路徑,幫助分析人員快速瞭解人物間的關聯性。


03 團體發現

在構建的關係網路中,選中多個人物,發現多人物的親密社群。透過社群發現演算法將整個網路中的人物劃分成若干個群體。發現潛藏在關係網路中的未知的群體關係網路。在關係網路的關係型別、層級、強度挖掘基礎之上,將利用關聯分析技術,協同發現未知群體關係網路,實現關鍵人物的檢測和群體性事件的預警與速報。


04 搜尋共同聯絡人

根據已知的多個人物人物搜尋其共同聯絡人,從而分析人物之間的關聯性,發現隱藏的關係資訊。


05 通聯統計

選中某個人物可以檢視其通訊錄以及相應的統計特徵,例如通聯頻次(分時段、收發關係)、總時長、通聯關係分佈、通聯時段(出入度)。

海量文字中挖掘人物關聯關係核心技術介紹

圖4 簡訊語義分析示意圖


人物群體關聯關係挖掘

人物群體規律採用統計分析和關聯規則發現的方法來完成規律的挖掘。


採用Aprior演算法進行關聯規則的挖掘。關聯規則反映一個事件和其它事件之間的依賴或關聯,關聯規則挖掘的目的就是找出資料中隱藏的關聯資訊。關聯可分為頻繁項集關聯、因果關聯、時序關聯、數量關聯等。具體如下:


01 頻繁項集

透過統計得到所有物件在記錄中協同出現的頻次得到最常出現的k-項集。
頻繁項集指的是在樣本資料集中頻繁出現的項的集合。如:在超市的交易系統中,記載了很多次交易,每一次交易的資訊包括使用者購買的商品清單。

FP-Tree演算法生成頻繁項集,步驟如下:

第一步:掃描事務資料庫,每項商品按頻數遞減排序,並刪除頻數小於最小支援度MinSup的項。

第二步:對於每一條記錄,按照第一步中的順序重新排序。

第三步:把第二步得到的各條記錄插入到FP-Tree中。

第四步:從FP-Tree中找出頻繁項。

第五步:對於每一個頻繁項從FP-Tree中找到所有的頻繁項結點,向上遍歷它的祖先結點,得到路徑;對於每一條路徑上的結點,其計數器都設定為當前遍歷頻繁項計數器的值;根據路徑上結點的計數計算支援度和置信度,將大於支援度和置信度閾值的項保留,得到前件。後件即為當前遍歷的頻繁項。

返回到第三步,遞迴迭代執行,直到遍歷完所有頻繁項。


02 因果關聯

透過因果關聯分析,得到事件之間的因果關係,如威脅程度為一般是陣隊數量為1常在記錄中同時出現,但威脅程度為一般是陣隊數量為1的果。


03 時序關聯

透過統計得到屬性取值之間時間先後情況。


04 數量關聯

透過Aprior演算法得到數值型屬性取值之間關聯情況。如陣隊數量的取值正相關於作戰單位總數。

Aprior演算法 將發現關聯規則的過程分為兩個步驟:

第一步透過迭代,篩選出所有頻繁項集,即支援度不低於使用者設定的閾值的項集;

第二步利用頻繁項集構造出滿足使用者最小置信度的規則。


關聯網路關鍵節點發現

關聯網路關鍵節點發現完成知識圖譜關係網路中對網路連通性和資訊傳播有重要影響的結點。發現資訊網路中對網路連通性和資訊傳播有重要影響的結點。


01 基於圖的關鍵結點發現

透過計算圖中結點的相關分析指標來發現圖中的關鍵結點。

緊密中心性:圖中某個結點到達其他結點的難易程度,也就是其他素有結點距離的平均值的倒數,即Cv=(|V|-1)/Σi≠vdvi。


介數中心性:圖中經過某個結點的最短路徑數量佔總路徑數量的比例,即Bv=Σi≠j,i≠v,j≠vgivj/gij。

02 基於影響力的關鍵結點發現

如圖5所示,在異構資訊網路中,關鍵結點可能是屬於某一角色。比如,在資訊傳播的過程中,某些結點是資訊傳播的起始結點,某些結點對資訊傳播起到推波助瀾的作用,某些結點對資訊傳播沒有任何實質性影響,對於這種情況,可以將這三類結點分別對應三種不同的角色(A、B以及C)。因此,將關鍵結點發現的問題轉化為角色發現的問題,透過網路中結點的角色發現進而找到關鍵結點。給定一個網路,具有相似結構的結點屬於同一角色。非監督的學習方法RolX,自動地從網路資料集中提取結構化的角色。ReFeX的優勢在於,它能夠處理大規模網路並且能夠有效地捕捉到結點的區域性的特徵。RolX大致由三個部分組成:特徵提取、特徵分組以及模型選擇。

特徵提取:ReFeX(Recursive Feature eXtraction)遞迴結合結點以及結點鄰居的特徵,然後得到結點的區域性特徵。


特徵分組:將具有相似結構化特徵的結點分為一組。於是,我們採用軟聚類方法(每個結點均具有角色分佈)對結點進行聚合。對結點特徵矩陣採用SVD或者非負矩陣分解近似得到矩陣,滿足argminG,F ‖V-GF‖fro,s.t.G≥0,F≥0


模型選擇:透過最小化ε=∑i,j(Vi,jlogVi,j/(GF)i,j-Vi,j+(GF)i,j),自動識別網路中的角色數量。


海量文字中挖掘人物關聯關係核心技術介紹

圖5 結點角色結構圖


03 基於角色的關鍵結點發現

從資訊傳播的角度看,網路中結點的影響力越大,資訊傳播的速度就會越快而且範圍越廣。因此,可從網路重構的角度審視影響力最大化問題,將網路中關鍵結點發現的問題轉化為最小化重構誤差的問題。

DRIM(Data Reconstruction for Influence Maximization)透過影響力最大化發現網路中的關鍵結點。


基本定義如下:G=(V,E,T)表示當前網路, V表示頂點集合, E表示邊集合, T=[ti,j]n*n表示影響力傳播矩陣,其中ti,j表示影響力由結點i傳播到結點j的機率,即weight(i,j)/indegree(j)。


步驟如下:

第一步:構建影響力矩陣X∈R^(N×N),其中Xi∈R^(1×N)表示結點i  對其它結點的影響力向量。結點i對結點j的影響力定義為:

海量文字中挖掘人物關聯關係核心技術介紹

海量文字中挖掘人物關聯關係核心技術介紹

其中,Nj={j1,j2,…jm}表示結點j的鄰居結點集合, αj和 λj  分別是模型的引數。由此我們可以得到結點i的影響力向量fi=[f(i→1),f(i→2),…f(i→n)],即為Xi。


第二步:從矩陣X中選擇K行所代表的結點作為影響力結點。問題轉化為最小化 J(A,β):

海量文字中挖掘人物關聯關係核心技術介紹


04 基於節點收縮的關鍵節點確定

採用節點收縮方法,其原理(如圖4)如下:假設Vi是網路G(V,E)中的一個節點,所謂節點收縮是指將節點Vi與其相鄰節點進行融合,即用一個新節點V'i來代替融合後的節點,且與節點V'i及其鄰節點相連的邊轉而與新節點V'i相連線,加權網路中節點收縮後如果外圍節點與節點V'i及其鄰節點有多條路徑到達,新的連線以最短路徑形式收縮。


海量文字中挖掘人物關聯關係核心技術介紹圖6節點收縮原理示意圖


05 關聯網路關鍵路徑發現

關聯網路關鍵路徑發現完成支撐網路結構的關鍵路徑的挖掘。

在前文角色發現的基礎上,可以透過關鍵結點找到圖中的關鍵路徑。現假設時態網路中存在三類角色(A、B以及C),我們認為關鍵路徑是以角色為A的結點為關鍵路徑的初始結點,以B或者C為關鍵路徑的終止結點的一條路徑。基於上面的已知條件和假設,提出一種新的演算法。已知一個時態網路圖G(V,E) ,給定候選起始結點集合C和終止結點R集合,那麼就可以完成斯坦納森林的構建。透過斯坦納森林可知,葉子結點到根結點的路徑就是該圖的一條關鍵路徑。


關鍵路徑定義:時態網路G(V,E),V是頂點集合,邊集合E={(u,v,t)│u,v∈V,t∈R} 。在給定初始結點、終止結點集合的情況下,關鍵路徑就是使得總的時間代價cost(P│R)=∑e∈Pw(e)  最小時初始結點到終止結點的路徑。其中P表示時態路徑集合,w(e)表示權值函式。


基於隨機遊走的關鍵路徑發現:擬採用隨機遊走在網路中進行隨機取樣,研究如何設計特定的模型對樣本進行統計處理與分析,並研究如何從處理後的樣本中發現網路的關鍵路徑。


基於關鍵結點的關鍵路徑發現:關鍵結點出現在關鍵路徑中的可能性要高於出現在非關鍵路徑中的可能性。因此,擬借鑑上一部分對關鍵節點發現的探索,研究如何對某些包含關鍵結點的路徑進行分析,並研究如何使用特定模型判斷是否為關鍵路徑。 


本文小結  

本文闡述的人物關聯關係挖掘的技術結構主要涉及通聯關係挖掘、人物群體關係挖掘、關係網路關鍵節點發現以及關聯網路關鍵路徑發現,可應用於相關領域大規模知識圖譜自動化構建與典型應用分析,相關技術成果已經在達觀淵海知識圖譜平臺及相關專案中陸續轉化落地。

作者簡介

桂洪冠,達觀資料技術副總裁、聯合創始人、高階工程師,中國科學技術大學計算機碩士學位,中國計算機學會CCF會員,自然語言處理技術專家,首席資料官聯盟成員,蘇州相城市企業家智庫成員。在參與創辦達觀資料前,曾在騰訊文學、阿里巴巴、新浪微博等知名企業擔任資料探勘高階技術管理工作。桂洪冠在資料技術領域擁有6項國家發明專利,在大資料架構與核心演算法以及文字智慧處理等領域有深厚的積累和豐富的實戰經驗。領導構建了達觀基於知識和事件分析的認知智慧平臺,完成了中電科集團研究所、中船重工集團研究所、深交所、華為等多個大型機構的課題專案研究和工程化落地實踐。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69997703/viewspace-2928032/,如需轉載,請註明出處,否則將追究法律責任。