徐童：視訊人物社交關係圖生成與應用

DataFunTalk發表於2022-05-21

原文網址 : https://www.cnblogs.com/datafuntalk/p/16295017.html

file

導讀： 線上社交媒體平臺的發展，帶來了細粒度檢索、視訊語義摘要等媒體智慧服務的巨大需求。現有的視訊理解技術缺乏深入的語義線索，結合視訊中人物的社交關係才能更完整、準確地理解劇情，從而提升使用者體驗，支撐智慧應用。這裡主要介紹我們將動態分析和圖機器學習相結合，圍繞視訊中的人物社交關係網路所開展的兩個最新的工作。主要內容包括：

問題背景
關係圖生成
關係圖應用
未來展望

01 問題背景

1. 現有視訊理解技術缺乏深入語義線索

file

現有的視訊理解技術更多地著眼於描述畫面里人物的行為、動作、身份，很少關注更深層的語義資訊。例如上圖中讓子彈飛的例子，現有演算法理解的是“兩個人坐在一起，一個人表情憤怒，另一個人表情開心”，但由於缺乏深入的語義線索，不能解釋這兩個人為什麼表情各異地坐在一起，對劇情的理解其實就不完整，不準確。在視訊理解當中，除了淺層的“所得即所見”之外，還需要更多深層的“所得不可見”的語義挖掘。在多種多樣的語義線索中間，人物社交關係是最核心的線索。

2. 視訊人物社交關係相關研究

file

在2015年前後就已經有了影像社交關係識別的研究，其中經典的工作包括PIPA（Zhang et al. 2015）、PISC（Li et al. 2017），主要解決的問題是在靜態圖片上理解圖片中兩個人物之間的關係。但由於靜態圖片本身包含的資訊量較少，無法描繪完整的動作和互動行為。到2018年-2019年，社交關係識別任務逐漸推廣到了視訊，產生了MovieGraphs、ViSR等廣為人知的資料集。相比於圖片來說，視訊包含時序資訊、人物完整的動作等，資訊更加豐富，建模工作相對來說也更加充實。接下來介紹兩篇相關的工作。

file

CVPR 2019的一個工作提出了MSTR框架，通過整合視訊中的時間域和空間域的資訊，來幫助我們理解人物之間的關係。具體來說，如模型框架圖中間部分所示，MSTR採用了三個圖結構，分別是針對同一個人的 Intra Graph、人物之間的Inter Graph、描述人和物之間互動的 Triple Graph。在這三張圖的基礎上，分別採用了TSN和GCN來描述時間和空間上的資訊，最後把時間域和空間域兩個向量拼接起來，作為關係分類的一個特徵。

file

MSTR在一些資料集上取得了很好的效果，但這個框架重點是描述人物之間的互動行為，與社交關係存在一定的差異。例如對視，微笑到擁抱這樣一組互動行為，既可能發生在情侶之間，也可能發生在好朋友之間。這時互動行為會對人物關係產生一些干擾。

file

針對上面的問題，我們在去年有一個相關工作，嘗試增加視訊中的文字資訊，包括臺詞、實時彈幕，強化對人物關係的判斷。文中採用多通道特徵提取網路的框架，融合某一幀畫面以及對應的文字資訊，得到融合後的向量表徵，實現關係分類任務。

file

通過多模態的資訊引入，相比於單模態的方法，效果有明顯提升。另外，在之前MSTR的工作中，要預測兩個人物之間的關係，要求這兩個人必須同時出現，才能得到他們之間的互動行為。但在我們的工作中，即使兩個人沒有同時出現，通過人物對話中對關係的描述，可以間接得到人物關係。

file

上面工作的侷限性在於，沒有充分利用人物之間社交關係的傳遞性。如果站在全域性視角，獲得完整的社交關係圖，能更充分地發揮社交關係相互佐證的作用。下面重點分享下如何生成社交關係圖。

02 關係圖生成

file

我們提出了層次累積的圖卷積網路，一方面整合了短期的視覺、文字、聽覺等線索，另一方面，通過兩個層次的圖卷積網路，生成全域性的社交關係圖。其中包含三個模組：

**幀級別圖卷積網路
多通道時序累積
片段級圖卷積網路**

1. 幀級別圖卷積網路

file

幀級別圖卷積網路模組的核心目的是生成幀級別的關係子圖，描述當前幀中人物社交關係。為了解決單幀資訊量較少的問題，除了融合多模態資訊之外，這裡還加入了特殊型別的節點。例如上圖紅框中標出來的部分，每一張graph對應一個幀級別的子圖。C開頭的是單個人物的節點，基於人物檢測或人物重識別的技術來識別。P節點是表示人物pair對的節點，G節點描述背景資訊，T節點表示當前幀前後幾十秒的文字資訊。利用圖卷積網路資訊傳遞的特點整合這些資訊，強化人物節點的表徵。

2. 多通道時序累積

file

多通道時序累積模組的目的是表達幀和幀之間人物關係的動態變化。這裡使用了兩個LSTM，第一個LSTM用在C型別節點（人物外觀姿態的變化），第二個LSTM用於P型別節點（人物之間互動行為的變化），用於捕捉單個人物以及人物之間互動的變化。

3. 片段級圖卷積網路

file

片段集圖卷積網路模組的目的是整合幀級別的子圖，得到片段級的人物關係圖。片段級別中包含的資訊量比較豐富。有人物、人物之間完整的動作行為、一個完整的小情節，有相對完整的對話資訊，不需要太多的輔助資訊。因此在上圖紅框中標出來的子圖裡，只包含了C和P兩個型別的節點。另外，這裡額外把片段中的對話音訊資訊也加入進來，對應圖中最右的藍色框，此時特徵向量中已經包含了視訊、音訊、文字的資訊。

4. 模型訓練方式

file

整個模型的訓練基於弱監督學習的方式來實現。對標註者而言，逐幀標註人物之間的關係是幾乎不可能完成的任務。這裡能夠獲得的label只有片段級的人物關係，直接用於訓練幀級別的網路存在一定的噪聲，這裡通過設計弱監督的損失函式來解決這個問題，只圍繞片段級的圖卷積網路來做訓練。

5. 實驗結果

file

我們在兩個資料集上進行了驗證：公開資料集ViSR，還有自己構造的bilibili資料集。在兩個資料集上都取得了不錯的效果，由於bilibili資料包含了彈幕，文字資訊更加豐富，效果也更加優越。模型中有兩個有趣的發現：

敵對關係比友好關係更難識別。由於敵對關係之間的互動較少，能夠捕捉到的線索較少。
部分友好關係存在混淆。例如親屬、朋友之間體現的互動和傳遞作用中較為類似。

file

第一個片段例子表明，片段中涉及的人物越多，我們的模型優勢越大。因為此時片段子圖規模更大，更稠密，社交關係相互印證的作用更明顯。

第三個片段例子中，從視覺上看是敵對關係，但在故事後期兩人發展成了情侶。也就是說隨著劇情發展，人物之間的關係是不斷變化的，這也啟發了我們對於後續工作的靈感。

03 關係圖應用

1. 視訊人物社交關係圖應用概覽

file

人物社交關係圖可以有效提升使用者體驗，支撐語義的智慧應用。

社交關係圖本身可以幫助觀眾更好地理解劇情。
智慧應用：劇情片段描述、劇情因果串聯。例如在哈利波特第一部，斯內普對哈利看似十分不滿，但在關鍵時刻又總是幫助他，令人費解。有了完整的人物關係圖之後，就能更好地解釋這些劇情。

2. 基於社交關係的視訊人物檢索

file

基於社交關係圖的視訊人物檢索，即把視訊中某一個人物出現的片段全部挖掘出來。區別於傳統的人物檢索任務，視訊人物出現的場景沒有特定場景限制，角度、衣著、行為一直在變化，傳統檢索任務中常用的重識別類方法很難獲得好的效果。此時可以利用社交關係對候選集進行篩選，實現更準確的人物識別。

file

基於上述思路，我們提出了一種基於社交感知的多模態人物檢索方法。模型的主要目的是為了對社交關係的作用進行一個初步驗證，因此沒有用複雜的結構，只用了基礎的矩陣運算和SVM，後續也會考慮如何把GCN融入進來。

file

視訊片段中間的人物框視作節點，節點之間的關係通過視覺資訊+概率校準的SVM來做分類，得到類別標籤及概率。

人物關係圖作為先驗知識融合到網路中，完善視覺相似度的侷限性。

當兩個人物沒有正臉時，靠視覺資訊很難分辨。通過社交關係，這兩個人產生互動的物件完全不同，這時可以認為這兩個人不是同一個人。
有時由於姿態、光線的變化，同一個人的兩張圖片視覺相似度較低，這時也可以通過社交關係加以強化。

file

實驗結果表明，基於社交關係，通過簡單的預訓練+SVM-based關係判別就可以超過當下SO他的純視覺人物識別效果，證明了這個思路的可行性。尤其是在一些有大量遮擋的極端情況下，純視覺的方法失效了，但通過社交好友關係可以幫助我們做判斷。

file

04 未來展望

“萬物皆可圖”，多模態內容概莫能外。動態化、語義化，是多模態+圖的未來方向。

file

多模態與圖相關技術的融合，例如視覺的分割與關聯，把左邊的圖片轉成右邊這樣的場景圖結構。但這裡主要描述的還是“所得及所見”的直接視覺關係，例如物體的位置關係、包含關係，以及人物的衣著行為等。

file

在上述描述關係的場景圖的基礎之上，目前已經可以實現對實體的關聯，支撐更細粒度的理解和任務。如圖所示，輸入查詢query “某一個人在打籃球的地方”。如果只使用實體匹配的技術，這裡認為需要找的是人和籃球，會把“人抱著籃球在場邊談話”的場景也檢索出來，如圖中最下面的一個場景所示。如果用關係圖來描述，前三個場景與最後一個場景得到的關係圖會有很大差異，兩個實體間的邊型別不同。此時可以把檢索問題轉換成子圖相似度匹配的任務，從而獲得更加準確的檢索結果。

file

目前的場景圖中包含的主要是物體的位置關係、包含關係，以及人物的衣著行為等在畫面中顯而易見的關係。在未來，可以對場景圖增加更多動態化、語義化的線索，支撐更豐富的下游應用。
本文首發於微信公眾號“DataFunTalk”。

計算機視覺與深度學習應用關係
2020-04-06
計算機視覺深度學習
用 NetworkX + Gephi + Nebula Graph 分析人物關係（下篇）
2020-09-02
用 NetworkX + Gephi + Nebula Graph 分析人物關係（上篇）
2020-08-19
將圖卷積應用於關係推理
2020-11-08
卷積
社交對話之社交雜談3：社交與長線留存的關係
2021-07-01
光流與視訊行為識別的關係
2018-11-26
視覺化圖形制作之關係圖
2022-01-26
視覺化
圖片與向量的關係
2024-10-18
pyecharts之參透神劇人物關係
2018-09-14
Echarts
Linux檢視相關係統資訊
2022-08-03
Linux
社交對話之社交雜談4：社交關係型別探索
2021-07-02
型別
PostgreSQL家譜、族譜類應用實踐-圖式關係儲存與搜尋
2018-05-06
SQL
徐宗本院士：數學與 AI 的關係是「融通共進」| CCAI 2019
2019-09-23
AI
知識圖譜關鍵技術與應用案例-CSDN公開課-專題視訊課程
2018-08-10
tensorflow與python版本對應關係
2024-05-20
Python
《紅樓夢》人物關係有多複雜？一張圖幫你理清楚！
2020-12-27
【集合論】序關係 ( 哈斯圖示例 | 整除關係哈斯圖 | 包含關係哈斯圖 | 加細關係哈斯圖 )
2020-10-13
Elasticsearch依賴與Spring對應關係
2019-10-28
ElasticsearchSpring
RabbitMQ與Erlang的版本對應關係
2019-10-28
MQ
大腦、視覺與語言有趣關係
2024-06-30
視覺
海量文字中挖掘人物關聯關係核心技術介紹
2022-12-14
FB被曝收集兒童資訊多個保護組織呼籲關閉相關應用
2018-10-09
Python父子關係——繼承（反恐精英案例，應用與練習）
2018-12-09
Python繼承
小紅書如何應對萬億級社交網路關係挑戰？圖儲存系統 REDtao 來了！
2023-04-26
關於 Service Worker 和 Web 應用對應關係的討論
2024-02-14
Web
android版本與linux核心版本對應關係
2018-11-12
AndroidLinux
c#版本與vs的對應關係
2018-06-20
C#
GeoTools應用-JTS(Geometry之間的關係)
2020-12-11
做社交=做創造玩家間需求與被需求關係的設計
2022-03-16
AI應用Google NotebookLM知識庫與音訊摘要生成影片
2024-09-21
AIGo音訊
多模態人物識別技術及其在愛奇藝視訊場景中的應用
2019-12-11
onnx模型視覺化以及pytorch運算元與onnx節點對應關係
2024-07-19
模型視覺化PyTorch
如何用 Python 視覺化《三國》人物與兵器出現頻率？（視訊教程）
2018-06-27
Python視覺化
Firefox的降級與驅動對應關係
2020-10-06
Firefox
HBase 的結構與表的對應關係
2024-10-30
如何理解供應商關係與績效管理？
2021-09-28
區塊鏈加密社交應用讓資訊更加安全
2020-03-13
區塊鏈加密
【集合論】關係閉包 ( 關係閉包求法 | 關係圖求閉包 | 關係矩陣求閉包 | 閉包運算與關係性質 | 閉包複合運算 )
2020-10-08
矩陣

徐童：視訊人物社交關係圖生成與應用

01 問題背景

** 1. 現有視訊理解技術缺乏深入語義線索**

2. 視訊人物社交關係相關研究

02 關係圖生成

1. 幀級別圖卷積網路

** 2. 多通道時序累積**

3. 片段級圖卷積網路

4. 模型訓練方式

5. 實驗結果

03 關係圖應用

1. 視訊人物社交關係圖應用概覽

2. 基於社交關係的視訊人物檢索

04 未來展望

相關文章

1. 現有視訊理解技術缺乏深入語義線索

2. 多通道時序累積