視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示

深度學習大講堂發表於2018-02-07

編者按:辛棄疾在《青玉案.元夕》中曾這樣寫道,“眾裡尋她千百度,驀然回首,那人卻在,燈火闌珊處。”

其實在視覺理解領域,這半闕詞,描繪的即是,在熙熙攘攘的視覺世界中,通過剝離場景,只關注所關心的那個她的過程 。

如果能夠更好地對“她”進行表示,將直接影響到相關視覺任務的效能。因此,對人物的特徵表示,成為了計算機視覺領域一個長期的研究方向。

今天,來自加州大學伯克利分校的劉子緯博士,將從開放環境下的人物特徵表示出發, 帶著你,在熙熙攘攘的視覺世界中,“眾裡尋她”。

文末,大講堂特別提供文中提到所有文章以及程式碼的下載連結。

本文整理自Valse Webinar 2018-01-17期報告。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示

視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示

為什麼要做以人為中心的視覺計算?在精彩的資料世界中,90%的影象視訊資料都是與人相關的。例如,對於上圖,我們第一點會關注的就是她是誰、有怎樣的喜怒哀樂,也就是對人臉屬性的理解。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示

第二點,會關注她的衣著打扮和服飾風格,這是對全身的理解;


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示

第三點,我們開始嘗試理解她和環境的關係,也就是所謂的場景理解。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示

最後,我們好奇的是她將要去哪裡,下一個動作是什麼,也就是運動關係理解。接下來將從以上四個方面來逐步講述我對Human-centric Visual Representation的研究。

Part I: Deep Face Understanding

首先介紹對人臉的理解,這部分內容基於以下工作:

  • “Deep Learning Face Attributes in the Wild”,ICCV 2015.


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示

人臉除了具備身份特徵之外,還包含膚色、形狀、部件等豐富的中層語義層面的視覺屬性特徵。預測一張圖片中人臉的屬性(比如拱形眉毛、大眼睛、衰退的髮際線、有無鬍鬚等),其實是一個很難的問題,儘管在這裡屬性都是指二分類問題


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示

傳統方法常採用HOG在人臉關鍵點處提取資訊,然後訓練一個SVM分類器來得到最終結果。它會有很多錯誤結果,分析其中原因:第一,真實條件下的人臉存在較大的姿態及尺度變化,因此基於關鍵點的方法不一定奏效;第二,屬性空間是非常大的,線性分類器SVM不足以解決這個問題。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示

因此屬性特徵空間問題是我們的一個motivation。所謂的single detector是指將所有人臉放在同一個空間下,其空間變化非常大,需要捕捉的資訊過多,所以很難學習到一個比較好的檢測器。因此,人們就想到了multi-view detector,將人臉分為正面人臉和其他朝向的人臉,在每個子空間裡只解決一個子問題,使每一個子問題變得簡單,並改善了single detector。這裡我們提出用人臉屬性分割各個子空間,比如具有“金髮”、“微笑”屬性的人臉構成第一個子空間,這個子空間比正面人臉子空間更加緊緻,所以可以學習到更加緊緻的模型來刻畫子空間。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示

為了研究這個問題,我們收集了一個較大規模的人臉資料集CelebA,它包含20萬張人臉資料,涵蓋了40個人臉屬性,1萬個體。每張人臉影象有bounding box和五個關鍵點的標註。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


以上是我們的pipeline,整個網路分為兩個部分,第一部分做定位,第二部分做屬性預測,都只用了image-level的屬性標註資訊。首先通過Face Localization Nets定點陣圖片中的人臉,利用人臉屬性訓練深度神經網路,其卷積層的響應資訊其實是可以表示出人臉位置的,結果還是出人意料的精確。之後再通過訓練一個Attribute Prediction Net來得到細粒屬性。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


如何做定位呢?首先驗證為什麼人臉屬性資訊可以做定位,我們用直方圖統計了訓練好的卷積神經網路在人臉影象和背景影象上的響應,可以看出人臉和背景有明顯的分界。從右圖可以得知,使用愈加豐富的人臉屬性資訊可以得到愈加精確的定位。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示

隨著人臉屬性數目逐步增多,神經網路越來越向人臉集中注意力。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


進一步做了一些定量化的研究。第一,我們發現LNet在CelebA資料集上的人臉定位結果優於傳統方法。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


第二,研究了網路的泛化能力。使用網路陌生的MobileFace使用者資料集測試,它依然可以找到人臉。

以上是第一個模組——人臉定位。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


以下是第二個模組——細粒度分類。我們發現如果用人臉身份資訊做預訓練,網路已經能夠挖掘很多人臉屬性語義資訊,也就是說神經網路本身做了分解,不斷找到訓練集圖片的heat map。如圖(a.1)(a.2)...(a.6)代表神經元,比較靠左的是它高響應的平均圖,靠右的是低響應的平均圖。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示

隨著訓練迭代次數的增多,神經元慢慢發現了種族資訊,它的高響應結果是“亞洲人”、低響應結果是“歐洲人”。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


如果在預訓練好的網路上用人臉屬性fine-tune,結果它的activation比較稀疏,但是每一個響應的神經元代表了某一種細粒度屬性。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


如圖,通過屬性資訊fine-tune可以發現“厚嘴脣”這一特徵。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


我們的屬性分類在CelebA 和 LFWA上都取得了比較好的結果,而且其執行速度也是比較快的。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示

通過觀察網路在未知的30個人臉上的屬性預測表現,測試了屬性預測的泛化能力,可以看到相對於其他方法有一定優勢。

以上和大家分享的是人臉方向的一些工作,主要分為兩個方面,首先,人臉屬性可以做人臉預測,不需要bounding box標註;其次,用身份資訊做預訓練其實可以把人臉空間做一定的分解,能夠發現很多屬性資訊。

Part Ⅱ:Deep Fashion Understanding

接下來跟大家分享在服裝理解方面的工作,主要基於以下兩個工作展開:

  • "DeepFashion:Powering Robust Clothes Recognition and Retrieval with Rich Annotations",CVPR 2016

  • "Fashion Landmark Detection in the Wild",ECCV 2016


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示

服飾理解比人臉理解的難度大很多。人臉是近似剛體的,可以很好地對齊,而且整個變化可以轉化為表面變化。但是衣服是柔性物質,常面臨遮擋以及形變,且在不同場景下變化較大。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


但是我們依然遵循計算機視覺社群二十多年的經驗,來進行視覺上的服飾理解。首先,可以利用faster-RCNN或者SSD等演算法,訓練一個服裝檢測器,然後我們提出服裝對齊的方法,服裝確實具備一些關鍵點,可以從關鍵點處提取其區域性本徵資訊。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


得到關鍵點資訊之後,可以做識別任務,儘管不同場景下衣服形態發生了很大變化,但對於一些本徵的區域性特徵具備一定的不變性。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


為了研究這個問題,我們依然收集了一個大規模的資料庫Deep Fashion,它包含4萬套不同款式衣服的80萬張圖片,涵蓋50個種類,1000個屬性,並有bounding box以及八個關鍵點的標註資訊。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


第一步檢測是較容易的,可以使用一些通用檢測器。比較困難的是對齊,首先定義一組衣服的關鍵點,比如領口、袖口、腰身、下襬等位置,但是服飾的關鍵點和人體關鍵點還是有很多差異。比如(a.1)中藍色的是人體關鍵點,而(a.2)中綠色的是衣服的關鍵點。(a.3)中衣服並沒有穿在人身上,所以無法依據人體關鍵點來檢測衣服關鍵點,而(a.4),在自拍狀態下很多關鍵點被遮擋,一些姿態檢測器不能起作用。因此,服飾關鍵點檢測比人體關鍵點檢測更可靠。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


這裡進一步說明服飾關鍵點檢測比人臉關鍵點檢測更加困難。從兩個角度來看,其一從幾何角度看,圖(b)中,服飾關鍵點的分佈比人體關鍵點的分佈更加廣泛;其二從外觀角度來看,人體關鍵點比服飾關鍵點有更明顯的邊界資訊。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


我們設計瞭如圖演算法流程,通過級聯的神經網路做對齊,每一個階段都是一個迴歸問題,也就是給一張圖片,通過一個基網路(比如VGG16),經過幾個全連線層迴歸其座標,比如有8個關鍵點就回歸16個座標(x,y)。第二個階段通過學第一個階段的增量來優化其結果,但是,衣服的變化是很大的,如果僅僅直接做深度迴歸學習的話,對於一些中等難度或難度較大的樣本效果是不好的。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


因此,我們提出在regression label之外新增pseudo label,在訓練集空間中做聚類,比如第一階段除了迴歸座標之外,還預測它屬於哪一類,迴歸類別的過程幫助網路預測樣本的難易程度,其實隱含地做了難例挖掘,對於比較困難的樣本,它會用網路中學到的權重來專門處理。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


可以看出對於不同難度的姿態和不同程度的放大,我們的方法都能表現得比較好,但僅僅基於迴歸或者僅僅基於圖模型推理的方法表現都不佳。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


以上我們講述瞭如何做服飾關鍵點檢測, 那麼我們為什麼要做呢?其實服飾關鍵點提供了一個非常有效的表達,(a)圖是服飾屬性預測的結果,(b)圖是用服飾做檢索的結果,我們發現當用服飾關鍵點時,它的效果要優於用人體關鍵點、bounding box、全圖來檢索。因此,儘管服飾關鍵點檢測是一個具有挑戰性的問題,但是它是非常有意義的。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示

這是我們的一些結果,可以看出紅色的預測結果非常接近綠色的groundtruth。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


對齊完成後,可以進行我們真正感興趣的地方——服飾識別。這個問題有很大的商業價值,但是在學術上還沒有清晰的定義,其識別目的究竟是同一款式的還是同一風格的服飾,所以我們需要去平衡這兩點。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


我們設計了Fashion Net,它同時利用多個損失做多工學習,通過關鍵點定位得到區域性特徵,然後將區域性特徵和全域性特徵融合起來同時做身份預測和屬性預測。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


這是簡化的流程,當網路前向傳播時,根據關鍵點資訊(藍色)得到區域性特徵(綠色),然後和全域性特徵(橙色)融合,最後利用融合好的特徵預測屬性類別,同時會用triplet loss預測它的款式類別。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


但是上述三個部分的損失都不容易設計,都不能直接用現有簡單的損失函式(比如cross entropy、softmax loss)解決,因為服飾的類別和屬性數量都是非常大的,一般的損失函式很難轉換,所以我們首先對屬性做了一個直方圖統計,如圖,它是一個長尾型的分佈,而且對於線上圖片而言,具有較多噪聲,因此我們提出了Multi-label ranking loss,ranking loss的本質精神只關心正確的比錯誤的分高,而並不關心真正能夠分對的標籤是什麼,它對噪聲非常魯棒,而且某種意義上能夠解決資料不平衡問題。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


對於類別數量較多的情況,也不能用softmax,一個很簡單的方法就是用triplet,但在做triplet的時候我們需要去融合樣本中的正樣本對和負樣本對。對於負樣本對,需要用Hard Negative Mining方法挖掘比較難的負樣本對。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


我們測試了神經網路在兩種情況下的效能,首先是In-shop Clothes Retrieval,即對於一張給定圖片,搜尋店裡相似的圖片。這是對電商很有吸引力的一項功能,可以看出現有方法都能取得比較好的效能,top10的準確率都在50%以上,基本都能正確檢索。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


但是consumer-to-shop(從街拍到電商圖片)服飾檢索是一個更難的問題,目前方法能達到的檢索正確率僅僅是20%左右,所以這種跨模型問題應該是今後的研究方向。如何解決兩個模態之間的鴻溝,同時學到一個公共空間將它們投影,還是一個非常困難但是很有意義的問題。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


當我們解決上述兩個問題後,系統就可以衍生出非常多的應用,可以檢索相同風格的衣服,也可以搜尋電影視訊或照片中服裝的同款,甚至做一些服飾搭配。

總體來看服飾理解任務,首先定義服飾關鍵點,然後通過級聯模型找到關鍵點,通過偽標籤解決一些難例樣本,最後通過多工學習來融合異構、異質的監督資訊,獲得最終比較好的表示。


Part Ⅲ:Deep Scene Understanding


在人臉和服飾理解的基礎之上,我們進一步解析人和環境之間的關係,即場景理解,以下基於這兩個工作展開:

  • “Semantic Image Segmentation via Deep Parsing Network”,ICCV 2015(oral)

  • "Not ALL Pixels Are Equal:Difficulty-aware Semantic Segmentation via Deep Layer Cascade",CVPR 2017(spotlight)


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示

視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示

給定一張圖片,我們應該如何解析它的每一個畫素,解析出來後將其用於high-level的影象理解、或者low-level的影象編輯。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


這也是所謂的語義分割,這方面已有很多工作,比如SVM或者SVM和MRF(Markov Random Field概率圖模型的結合,以及當前流行的CNN,2015年我們提出了一個問題:如何把CNN和MRF結合起來?


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


首先調研了當時最好的方法,第一個方法是全卷積網路,它可以很好地學習特徵,但是缺少成對的聯絡,因此畫素之間是相互獨立的。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


後來DeepLab出世,它在FCN之後接上了Dense CRF做後處理,解決了pairwise relation的問題。它的問題在於不能端到端地訓練,而且後處理需要十次迭代,時間代價較高。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


當時同時還有一個工作叫“CRF as RNN”,它相對於DeepLab能夠進行端到端地訓練,但是依舊需要迭代十次。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


這裡我們提出用Deep Parsing Network來解決問題,能夠獲得同樣的三個優點,但是隻需要一次迭代。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


這裡的貢獻主要有三點:

  1. 將更豐富的結構資訊和關係資訊融入MRF;

  2. 把high-order MRF用mean field解法融合進CNN;

  3. 整體網路可以聯合訓練並且只需要一次迭代。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


這裡重點講我們設計的兩個比較特殊的公式。首先是triple penalty,一般只考慮i,j兩點,它們相似那麼其標籤就一致,這裡我們還考慮z1...zn這個鄰域,好處是當i,j不確定時,可以參考z鄰域的資訊來得到更精確的估計。這裡對於i,j和z的聯合計算可以很好地模擬影象中廣泛存在的長程一致性。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


第二個是mixture of label contexts,普通的context僅僅是某一類物體出現的頻率,而在此可以考慮兩種物體聯合的損失,這樣可以構成更加豐富的空間對資訊。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


我們進一步把pairwise term用mean field solver解成一元組。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


然後把一元項和成對項變成卷積和求和形式,然後就可以用我們現在一些標準的神經網路操作來解決該問題。其中,Pairi,j代表了不同型別的全域性和區域性濾波器。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


這是我們的深度解析網路,unary term可以是很強的VGG或者ResNet,然後通過triple penalty和label context學到一個結果。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


如圖,我們發現unary term會漏掉影象中的部分目標,且邊界較粗糙;通過triple penalty,判斷兩個標籤的相似度來修正它的預測標籤,可以將邊緣變得較尖銳;然後通過label contexts判斷這裡很有可能是一個盆栽;最後通過整體三個部分一起做訓練,來得到最終結果,非常接近groundtruth。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


我們的方法當時在VOC2012上取得了最好的結果。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


所以我們關心label contexts究竟能否學到所謂的結構化關係資訊,顏色偏紅表示否定,偏藍表示肯定,普通的ResNet和VGG容易把摩托車和自行車這兩種混淆,我們通過label contexts把二者區分開來;第二,我們看到一個favor,我們希望人和摩托車能夠一起出現,這也是非常合理的,因為摩托車上一般會有人。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


進一步去視覺化它的卷積核,左圖表示人在摩托車上,右圖表示椅子一般在人下面。這樣的空間資訊也符合人直觀的感受。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


對於有圖片中有反射的挑戰性問題,我們的方法能夠明顯優於其他方法,原因就在於label context,而且joint tuning可以使得之後的網路修正之前的資訊。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


Input video


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


State-of-the-art Method (4 FPS)


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


Deep Layer Cascade (17 FPS)


如圖,Deep Parsing Network速度其實很慢,儘管只有一次迭代,但是因為基網路用的是VGG和ResNet,因此對於這樣一段街景視訊,它只能做到每秒4幀,並不能夠應用於實際場景中,因此我們這裡提出了進一步優化的方法——Deep Layer Cascade,它可以做到每秒17幀,而且可以保證準確率幾乎不降。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


網路慢的原因是使用了非常深的全卷積網路,而且每一層都需要傳導高解析度的特徵圖。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


我們的motivation非常簡單,即沒有必要對影象中的每一個畫素都做深度處理,因為對於一些簡單的和中等難度的區域,完全可以用淺層網路來解決,而對於比較難的區域才需要深度網路處理。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


因此,我們把contempotary model變成Deep Layer Cascade,上面是一個做分類任務的網路ResNet,下面是把ResNet變成一個做分割任務的網路,每一個卷積層都需要給它一個比較大的特徵圖。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


將它變成layer cascade形式,當ResNet過了三個block之後,就輸出簡單區域的結果,而簡單區域大約佔據了影象60%~80%的比例,這部分就不用輸入更深層的網路;再經過兩層得到中等難度區域結果;最後經過深度網路所有層得到難區域的結果。對於全圖而言,它節省了大量時間成本。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


區別於傳統對全圖做卷積的方式,這裡採用區域卷積思想,只對選擇出的區域做卷積,然後在殘差網路中放入區域卷積,對某一區域做卷積後將其加到原先的特徵圖上,之後的網路就可以只處理比較難的區域。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


這是我們演算法的表現,儘管較簡單的區域沒有經過神經網路,但是並不影響最終的識別結果,這是因為網路其實學會了注意力機制,它可以學會關注難區域,所以網路之後的層並不需要處理所有的區域,只需要處理難區域,神經網路反而會表現得更好,而且其速度要明顯優於其他方法。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


這是對每一階段的視覺化結果。我們看到從第一階段到第三階段,網路逐步從認識較容易的背景區域到較難的關鍵物體區域,越來越接近groundtruth。


  


Input video


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


Stage-1


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


Stage-2


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


Stage-3


對於街景視訊,我們看到deep layer cascade在第一階段學到的是路、天空,而在第二階段開始它可以學到一些比較大的樹和交通路牌,第三階段能夠學到行人、電線杆這種比較精細化的目標。由此可見,這個網路可以預測不同難度的樣本。

在場景理解這部分,我們從精度和速度兩個方面進行了求解和優化,提出了layer cascade這種“分而治之”的思想,對不同難度的區域用不同方式處理。


Part Ⅳ:Deep Motion Understanding


在對人臉、服飾、場景進行理解的基礎上,我們希望理解影象中目標的運動,譬如人往哪裡走。以下介紹基於工作:

  • "Video Frame Synthesis using Deep Voxel Flow",ICCV 2017(oral)


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


這裡我們比較感興趣的是如何生成視訊幀,它有兩個實際的應用,第一個是預測,第二個是插值,比如,如圖第一幀和第三幀已知,我們要求第二幀。或者將低幀率的視訊變成高幀率的,以及做視訊壓縮。這個問題是非常基礎且有意義的,但也是非常困難的。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


如圖,視訊合成任務面臨兩個主要的挑戰。其一,運動是非常複雜的,一個是攝像機的移動,另一個是拍攝主體的移動,所以一般基於運動模型或者光流的方法不太適合解該問題;其二,生成高解析度的圖片,是現在基於對抗神經網路方法所不能達到的。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


這裡我們提出了基於體素流(是一個雙向流)的方法,與其生成中間所求這一幀每個畫素的值,不如學習可以從哪裡複製過來這個值。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


然後需要一個選擇掩膜,視訊中常常會存在遮擋,因此需要去選擇從第幾幀取畫素。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


最後,為了讓任務可學(可微),我們提出了雙線性取樣方式,從區域性區域取樣一些體素來重建這一幀。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


這裡最核心的一個模組就是deep voxel flow(深度體素流),它是一個可微的時空取樣,它可以前向或反向傳導,並能夠從間隔幀中學習。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


如圖是具體神經網路結構,它結合了基於光流的方法和基於神經網路的方法,所以紫色框標註的是完全由無監督學習學出來的,僅僅通過重構損失函式來學習。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


為了解決大運動問題,我們提出了多尺度深度體素流法。從小尺度學習開始,不斷把小尺度的資訊融合到大尺度上去,因為大的運動在小尺度上會變小,所以這樣的pipeline有助於解決這個問題。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


如圖,是從2D flow+ mask到多尺度體素流方法的演變及其效果,可以看到學到的motion field和selection mask是非常匹配的。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


這裡是一些ablation study,從定量上看,我們的方法也比較好。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示

視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示

如圖是針對UCF-101體育資料集的一些結果,所有幀都是網路生成出來的。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示
視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


此外針對駕駛資料集做了測試,駕駛資料集的難度在於前後幀的跳躍較大,因為速度比較快,可以看出我們的方法依然可以比較平穩地找到中間幀。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示

另一個比較有意思的地方是,儘管這個網路學到的是重構這一幀,但是它學到的特徵依然可以用於high-level的視覺任務,比如這裡無監督的光流表現的不錯,而且神經網路學習到的權重也可以被應用到行為識別中去,這與learning-by-prediction思想類似,通過預測或插值中間幀和下一幀,學到比較有效的視訊表示。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


除了在空間上一致之外,它還在時間空間上也是比較連續的,(b)圖是沿著視訊的時間軸和x軸進行的切片,可以看出我們的方法比Epic方法要平穩一些。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


最後我們做了一些真實視訊上的測試,一些沒有計算機視覺背景的人觀察我們的方法和其他方法的效果,投票表明我們的方法明顯效果更好。而且,如果使用更高清的資料來訓練,最終效果會更好。


  

在這個章節中,我們介紹瞭如何解human motion的問題,提出了voxel flow(體素流),它其實是一種無監督的光流,僅僅通過視訊重構就可以得到比較好的表示。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


總結一下,我們的工作主要圍繞人,對人臉、服飾、場景、以及動作進行理解,演算法場景都是戶外條件。因此,演算法需要同時考慮兩點,一個是物體會存在形變,我們使用了注意力機制和關鍵點來做,另一個是場景也非常複雜,我們採用了layer-cascade,對不同難度的區域採用分而治之的思想;第二,我們的工作混合了異質的監督資訊,通過融合身份、屬性、關鍵點資訊,甚至未來可能會用到自監督資訊,提高了演算法效能和演算法落地的可能性;第三,我們需要把深度學習變得更加結構化,需要加強每個神經元的語義資訊,並讓神經元懂得一定的空間關係並具有時空概念,這也是結構化深度學習未來的方向。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


這些工作不僅在理論上有一定的價值,在實際中也已落地到產品中去,比如Microsoft Blink,Google Clips,SenseTime FashionEye。


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


最後非常感謝我的合作者們,和他們一起工作非常開心,謝謝大家!


視覺世界中的“眾裡尋她”--開放環境下的人物特徵表示


文中劉博士提到的文章下載連結為:https://pan.baidu.com/s/1ggdvu4F


文中提到的演算法原始碼已開源:https://github.com/liuziwei7 

相關文章