ECCV 2018 | 騰訊AI Lab解讀19篇入選論文

騰訊AI實驗室發表於2018-08-01

計算機視覺歐洲大會(European Conference on Computer Vision,簡稱ECCV)將於9月8日-14日在德國慕尼黑舉辦,該會議與CVPR、ICCV共稱為計算機視覺領域三大頂級學術會議,每年錄用論文約300篇。

今年是騰訊AI Lab第二次參加ECCV,共有19篇文章入選,以下為摘要解讀。

在近期結束的多個頂會中,騰訊AI Lab還有多篇論文入選,位居國內企業前列,包括ACL 2018 (5篇)ICML 2018(16篇)CVPR 2018(21篇)和此前的NIPS 2017(8篇)

1.針對基於優化的視覺慣導里程計的動態感測器延時建模

Modeling Varying Camera-IMU Time Offset in Optimization-Based Visual-Inertial Odometry

該論文由騰訊AI Lab獨立完成。由於相機和IMU(慣導測量單元)這兩種感測器提供的資訊對於運動估計具有很強的互補性,所以把這兩種感測器資訊融合在一起用於運動估計被學界證實是很有效的。然而,過去大部分的相機和IMU融合方法都是假設使用了全域性快門相機和同步的感測器測量。這個假設在現實情況下往往是不成立的。因為在大部分的消費電子產品裡,裝配的往往是捲簾快門相機和非同步的感測器測量。為了解決這個問題,本文提出了一種基於非線性優化的單目視覺慣導融合方法。這種方法對相機和IMU之間的延時進行建模,並把其當作一個可動態變化的量。本文提出的這種方法可以統一處理使用捲簾快門相機帶來的影象失真問題和非同步的感測器測量問題。同時,為了加速優化過程中所需要的可變長度IMU測量積分,本文提出了一種基於動態規劃和紅黑樹的高效計算方法。最後,為了提高單目視覺慣導融合方法的魯棒性,本文提出了一種對感測器噪聲建模的初始化方法。本文在Euroc資料集和手機採集的資料中和目前最好的方法進行了對比。實驗結果表明,本文提出的方法是非常有效的。

2.面向跨年齡人臉識別的正交深度特徵分解

Orthogonal Deep Features Decomposition for Age-Invariant Face Recognition

該論文由騰訊AI Lab獨立完成。由於年齡變化會導致人的外貌產生顯著變化,所以跨年齡人臉識別依舊是人臉識別領域的一項重要挑戰。為了減少年齡變化導致的類內差異,本文提出了一種稱為正交嵌入CNN(Orthogonal Embedding CNNs, OE-CNNs)的新框架來學習對年齡變化具有魯棒性的深度人臉特徵。具體而言,本文將深度人臉特徵分解為兩個正交的分量,分別表示與年齡資訊相關的分量以及與身份資訊相關的分量。通過剝離與年齡資訊相關的分量,所得到的身份資訊特徵便可用於精準的跨年齡人臉識別。此外,為了補充現有的跨年齡人臉資料的不足並推進該領域的學術研究,本文還構建了一個全新的跨年齡人臉資料集(Cross-Age Face Datset, CAF)。研究者在國際著名的跨年齡人臉識別資料集MORPH Album 2,CACD-VS,FG-NET上進行了實驗評估,驗證了所提出的方法的有效性。最後,研究者在通用人臉識別資料集LFW上也做了實驗,驗證了本文提出的方法對於通用人臉識別也有很好的泛化性。

3.針對影象自動描述的遞迴融合網路

Recurrent Fusion Network for Image Captioning

該論文由騰訊AI Lab主導,與復旦大學合作完成。最近,影象的自動描述已經取得了很大進展,所有最先進的模型都採用了編碼器-解碼器框架。在此框架下,輸入影象由卷積神經網路(CNN)編碼,然後通過遞迴神經網路(RNN)轉換為自然語言。依賴於該框架的現有模型僅使用一種CNN(例如ResNet或Inception-X)來描述影象內容。因此,不能全面地理解輸入影象的語義含義,這限制了描述質量的提高。在本文中,為了利用來自多個編碼器的互補資訊,提出了一種用於影象的自動描述任務的遞迴融合網路(RFNet)。該模型的融合過程可以利用CNN輸出的特徵之間的相互關係,來為解碼器生成新的更富含資訊的影象表示。MSCOCO資料集上的實驗結果證明了本文提出的RFNet的有效性,它是影象自動描述領域中一種新的SOTA技術。

4.基於堆疊式迴圈一致性生成對抗網路的無間監督影象到影象轉換

Unsupervised Image-to-Image Translation with Stacked Cycle-Consistent Adversarial Networks

該論文由騰訊AI Lab主導,與復旦大學合作完成。最近關於無監督的影象到影象轉換研究取得了較為顯著的進展,其主要是通過訓練一對具有迴圈一致性損失(cycle-consistent loss)的生成對抗網路Generative Adversarial Networks)。然而,當影象解析度高或者兩個影象域具有顯著差異時(例如 Cityscapes 資料集中影象語義分割與城市景觀照片之間的轉換),這種無監督方法可能產生較差的結果。在本文中,通過把單個轉換分解為多階段轉換,提出了堆疊迴圈一致性對抗網路(SCAN)。其通過學習低解析度影象到影象的轉換,然後基於低解析度的轉換學習更高解析度的轉換,這樣做提高了影象轉換質量並且使得學習高解析度轉換成為可能。此外,為了適當地利用來自前一階段的學習到的資訊,研究者設計了自適應融合塊以學習當前階段的輸出和前一階段的輸出的動態整合。在多個資料集的實驗表明,與以前的單階段方法相比,本文提出的方法可以大大提高影象到影象轉換的質量。

5.基於神經網路的雙目影象風格轉移

Neural Stereoscopic Image Style Transfer

該論文由騰訊AI Lab主導,與電子科技大學合作完成。神經風格轉移是一種新興技術,能夠賦予普通影象以極具吸引力的藝術風格。現有的工作已經成功的應用卷積神經網路(CNN)來對2D影象或視訊進行風格轉移。然而,雙目3D影象的風格轉移仍然缺乏相應的研究工作。與2D影象不同,對雙目3D影象進行風格轉移的時候需要保留輸入圖片的深度資訊,否則生成的風格化雙目3D影象的立體感會被嚴重地破壞。在本文中,研究者構建了一個新穎的雙路徑網路,雙目3D影象的每張圖片都是在單獨的路徑中處理。該網路能夠在對雙目3D圖片進行風格轉移的同時,保留輸入圖片的深度資訊。除了使用傳統的感知損失來控制生成圖片的風格化質量外,研究者提出了多層視角損失函式,能夠有效的保留輸入圖片的深度資訊。此外,研究者還提出了一個特徵聚合模組,該模組能夠有效地共享兩條路徑之間的特徵資訊,在多層視角損失函式的監督下,該模組能夠進一步保留輸入圖片的深度資訊。實驗結果表明,與以前的方法相比,該網路不僅能夠實現優秀的風格轉移效果,還能夠很好的保持原圖的深度資訊。

6.視訊再定位

Video Re-localization

該論文由騰訊AI Lab主導,與羅徹斯特大學合作完成。目前,視訊檢索領域已經發展的很成熟,但是這個領域當中還有一些未解決的問題。例如,給定一個查詢視訊,如何在一個長的備選視訊當中找到與查詢視訊語義相關的片段?本文定義了一種名叫視訊重定位(video re-localization)的新任務來解決這樣的問題。視訊重定位有廣泛的應用價值,例如它可以用於視訊片段定位、拷貝檢測、視訊監控等。同時,視訊重定位也是一種很難解決的任務,因為語義相關的視訊,可能看起來非常不同。要解決視訊重定位問題,第一個難點就是沒有相關的視訊資料集。收集和標註語義相關的視訊,是一項非常費時費力的工作。因此,研究者重新組織了ActivityNet資料集中的視訊,用於視訊重定位的研究。然後,本文提出了一種cross gating的雙線性匹配(bilinear matching)模型,用來匹配查詢視訊和備選視訊。最後,研究者用分類的方式,來預測相關片段的起始點和終止點。實驗證明,本文提出的方法要優於相應的基線模型。

7.針對人臉超解析度的超身份同一性卷積神經網路模型

Super-Identity Convolutional Neural Network for Face Hallucination

該論文由騰訊AI Lab與香港中文大學、德克薩斯州大學奧斯汀分校等合作完成。人臉超解析度是解決利用低解析度人臉影象生成高解析度人臉影象的生成式任務,同時需要考慮到人的面部感觀非常依賴身份資訊。然而,先前的人臉超解析度方法忽略了對面部身份資訊的恢復。本文提出了超身份同一性卷積神經網路(SICNN)來恢復身份同一性,以便於生成接近真實身份的超解析度人臉影象。具體地,研究者在超球面的身份度量空間定義一個超身份同一性損失,用於衡量生成影象和真實高解析度影象的身份差異性。然而,直接使用這個損失將導致動態域不收斂問題,這是由真實高解析度域與生成高解析度域之間存在的較大間隔引起的。為了克服這一挑戰,研究者提出了一個通過在這兩個域之間構建魯棒的身份度量約束的訓練方法。大量的實驗評估證明,相比之前最先進的方法,在具有挑戰性的對12x14的人臉影象進行8倍超解析度任務上,本文提出的SICNN方法取得了更優越的超解析度可視效果。此外,SICNN方法顯著提高了極低解析度人臉影象的可識別性。

8.Bi-Real網路:具有更強表達能力的1-位元卷積神經網路及一種先進訓練演算法

Bi-Real Net: Enhancing the Performance of 1-bit CNNs with Improved Representational Capability and Advanced Training Algorithm

該論文由騰訊AI Lab與香港科技大學、華中科技大學合作完成。本文研究了1-位元卷積神經網路,也即網路引數啟用函式輸出都是二值化。相對於標準的實數化網路,1-位元網路在儲存空間和計算複雜度上具有很大的優勢,但是其分類效能還相距甚遠。為了縮小1-位元網路和實數化網路的效能差距,本文提出了一種新的1-位元網路,名為Bi-Real網路。其基本思想是通過一個殘差結構,將網路訓練過程中產生的實數化輸出(即1-位元卷積層的輸出,Sign啟用函式的輸入)與下一模組的輸出結合,大幅度提高了網路的表徵潛力,且沒有增加額外的計算成本。為了更好地挖掘出Bi-Real網路的表徵潛力,本文提出了全新的訓練演算法,包括三個具體的創新點:1)設計對Sign啟用函式的更緊緻可導估計函式;2)利用引數幅值相關的梯度來更新引數;3)設計更合適的實數化網路對Bi-Real網路進行初始化。本工作以殘差神經網路為主幹網路,設計了兩種不同深度的Bi-Real網路,分別為18層和34層,並在ImageNet資料集上進行了測試,它們分別取得了56.4%和62.2%的top-1識別精度。相較於當前最先進的1-位元網路(即XNOR網路),Bi-Real網路取得了10%以上的相對精度提高。

9.基於多樣性和隨機性的圖聚類方法的增量多圖匹配

Incremental Multi-graph Matching via Diversity and Randomness based Graph Clustering

該論文由騰訊AI Lab與上海交通大學、亞利桑那州立大學合作完成。多圖匹配涉及在多個圖結構之間找到對應關係,現有方法主要通過一次性匹配全量的方式來求解該問題。然而,實際應用中,往往需要應對不斷新增的圖樣本。這一需求促使本文提出了一個增量式的多圖線上匹配方法。具體而言,通過分組內的樣本多樣性,我們對圖樣本進行分組,每次新的樣本被歸入某一分組,進行線上匹配,並將資訊在不同分組間傳遞與更新。實驗證明,我們的線上匹配方法在不明顯犧牲精度的情形下,顯著提高了計算效率。

10.Pixel2Mesh: 從單幀RGB影象生成三維網孔模型

Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images

該論文由騰訊AI Lab與復旦大學、普林斯頓大學、Intel Labs合作完成。本文提出了一種端到端的深度學習框架,可從單張彩色圖片直接生成3D mesh。受深度神經網路特性的限制,以前的方法通常用volume或者point cloud表示三維形狀,將它們轉換為更易於使用的mesh並非易事。與現有方法不同,本文使用圖卷積神經網路表示3D mesh,利用從輸入影象中提取的特徵逐步對橢球進行變形從而產生正確的幾何形狀。本文使用由粗到精的模式進行生成,使得整個變形過程更加穩定。此外,本文還定義了幾種與mesh相關的損失函式捕捉不同級別的特性,以保證視覺上有吸引力並且物理上高重建精度。大量實驗表明,本文的方法不僅定性上可以生成細節更加充分的mesh模型,而且定量上與當前最好的方法相比也實現了更高的重建精度。

11.針對行人重識別的姿態歸一化的影象生成方法

Pose-Normalized Image Generation for Person Re-identification

該論文由騰訊AI Lab與復旦大學、倫敦瑪麗皇后大學等合作完成。行人重識別問題通常面臨兩大主要的挑戰:(1) 缺乏大量出現在多個監控視訊下的行人訓練資料;(2)需求在巨大姿態變化的資料中訓練學習到對身份資訊敏感、且具有視角不變性的特徵。在本論文工作中,提出了一個全新的深度影象生成模型,通過生成逼真的特定姿態下的行人圖片來解決上述兩個難點。該模型基於對抗生成網路(GAN)進行改進,實現行人重識別問題中的行人姿態歸一化目標,由此本文命名為姿態歸一化對抗生成網路(PN-GAN)。具體地,研究者利用姿態歸一化對抗生成網路生成額外不同姿態的行人圖片,從中學習到一種新的具有姿態不變性的行人特徵。大量實驗結果表明該特徵可以很好的與原始行人圖片特徵形成互補,從而提升行人重識別任務的準確度。更重要的是,在本論文中,考慮並提出了一種更具真實適用性的無監督學習問題,並且通過實驗證明該模型在該問題下具有潛在的強大的泛化能力,即對於一個全新的行人重識別資料或行人監控網路,該模型可以在不進行任何微調訓練的前提下取得較好的精度。

12.深入研究深度資訊: 利用語意關聯和關注度驅動損失函式進行單目深度估計

Look Deeper into Depth: Monocular Depth Estimation with Semantic Booster and Attention-Driven Loss

該論文由騰訊AI Lab與香港城市大學、美國伊利諾伊州大學香檳城分校合作完成。機器學習技術提升了單目影象的深度估計效果,研究者觀察到在現有的訓練資料中深度影象的畫素值呈現出一個長尾分佈。然而,大部分已有方法並未特別處理深度區域在影象中的分佈不平衡問題,從而導致其模型在估計影象中遠距離區域時效能受限。在本文中,研究者調研了長尾分佈的特性,深入挖掘影象中遠距離區域並提出一種由關注度驅動的損失函式來監督式的訓練神經網路。除此之外,為了更好的利用影象的語義資訊進行單目深度估計,研究者提出了一個協同網路從而自動的學習這兩個任務的共通性。在關注度驅動的損失函式和協同網路的共同作用下,影象的深度估計和語義標註效能得到了相互提升。研究者在挑戰性的室內資料庫進行了實驗,其結果表明本文提出的方法在單目深度估計和語義標註任務中取得了最優的效果。

13.針對語義分割和單目深度預測的聯合任務遞迴學習

Joint Task-Recursive Learning for Semantic Segmentation and Depth Estimation

該論文由騰訊AI Lab與南京理工大學合作完成。本文提出了一種全新的聯合任務遞迴學習的框架,用於聯合解決語義分割和單目深度預測問題。該模型能依靠序列化的任務級別的相互作用遞迴地改善兩個任務的結果。為了兩個任務能相互促進,研究者將它們的相互作用嵌入到任務注意力模組(TAM)來自適應地增強兩個任務的對應相關的模式特徵。而且,為了讓預測更可信,研究者通過顯式連線之前的響應,將兩個任務過去的學習經歷傳播到下一次網路預測。任務級別的相互作用序列最終演化成從粗到細的尺度遞變,這樣所需要的細節資訊能夠漸進式地重建出來。在NYU depth v2和SUN RGB-D兩個資料集上的實驗結果表明本文提出的方法能夠取得最前沿的單目深度預測和影象語義分割結果。

14.模組化生成對抗網路

Modular Generative Adversarial Networks

該論文由騰訊AI Lab與英屬哥倫比亞大學合作完成。現有多領域影象變換方法嘗試用一個單一模型取得對映結果。然而,這些方法的可擴充套件性和魯棒性有限。受模組網路啟發,本文提出了一種含有多個可重複利用且相容模組的多領域影象變換模型ModularGAN,來實現不同功能的影象變換。這些模組可同時訓練,並且可以根據影象變換涉及的領域被選擇來聯合使用以組建不同結構的網路。這賦予ModularGAN優異的可擴充套件性用以變換影象到任意希望的領域。實驗結果顯示,該模型不僅展現出引人注目的視覺效果,並且能在多領域臉部特徵遷移的任務上超過現有最優的方法。

15.基於單張圖片的人像虛化效果生成

Rendering Portraitures from Monocular Camera and Beyond

該論文由騰訊AI Lab與清華大學、加州大學默賽德分校、英偉達合作完成。淺景深是攝影的一種藝術效果,通常需要單鏡頭反光相機和某些攝影技巧來產生這樣的效果。最近,手機的雙鏡頭被用來估計場景的深度,並模擬了肖像拍攝的效果。然而,這種技術不能應用到已經拍攝的照片上,而且對於拍攝物件與攝像機距離很近的人像拍攝應用中。本文中,提出了一種全自動方法實現單目照相機的肖像渲染。具體地,研究者首先利用卷積神經網路來估計一個輸入影象的相對深度和肖像分割圖。由於來自單張圖片的初始分割結果通常較為粗糙且缺少細節,因此研究者進一步學習相鄰畫素間的相互關係來改進分割結果。通過改進的分割估計和深度結果,研究者利用條件隨機場和摳像技術對影象進行模糊渲染。另外,研究者訓練了空間變換的遞迴神經網路來加速渲染過程。大量實驗驗證,本文提出的方法相對現有方法具有更好的人像虛化效果。

16. 面向目標檢測任務的深度特徵金字塔再組合

Deep Feature Pyramid Reconfiguration for Object Detection

該論文由騰訊AI Lab與清華大學合作完成。目前最好的目標檢測器大多通過特徵金字塔來學習多尺度表示從而取得更高的檢測精度。然而,當前特徵金字塔的設計在如何整合不同尺度的語義資訊方面仍然不夠高效。為此,本文在調研當前主流特徵金字塔方法的基礎上把特徵金字塔轉換為特徵的再組合過程,創造性地提出了一種高度非線性但是計算快速的結構將底層表示和高層語義特徵進行整合。具體而言,該網路由兩個模組組成:全域性注意力和區域性再組合。這兩個模組分佈能全域性和區域性地去在不同的空間和尺度上提取任務相關的特徵。重要的是,這兩個模組具有輕量級、可嵌入和可端到端訓練的優點。在基於SSD的框架上,該模型取得裡比原始模型及其他變體方法明顯更好的檢測精度,而且沒有犧牲實時的處理速度。

17.弱監督下的區域提名網路和目標檢測

Weakly Supervised Region Proposal Network and Object Detection

該論文由騰訊AI Lab與華中科技大學、德州大學阿靈頓分校、約翰斯·霍普金斯大學合作完成。基於卷積網路的區域提名生成方法(RPN)通過邊框標註進行訓練,是當前全監督目標檢測器一個核心部分。然而弱監督目標檢測器因為缺乏邊框標註,所以沒有得益於基於CNN的提名生成方法,而只能依賴傳統的提名生成方法,例如選擇性搜尋法。這篇文章提出了一種只利用圖片級的標註的區域提名網路,該網路由兩個步驟組成。第一個步驟是通過探尋卷積網路的低層資訊來評價滑動視窗的目標顯著性;第二個步驟利用基於區域的卷積分類器來修正第一階段所生成的提名邊框。本文提出的網路適用於弱監督目標檢測,可以嵌入到任意弱監督檢測器,並共享卷積計算。在PASCAL VOC和ImageNet的檢測資料集上的實驗表明,此方法比其他弱監督檢測方法高大約3%的平均識別率。

18.區域性多樣性要有多區域性?以動態基礎集合強化行列式點過程以及在有監督視訊摘要中的應用

How Local is the Local Diversity? Reinforcing Sequential Determinantal Point Processes with Dynamic Ground Sets for Supervised Video Summarization

該論文由騰訊AI Lab與中佛羅里達大學、愛荷華大學合作完成。大量的視訊內容和高觀看頻率呼喚自動的視訊摘要演算法,而這些演算法的一個關鍵屬性是能夠對多樣性建模。如果視訊長達數小時——比如第一視角的視訊一般都很冗長,則有必要對視訊的區域性多樣性建模。區域性多樣性指的是對短時間片段的摘要是有多樣性的,但是如果一些片段在視訊中出現時間相距很遠,則允許它們同時出現在摘要中——即使它們看起來相似。在本文中,提出了一種基於行列式點過程(SeqDPP)的新的概率模型,用於動態控制視訊片段的時間跨度,並在該視訊片段上施加區域性多樣性。研究者使SeqDPP能夠主動學習如何從輸入視訊中推斷區域性多樣性的區域性範圍。由此產生的模型對最大似然估計(MLE)型別的訓練方法提出極大的挑戰,同時也受到暴露偏差和不可微分的評估指標的影響。為了解決這些問題,研究者設計了一種強化學習演算法來訓練提出的模型。大量實驗驗證了該模型和新的學習演算法優於以前的方法,尤其明顯優於基於MLE的方法。

19.提高行列式點過程以及在有監督視訊摘要中的應用

Improving Sequential Determinantal Point Processes for Supervised Video Summarization

該論文由騰訊AI Lab與中佛羅里達大學、麻省理工學院、愛荷華大學合作完成。現在製作視訊比以往任何時候都容易。無處不在的視訊資料已經成為資訊發現和提取的重要來源,但計算的挑戰也是無與倫比的。自動視訊摘要已成為瀏覽、搜尋、和索引可視內容的重要需求。本文采用時序行列式點過程(SeqDPPs)進行有監督的視訊摘要,通過概率分佈對多樣性進行建模。研究者從兩方面改進了這個模型。在學習方面,提出了一種大間距演算法來解決SeqDPP中的暴露偏差問題。在建模方面,設計了一個新的概率分佈,當它被整合到SeqDPP時,最終模型允許使用者輸入對摘要的期望長度。此外,還顯著擴充了現有的視訊摘要資料庫:1)加入更多的第一視角的視訊,2)收集高密度的使用者註釋,以及3)提高評估方案。研究者用該資料集進行了大量實驗(總共約60小時的視訊),並將該方法與幾個現有方法進行了比較。

相關文章