必看,10篇定義計算機視覺未來的論文

dicksonjyl560101發表於2019-08-17


譯者 | Major

編輯 | 趙雪

出品 | AI科技大本營(ID:rgznai100)

導語:如果你沒能參加 CVPR 2019 , 別擔心。本文列出了會上人們最為關注的 10 篇論文,覆蓋了 DeepFakes(人臉轉換), Facial Recognition(人臉識別), Reconstruction(視訊重建)等等。

1.Learning Individual Styles of Conversational Gesture (學習對話姿勢中的個體風格)


原文連結:

https://www.profillic.com/paper/arxiv:1906.04160

摘要:對於給定的語音音訊輸入,它們會生成合理的姿勢,來配合聲音併合成講者的相應視訊。

使用的模型/架構:語音到姿勢轉換模型(Speech to gesture translation model)。採用一個卷積音訊編碼器下采樣 2D 語譜圖並轉換為 1D 訊號。接著翻譯模型 G 預測一個相應的 2D 姿勢時序棧。迴歸到真實姿勢的 L1 提供一個訓練訊號,與此同時,採用一個對抗判別器 D ,確保所預測姿勢和講者風格一致。

模型精確度:研究人員對基準和實際姿勢序列的語音和姿勢轉換結果進行了定量比較(作者們展示的表格表明新模型損耗較低, PCK 較高)。

使用的資料集: 從 Youtube 上查詢得到的針對講者的姿勢資料集。總共採用了 144 小時的視訊。其中,80% 用於訓練,10% 用於驗證,10% 用於測試集,這樣每段源視訊只出現在一個資料集中。

必看,10篇定義計算機視覺未來的論文



2.Textured Neural Avatars(神經元模型貼圖)

原文連結:

https://www.profillic.com/paper/arxiv:1905.08776

摘要:研究人員提出了一個學習全身神經元貼圖的系統(即深層網路),通過不同的身體姿勢和相機位置產生一個人的全身效果圖。這個自由視角渲染的人體神經元模型無需 3D 顯式形狀建模。

使用的模型/架構:神經元貼圖系統概覽。輸入姿勢對應為一個 “骨骼” 光柵堆疊(一個骨骼對應一個通道)。輸入一個全卷積網路(生成器)進行處理,產生肢體定位對映堆疊和肢體協調對映堆疊。這些堆疊用來在肢體協調對映堆疊指定的位置取樣身體紋理圖,從而產生 RGB 影象。此外,最後的身體定位堆疊圖也對應了背景可能性。在學習過程中,遮罩和 RGB 影象與真實姿勢進行比較,產生的損失通過取樣操作後向傳播到全卷積網路和紋理上,使它們進行更新。

模型精確度:就 SSIM(自相似度)指標而言,表現得比其他兩個模型更好;在 FID( Frechet 感知距離)指標上的表現比 V2V 表現更差。

使用的資料集:

  • CMU Panoptic 資料集的 2 個子集
  • 我們自己使用 7 臺攝像機對 3 個物件採集的多角度序列,其視角範圍大約在 30 度。還有另一文章和 Youtube 上的 2 個單眼短序列。

必看,10篇定義計算機視覺未來的論文


3.DSFD: Dual Shot Face Detector(DSFD: 雙向人臉檢測器)

原文連結:

https://www.profillic.com/paper/arxiv:1810.10220

摘要:作者提出了一個創新的人臉檢測神經網路,有3個全新的貢獻,解決了人臉識別的三個關鍵方面,包括更好的特徵學習、漸進的損失設計,以及基於資料增強的主角指定。

使用的模型/架構:DSFD 框架在一個前向 VGG/ResNet 架構的頂層採用了一個特徵增強模組,從原有的特徵中產生增強特徵,該框架還採用了兩個損失層,分別是針對原有特徵的名為 first shot PAL 的損失層,和針對增強特徵的名為 second shot PAL 的損失層。

模型精確度:在流行的 benchmark(WIDER FACE 和 FDDB )上進行的大量實驗表明了與現有的檢測器如 PyramiBox 和 SRN 相比,DSFD 具有優越性。

使用的資料集:WIDER FACE 和 FDDB

必看,10篇定義計算機視覺未來的論文


4.GANFIT: Generative Adversarial Network Fitting for High Fidelity 3D Face Reconstruction (GANFIT:匹配高保真3D人臉重建的對抗生成網路)

原文連結:

https://www.profillic.com/paper/arxiv:1902.05978

摘要:文中提出的深度匹配 方法可以從一個影象重建高質量紋理和幾何特徵,可準確進行身份重現。文中其它地方的重建採用一個 700 浮點數規模的向量表示,並無須採用任何特效進行渲染 ( t 產生的紋理通過模型重建,而沒有從影象中直接提取特徵 )。

使用的模型/架構:採用一個差分渲染器進行 3D 人臉重建。成本函式主要通過預訓練人臉識別網路上的身份特徵來確定,並通過梯度下降優化將誤差一路返回到潛在引數來優化。端到端可微結構使我們能夠使用從計算上來說既廉價又可靠的一階導數進行優化,因此使用深層網路作為生成器(即統計模型)或作為成本函式具有了可能性。

模型精確度:採用點面距離從 MICC 資料集上獲得精確性資料。下表給出的均方差 ( Mean )和標準差( Std. )是該模型最低的。

使用的資料集: MoFA-Test、MICC、Wild ( LFW ) 資料集中帶標籤的面部、BAM 資料集。

必看,10篇定義計算機視覺未來的論文


5.DeepFashion2: A Versatile Benchmark for Detection, Pose Estimation, Segmentation and Re-Identification of Clothing Images (DeepFashion2:服裝影象檢測、動作評估、分割和重新識別的通用基準)

原文連結:

https://www.profillic.com/paper/arxiv:1901.07973

摘要:Deepfashion 2 提供了一個用於服裝影象檢測、動作評估、分割和重新識別的通用基準。

使用的模型/架構:Match R-CNN 包含了三個主要的元件:特徵提取網路 ( FIN )、感知網路( PN )和匹配網路( MN )。

模型精確度:與真實服裝相比,Match R-CNN 達到了前 20 的精確度(低於 0.7 ),說明檢索基準很有挑戰性。

使用的資料集:DeepFashion2 資料集包含了 491K 各類影象,涵蓋商業銷售庫存服裝和消費者中的19 類流行服裝。

必看,10篇定義計算機視覺未來的論文


6.Inverse Cooking: Recipe Generation from Food Images(反向烹飪:從食物影象生成配 方)


原文連結:

https://www.profillic.com/paper/arxiv:1812.06164

摘要:Facebook 研究人員採用AI從食物影象中生成食譜。

使用的模型/架構:配 方生成模型-作者用影象編碼器提取影象特徵。由成分解碼器( Ingredient Decoder)預測成分,並用成分編碼器( Ingredient Encoder)編碼到成分嵌入中。烹飪指令解碼器通過處理影象嵌入、成分嵌入和先前預測的單詞,生成食譜標題和烹飪步驟序列。

模型精確度:使用者研究結果表明,相對於最先進的影象-配 方檢索方法,他們的系統具有優勢。(優於人工評估和基於檢索的系統,獲得 49.08% 的 F1 ,良好的 f1 分數意味著錯判假陽性和假陰性較低)。

使用的資料集:他們在大規模 Recipe1M 資料集上對整個系統進行評估。

必看,10篇定義計算機視覺未來的論文


7.ArcFace: Additive Angular Margin Loss for Deep Face Recognition(ArcFace:用於深度人臉識別的附加角度邊緣損失)


原文連結:

https://arxiv.org/pdf/1801.07698.pdf

摘要:ArcFace 可以獲得更具鑑別力的深度特徵,並以可重現的方式在 MegaFace Challenge 中有出色的表現。

使用的模型/架構:為增強類內緊湊性和類間差異性,本文提出附加角度邊緣損失(ArcFace),在取樣和中心之間加入了一個測地距離邊緣。這是出於提高人臉識別模型的識別能力考慮。

模型精確度:綜合實驗報告表明,ArcFace 始終優於當前最新的模型.

使用的資料集:採用了 CASIA、VGGFace2、MS1MV2 和 DeepGlint-Face (包括 MS1M-DeepGlint 和 Asian-DeepGlint ) 作為訓練集,以確保與其他模型進行公平的比較。使用的其它資料集包括:LFW、CFP-FP、AgeDB-30、CPLFW、CALFW、YTF、MegaFace、IJB-B、IJB-C、Trillion-Pairs、iQIYI-VID

必看,10篇定義計算機視覺未來的論文



8.Fast Online Object Tracking and Segmentation: A Unifying Approach (快速線上物件跟蹤和分割:歸一化方法)

原文連結:

https://www.profillic.com/paper/arxiv:1812.05050

摘要:通過利用二進位制分割任務增強損失,這種名為 SiamMask 的方法改進了用於物件跟蹤的流行的全卷積 Siamese 方法的離線訓練過程。

使用的模型/架構:SiamMask 的目標是視覺跟蹤和視訊分割的交叉點,實現更高的實用性。與傳統的物件跟蹤器相似,它依賴於簡單的邊界框初始化並線上操作。與 ECO 等最先進的跟蹤器不同,SiamMask 能夠生成二進位制分割遮罩,從而更準確地描述目標物件。SiamMask 有兩種變體:三分支結構、兩分支結構(有關更多詳細資訊請參閱論文)。

模型精確度:論文中給出了 SmiaMask 的定量結果,分別針對 VOT(視覺物件跟蹤)和DAVIS( Densely 標引視訊分割)序列。SiamMask 即使在速度很快或有干擾的情況也能產生精確的分割遮罩。

使用的資料集:VOT2016、VOT-2018、DAVIS-2016、DAVIS-2017和 YouTube-VOS。

必看,10篇定義計算機視覺未來的論文



9.Revealing Scenes by Inverting Structure from Motion Reconstructions (在動作重建中插入結構再現場景)

原文連結:

https://www.profillic.com/paper/arxiv:1904.03303

摘要:微軟的研究團隊和合作研究人員從點雲中重建了場景的彩色影象。

使用的模型/架構:該方法基於一個作為輸入的級聯 U-NET,從包含點深度,可選顏色和 SIFT描述符的特定視點渲染點的二維多通道影象,並從該視點輸出場景的彩色影象。

他們的網路有3個子網路——VISIBNET、 COARSENET 和 REFINENET。網路輸入是一個多維的 ND 陣列。本文探討了網路變數,輸入的是深度、顏色和篩選描述符的不同子集。這 3 個子網路具有相似的架構。它們是具有對稱跳躍連線的編碼器和解碼器層的 U-UNet 。解碼器層末端的額外層有助於高維輸入。

模型精確度:本文表明,可以從儲存的有限資訊量和稀疏的三維點雲模型體系結構中重建高質量影象(有關更多詳細資訊,請參閱論文)。

使用的資料集:在700 多個戶內和戶外 Sfm 重建影象上進行,這些影象是從 NYU2 的MagaDepth 資料集中的 50 多萬多角度影象中產生的。

必看,10篇定義計算機視覺未來的論文

10.Semantic Image Synthesis with Spatially-Adaptive Normalization (空間自適應正則化語義影象合成)

原文連結:

https://www.profillic.com/paper/arxiv:1903.07291

摘要:把塗鴉變成令人驚歎的照片寫實的風景!Nvidia Research 利用生成對抗網路建立高度逼真的場景。藝術家可以使用畫筆和顏料筒工具設計河流、岩石和雲等專屬於自己的風景。

使用的模型/架構:


必看,10篇定義計算機視覺未來的論文


在 SPADE 中,首先將遮罩影射到嵌入空間上,然後進行卷積以產生調製引數 γ 和 β 。與以前的條件歸一化方法不同,γ 和 β 不是向量,而是具有空間維度的張量。將產生的 γ 和 β 相乘並按順序新增到歸一化啟用元素中。


必看,10篇定義計算機視覺未來的論文

在 SPADE 發生器中,每個正則層採用分割遮罩來對層活動建模,(左側)是採用 SPADE 的一個殘差模組,(右側)發生器包含了一系列帶有上取樣層的 SPADE 殘差模組。

模型精確度:這個體系結構通過較少的引數移除主影象到影象轉換網路的降取樣層,以實現更好的效能。我們的方法成功地在動物到體育活動的不同場景中生成了逼真的影象。

使用的資料集:COCO-Stuff、ADE20K、Cityscapes 和 Flickr Landscape

必看,10篇定義計算機視覺未來的論文


原文連結:

https://hackernoon.com/top-10-papers-you-shouldnt-miss-from-cvpr-2019-deepfake-facial-recognition-reconstruction-and-more-d5ly3q1w


https://www.toutiao.com/a6725605429029634574/

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2653978/,如需轉載,請註明出處,否則將追究法律責任。

相關文章