17篇論文入選視覺領域權威頂會CVPR 百度大腦AI實力享譽國際

pythontab發表於2019-04-30

隨著深度學習的迅猛發展,計算機視覺已成為人工智慧領域影響最深遠的技術之一。在計算機視覺領域深入研究、有著強大技術積累的百度,以17篇論文入選計算機視覺和模式識別大會CVPR 2019,其不俗成績再次成為國際視覺頂級盛會中受矚目的“中國面孔”。

  據瞭解,CVPR 2019即將於6月在美國長灘召開,作為人工智慧領域計算機視覺方向的重要學術會議,CVPR每年都會吸引全球最頂尖的學術機構和公司的研究人員投稿。

  CVPR官網顯示,今年有超過5165篇的大會論文投稿,最終錄取1299篇,錄取率約為25%。據瞭解,去年的CVPR 2018共有979篇論文被主會收錄,錄用率約為29%。相比2018,今年的競爭更加激烈。

  今年百度公司有17篇論文被CVPR接收,內容涵蓋了語義分割、網路剪枝、ReID、GAN等諸多方向,以下為百度入選CVPR 2019的17篇論文。

  1)Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Adaptation

  論文作者:Yawei Luo; Liang Zheng; Tao Guan; Junqing Yu; Yi Yang

  論文介紹:在虛擬影像集(源域)上訓練出的語義分割網路,往往在真實影像集(目標域)上表現不佳。網路分割效能下降是由於兩個域間存在較大差異,而深度模型泛化能力不足。傳統方法嘗試透過全域性對齊源域和目標域間特徵分佈的來解決此問題,而該類方法往往忽略了特徵間的區域性語義一致性。本文首次結合了聯合訓練和對抗訓練來處理此問題。不同於傳統方法,本文根據每一個特徵的語義對齊程度,自適應的調整特徵對齊的力度。該方法解決了傳統方法中特徵語義不一致問題和負遷移的問題。實驗結果證明我們的方法能大大提高網路在目標域影像上的分割精度。

  應用場景:自動駕駛。本方法將電腦合成影像訓練出的網路直接泛化到現實資料集上,大大減少了自動駕駛領域中街景資料採集和資料標註的工作量。

  論文地址:

  https://arxiv.org/abs/1809.09478

  2)Filter Pruning via Geometric Median for Deep Convolutional Neural Networks Acceleration

  論文作者:Yang He, Ping Liu, Ziwei Wang, Zhilan Hu, Yi Yang

  論文介紹:在本文中,我們分析了關於網路剪枝的“小范數 -低重要性”的標準。以前的工作利用“小范數 -低重要性”的標準來修剪在卷積神經網路中具有較小范數值的濾波器,但出它的有效性取決於兩個並不總是滿足的要求:(1)濾波器的範數的標準差應該很大; (2)濾波器的最小范數應該很小。為了解決這個問題,我們提出了一種新的濾波器修剪方法,即透過"幾何平均數"進行濾波器剪枝,以便在不考慮這兩個要求的情況下對模型進行壓縮,我們稱之為FPGM。與之前的方法不同,FPGM透過去掉冗餘的濾波器來壓縮CNN模型,而不是去掉那些範數小的過濾器。我們在影像分類任務上的兩個資料集上,驗證了FPGM的有用性。在Cifar-10資料集上,FPGM在ResNet-110上的計算量降低了52%以上,相對精確度提高了2.69%。此外,在ILSVRC-2012資料集上,FPGM還在ResNet-101上減少了超過42%的計算量。

  應用場景:本文提出的方法能夠有效提升神經網路壓縮率。可以將壓縮後的網路部署到行動式裝置,比如手機、攝像機等,加快處理速度。

  論文地址:

  https://arxiv.org/abs/1811.00250

  GItHub地址:

  https://github.com/he-y/filter-pruning-geometric-median

  3)Detailed Human Shape Estimation from a Single Image by Hierarchical Mesh Deformation

  論文作者:Hao Zhu; Xinxin Zuo; Sen Wang; Xun Cao; Ruigang Yang

  論文介紹:本文提出了一個新的框架,可以根據單個影像恢復詳細的人體形狀。由於諸如人體形狀、身體姿勢和視角的變化等因素,因而這是一項具有挑戰性的任務。現有方法通常嘗試使用缺少表面細節的基於引數的模板來恢復人體形狀。因此,所得到的身體形狀似乎沒有衣服。在本文中,我們提出了一種新穎的基於學習的框架,它結合了引數模型的魯棒性和自由3D變形的靈活性。我們使用深度神經網路在層次網格變形(HMD)框架中利用身體關節、輪廓和每畫素著色資訊的約束來細化3D形狀。我們能夠恢復除皮膚模型之外的詳細人體形狀。實驗證明,我們的方法優於先前的最先進方法,在2D IoU數和3D度量距離方面實現了更好的準確性。

  論文地址:

  https://arxiv.org/abs/1904.10506v1

  GItHub地址:

  https://github.com/zhuhao-nju/hmd.git

  4)GA-Net: Guided Aggregation Net for End-to-end Stereo Matching

  論文作者:Feihu Zhang; Victor Adrian Prisacariu; Yang Ruigang; Philip Torr

  論文介紹:在立體匹配任務中,為了準確估計差異,匹配成本聚合在傳統方法和深度神經網路模型中都是至關重要的。我們提出了兩個新的神經網路層,分別用於捕獲區域性和整個影像的成本相關性。第一個是半全域性聚合層,它是半全域性匹配的可微近似;第二個是區域性引導聚合層,它遵循傳統的成本過濾策略來細化薄結構。這兩層可以用來代替廣泛使用的3D卷積層,該層由於具有立方計算/儲存器複雜性而計算成本高且消耗儲存器。在實驗中,我們表明,具有雙層引導聚合塊的網路很輕易地超過了具有19個3D卷積層的最先進的GC-Net。我們還訓練了深度引導聚合網路(GA-Net),它比場景流資料集和KITTI基準測試中的最新方法具有更好的準確性。

  論文地址:

  https://arxiv.org/abs/1904.06587

  GitHub地址:

  https://github.com/feihuzhang/GANet

  5)Invariance Matters: Exemplar Memory for Domain Adaptive Person Re-identification

  論文作者:Zhun Zhong, Liang Zheng, Zhiming Luo, Shaozi Li, Yi Yang

  論文介紹:本論文旨在解決行人再識別中的跨資料集問題:利用有標註的源資料集和無標註的目標資料集學習一個在目標資料集具有很好的魯棒性的模型。主流的研究方法主要透過降低源域和目標域之間的特徵分佈的差異。然而,這些方法忽略了目標域的域間變化,這些變化中包含了影響目標域測試效能的重要因素。在本文的工作中,我們全面的探討了目標域中的域間變化,並基於三種潛在的域內不變性(樣例不變性,相機不變性和領域不變性)提出了一個新的模型泛化方法。為了實現這個方法,我們在模型訓練過程中引入了一個樣例記憶模組用以儲存目標資料在訓練過程中的中間特徵。該樣例記憶模組可以使我們快速的計算目標域中區域性訓練樣本和全域性樣本的相似性,同時有效的在模型訓練中加入提出的三個不變性限制。實驗證明本文提出的三個不變性性質對提升領域適應的效能是不可或缺的。同時,我們的方法在三個行人再識別的目標域中的準確率大大的超過了當前現有的方法。

  應用場景:本文提出的方法能夠有效提升行人再識別模型在跨場景下的泛化能力。使得我們可以在現有的標註資料情況下,以無監督的方式提升模型在新的場景下的效能。

  論文地址:

  https://arxiv.org/abs/1904.01990

  GitHub地址:

  https://github.com/zhunzhong07/ECN

  6)Searching for A Robust Neural Architecture in Four GPU Hours

  論文作者:Xuanyi Dong, Yi Yang

  論文介紹:本論文旨在解決神經網路搜尋演算法消耗GPU資源過大的問題。目前很多神經網路搜尋演算法在小資料集CIFAR上,都需要消耗成百上千的GPU/TPU。為了提高神經網路的搜尋效率,我們提出了一種利用可微網路結構取樣器的基於梯度的搜尋方法。我們的方法將整個搜尋空間用一個有向無環圖來表示,這個圖包含了成百萬多個子圖,每一個子圖都代表了一種網路結構。針對這個有向無環圖,我們設計了一個可微的取樣器,利用Gumbel-Softmax技術將離散的取樣過程變成可微可導的;在訓練過程中,透過驗證集上的目標損失函式來最佳化這個取樣器,使得采樣器最終能過獲得一個效能較好的網路結構。在實驗中,我們在一個GPU上,透過幾個小時的搜尋時間,就可以在CIFAR上找到一個高效能的網路結構。

  應用場景:本文提出的方法能夠有效地在較短時間利用少量GPU搜尋出魯棒的網路結構,可以廣泛地應用在大部分任務裡,搜尋出對更小更快精度更高的網路模型。

  GitHub地址:

  https://github.com/D-X-Y/GDAS

  7)DM-GAN: Dynamic Memory Generative Adversarial Networks for Text-to-image Synthesis

  論文作者:Minfeng Zhu, Pingbo Pan, Wei Chen, Yi Yang

  論文介紹:本論文旨在提升基於文字生成的圖片的真實性。當前的方法都是先生成比較粗糙的初始影像,然後再最佳化影像從而生成高解析度的真實影像。然而,目前大多數方法仍存在兩個問題:(1)當前方法的結果很大程式上取決於初始影像的質量。如果初始影像質量不高,則第二階段最佳化很難將影像最佳化到令人滿意的程度。(2)每個單詞對於不同的圖片內容都有不同的資訊量,但當前方法在兩個階段中仍然保持了相同的單詞重要性。

  在本文工作中,我們提出動態記憶生成對抗網路(DM-GAN)來生成高質量的圖片。我們提出了一個動態記憶模組來最佳化粗糙的初始影像,即使初始影像生成不良,它也可以生成高質量的影像。具體來說,動態記憶模組包括一個根據初始影像選擇重要文字資訊的記憶寫入門和一個自適應融合圖片特徵和文字資訊的反饋門。我們在COCO和CUB資料集上評估了我們的模型。實驗結果表明,我們的方法在FID和IS指標以及真實性上都超過了當前方法。

  應用場景:文字提出的方法可以顯著提升基於文字生成圖片的真實性,我們可以實現文章自動配圖等功能,可以大大降低創作者的配圖成本。

  論文地址:

  https://arxiv.org/abs/1904.01310

  8)Sim-Real Joint Reinforcement Transfer for 3D Indoor Navigation

  論文作者:Fengda Zhu, Linchao Zhu, Yi Yang

  論文介紹:在室內3D導航中,環境中的機器人根據指令移動到目標點。但是在物理世界中部署用於導航的機器人,需要大量的培訓資料來學習有效的策略。為機器人訓練獲得足夠的真實環境資料是代價昂貴的,因此我們提出透過合成資料渲染環境隨後將策略遷移到真實環境中。雖然合成環境有利於來促進現實世界中的導航訓練,但真實環境與合成環境有兩個方面不同。首先,兩種環境的視覺表示具有顯著的差異。其次,兩個環境的房屋計劃有很大不同。因此,需要在強化模型中調整兩種型別的資訊,即視覺表示和策略行為。視覺表徵和策略行為的學習過程是互惠的。

  我們提出聯合調整視覺表現和策略行為,以實現環境和策略的相互影響。具體來說,我們的方法採用了用於視覺表徵轉移的對抗特徵適應模型和用於策略行為模仿的模擬策略。實驗結果表明,我們的方法在沒有任何額外的人類註釋的情況下優於基礎模型高達21.73%。

  應用場景:本文提出的視覺特徵適應模型和策略模擬模型可以有效將機器人在虛擬環境中學習到的策略和特徵遷移到實際場景中,有利於導航機器人,無人車等需要大量資料訓練的應用在缺乏複雜場景的真實資料時,透過渲染環境獲得更好的策略。

  論文地址:

  https://arxiv.org/abs/1904.03895

  9)Contrastive Adaptation Network for Unsupervised Domain Adaptation

  論文作者:Guoliang Kang, Lu Jiang, Yi Yang, Alexander G. Hauptmann

  論文介紹:無監督域適應旨在利用帶標籤源域資料和無標籤目標域資料,獲得在目標域資料上的優良的預測效能。以往的方法在消除域差異的過程中沒有充分利用類別資訊,導致對齊錯誤,影響泛化效能。為了解決這些問題,這篇文章提出了新的域差異度量指標 “對比域差異” 來刻畫類內和類間域差異,並且提出 “對比適應網路” 來最佳化這個指標。我們設計了新的類感知取樣方法,採用交替更新的方式端到端地最佳化我們的網路。我們在兩個標準資料集上取得了比現有的方法更好的效能。

  應用場景:可以提高單一場景訓練模型在缺乏標籤的新場景下的識別效能,如利用人工合成帶標籤資料集,在實際場景圖片上進行識別等任務。

  論文地址:

  https://arxiv.org/abs/1901.00976

  10)ApolloCar3D: A Large 3D Car Instance Understanding Benchmark for Autonomous Driving

  論文作者:Xibin Song, Peng Wang, Dingfu Zhou, Rui Zhu, Chenye Guan, Yuchao Dai, Hao Su, Hongdong Li, Ruigang Yang

  亮點介紹:(1)本文提出了目前已知自動駕駛領域最大規模的三維車輛姿態資料集,共包含5000+高解析度影像(3384*2710)、6萬+車輛的三維姿態資訊及對應的車輛二維語義關鍵點資訊。影像中每輛車使用工業級高精度的三維車輛模型進行三維與二維的匹配獲取車輛姿態。本資料集的規模是目前自動駕駛領域相關資料集的20倍左右,如PASCAL3D+,KITTI等;(2)基於此資料集,本文提出了不同的方法進行車輛三維姿態估計,包括基於關鍵點的方法和非關鍵點的方法;(3)本文提出了完整的車輛三維資訊評估方法,包括車輛的形狀和姿態資訊,相比目前自動駕駛領域相關資料集的評估標準,本文的評估更加全面。

  落地場景:自動駕駛領域,基於單張影像的車輛姿態估計。

  論文地址:

  https://arxiv.org/abs/1811.12222

  11)UnOS: Unified Unsupervised Optical-flow and Stereo-depth Estimation by Watching Videos

  論文作者:Yang Wang, Peng Wang, Zhenheng Yang, Chenxu Luo, Yi Yang, and Wei Xu

  亮點介紹:只透過雙目攝像頭的影片,透過深度學習,就能學習到 雙目深度視覺,光流和相機姿態。

  落地場景:可以輔助支援自動駕駛雙目視覺模型,從而更好的從鐳射的離散深度變換到稠密深度。

  論文地址:

  https://arxiv.org/abs/1810.03654

  12)Look More Than Once: An Accurate Detector for Text of Arbitrary Shapes

  論文作者:Chengquan Zhang, Borong Liang, Zuming Huang, Mengyi En, Junyu Han, Errui Ding, Xinghao Ding

  亮點介紹:受限於神經網路感受野大小約束和簡單的文字包圍盒表達(比如矩形框或四邊形),以往的文字檢測器在長詞和任意形狀的文字場景容易失敗。本文提出了一個新的文字檢測器框架,針對性的解決了這兩個問題。新的文字檢測器框架由三部分組成,直接回歸器(Direct Regressor, DR)、迭代改善模組(Iterative Refinement Module, IRM)和文字形狀表達模組(Shape Expression Module, SEM)。

  DR輸出四邊形表達的文字檢測候選;IRM基於四邊形對應的特徵塊逐步感知和改善完整的四邊形文字包圍盒以解決長詞檢測問題;SEM模組則透過迴歸完整四邊形候選框內的文字例項幾何資訊,來重建更加精準的上下頂點線對稱的多邊形文字表示。IRM和SEM作為可學習的和可插入的模組,能夠聯合DR一起進行端到端的訓練。在包含多方向、長詞、任意彎曲和多語種場景的五個具有權威性的公開資料集合(ICDAR2017-RCTW, SCUT-CTW1500, Total-Text, ICDAR2015 and ICDAR17-MLT)上,我們提出的新檢測器和所有已公開論文中的純檢測方法作對比指標都達到了最好的效果(SOTA)。

  論文地址:

  https://arxiv.org/abs/1904.06535

  13)STGAN: A Unified Selective Transfer Network for Arbitrary Image Attribute Editing

  論文作者:Ming Liu, Yukang Ding, Min Xia, Xiao Liu, Errui Ding, Wangmeng Zuo, Shilei Wen

  亮點介紹:提出了STGAN方法用於圖片/影片的端到端屬性轉換。對傳統方法提出了兩點改進:1) 在自編碼網路結構中引入選擇性屬性編輯單元強化了屬性編輯的效果 ;2) 提出了基於屬性更改的訓練機制。在celebA資料集上轉換效果全方位好於已有方法。

  落地場景:影片拍攝特效、物料樣式生成。

  論文地址:

  https://arxiv.org/abs/1904.09709

  GitHub地址:

  https://github.com/csmliu/STGAN

  14)Attentive Feedback Network for Boundary-Aware Salient Object Detection

  論文作者:Mengyang Feng, Huchuan Lu, and Errui Ding

  論文介紹:最近基於深度學習的顯著目標檢測方法在完全卷積神經網路(FCN)的基礎上實現了可喜的效能。然而,他們中的大多數都遭受了邊界挑戰。目前最先進的方法採用特徵聚合技術,並且可以精確地找出其中的顯著目標,但是它們經常無法將具有精細邊界的整個物件分割出來,尤其是那些凸起的窄條紋。因此,基於FCN的模型仍有很大的改進空間。在本文中,我們設計了注意反饋模組(AFM),以更好地探索物件的結構。我們還採用邊界增強損失(BEL)進一步學習精細邊界。我們提出的深度模型在目標邊界上獲得了令人滿意的結果,並在5個廣泛測試的顯著目標檢測基準上實現了最先進的效能。該網路採用完全卷積方式,以26 FPS的速度執行,不需要任何後期處理。

  論文地址:

  https://github.com/ArcherFMY/AFNet

  15)A Mutual Learning Method for Salient Object Detection with intertwined Multi-Supervision

  論文作者:Runmin Wu, Mengyang Feng, Wenlong Guan, Dong Wang, Huchuan Lu, Errui Ding

  論文介紹:儘管近來深度學習技術在顯著目標檢測方面取得了很大進展,但由於目標的內部複雜性以及卷積和池化操作中的步幅導致的不準確邊界,預測的顯著圖仍然存在不完整的預測。為了緩解這些問題,我們建議透過利用顯著目標檢測,以及前景輪廓檢測和邊緣檢測的監督來訓練顯著性檢測網路。首先,我們以交織的方式利用顯著目標檢測和前景輪廓檢測任務來生成具有均勻高光的顯著圖。其次,前景輪廓和邊緣檢測任務同時相互引導,從而導致精確的前景輪廓預測並減少邊緣預測的區域性噪聲。此外,我們開發了一種新穎的相互學習模組(MLM),它作為我們方法的構建模組。每個MLM由多個以相互學習方式訓練的網路分支組成,效能得意大大提高。我們對七個具有挑戰性的資料集進行的大量實驗表明,我們所提出的方法在顯著目標檢測和邊緣檢測方面都能達到最好的效果。

  GitHub地址:

  https://github.com/JosephineRabbit/MLMSNet

  16)L3-Net: Towards Learning based LiDAR Localization for Autonomous Driving

  論文作者:Weixin Lu, Yao Zhou, Guowei Wan, Shenhua Hou, Shiyu Song

  亮點介紹:自定位模組是無人車系統的基礎模組之一,一個成熟的L4級別無人車定位系統需要提供釐米級定位精度的輸出結果。百度提出了一種基於學習的點雲定位技術,不同於傳統的人工設計的複雜演算法,該技術對傳統的定位方法進行拆解,使用深度學習網路來取代傳統的各個環節和步驟,並在一個包含多種場景路況和大尺度時間跨度的資料集上驗證了演算法效果,實現了釐米級的定位精度。該方案是全球範圍內,業界首次透過使用直接作用於鐳射點雲的深度學習網路來解決自動駕駛的自定位問題。資料集包含了城市道路、園區道路和高速等多種富有挑戰的路況場景,資料總里程達380km,即將在百度Apollo平臺開放。

  落地場景:百度無人車

  論文地址:

  https://songshiyu01.github.io/publication/cvpr2019_localization/

  17)Improving Transferability of Adversarial Examples with Input Diversity

  論文作者:Cihang Xie; Yuyin Zhou; Song Bai; Zhishuai Zhang; Jianyu Wang; Zhou Ren; Alan Yuille

  論文介紹:儘管CNN已經在各種視覺任務上取得了非常好的表現,但它們很容易受到對抗性示例的影響,這些示例是透過在清晰的影像中加入人類不易察覺的擾動而精心製作的。然而,大多數現有的對抗性攻擊在具有挑戰性的黑盒設定下只能獲得相對較低的成功率,因為攻擊者不瞭解模型結構和引數。為此,我們建議透過建立不同的輸入模式來提高對抗性示例的可遷移性。我們的方法不是僅使用原始影像來生成對抗性示例,而是在每次迭代時將隨機變換應用於輸入影像。

  ImageNet上的大量實驗表明,我們所提出的攻擊方法生成的對抗性示例可以比現有基線更好地遷移到不同的網路。透過評估我們針對NIPS 2017對抗性競爭中的頂級防禦解決方案和官方基線的方法,增強型攻擊的平均成功率達到73.0%,在NIPS競爭中的前1次攻擊提交率大幅提高6.6%。我們希望我們提出的攻擊策略可以作為評估網路對抗的穩健性和未來不同防禦方法的有效性的強大基準基線。

  論文地址:

  https://arxiv.org/abs/1803.06978

  GitHub地址:

  https://github.com/cihangxie/DI-2-FGSM


相關文章