2017以來的2D to 3D | VALSE2018

深度學習大講堂發表於2018-06-19

編者按:虛幻與現實,自古便引發了人們無窮的想象,古有莊子的“莊生曉夢迷蝴蝶”,近有《紅樓夢》中“假作真時真亦假,無為有處有還無”的太虛幻境。 而隨著科技發展至今,我們終於可以通過計算機視覺技術,來填補虛擬世界與現實世界之間的鴻溝,因而衍生出了VR、AR、SLAM等技術,以將二維世界投影到三維世界。 本文中,來自中科院自動化所的吳毅紅研究員,將介紹2017年以來的2D to 3D計算機視覺進展。文末,大講堂提供文中提到參考文獻的下載連結。

2017以來的2D to 3D | VALSE2018
2017以來的2D to 3D | VALSE2018

本次報告分成五部分:前言、影像匹配、視覺定位、三維重建、發展趨勢。

2017以來的2D to 3D | VALSE2018

三維視覺應用最近幾年比較火熱,已經從傳統工業走入AR、VR、機器人領域。2016年迎來了一波VR,AR應用的熱潮,但很不幸到2016年底,VR迎來寒冬,一些VR公司紛紛倒閉關門。但是,自2017年以來一直到現在,無人駕駛、機器人、AGV、3D攝像頭異常火爆。2017年6月5日蘋果釋出ARKit,2017年8月谷歌釋出ARCore,9月13蘋果手機iPhoneX中採用3D深度攝像頭,10月19三星宣佈與谷歌合作,將ARCore引入三星手機。2018年3月,騰訊成立機器人實驗室Robotics X,張正友老師主持實驗室工作,張正友老師是世界上傑出的三維計算機視覺科學家。

2017以來的2D to 3D | VALSE2018
2017以來的2D to 3D | VALSE2018

影像匹配的過程首先是對影像進行特徵檢測,然後進行描述子提取,最後算出距離進行匹配。而在影像匹配領域,傳統設計的描述子逐漸被學習型描述子取代,深度學習成為主流趨勢;在特徵檢測方面,深度學習展現了它的魅力;然而在實際落地應用中,仍然以傳統設計方法為主。在特徵檢測方面,有兩個代表性的工作,CovDet和AffNet,都是採用CNN對協變引數進行學習。

2017以來的2D to 3D | VALSE2018

在描述子工作方面,第一個工作是L2Net,第二個工作是DeepCD,第三個是Spreed-out,第四個是HardNet。在特徵匹配方面有兩個比較顯著的工作,一個是基於影像網格化,加入平滑優勢,使得匹配方法在視訊上能夠達到實時的速度。第二個工作是對於2008年PAMI上的方法進行改進,在08年工作中要依賴引數,這些引數難以調取。在CVPR2017的SGM-Nets方法中則採用神經網路方法對該引數進行估計。

2017以來的2D to 3D | VALSE2018

那麼在湧現的眾多描述子中,我們如何來選擇呢?在CVPR2017同時出來的兩篇文章中對於描述子進行了測評,在第二個方法中提出新的資料庫HPatches,它在資料質量上較Brown資料庫進一步提升。它對於所有相關方法,例如手工描述子、以及最近幾年的深度學習描述子都進行測評,最終得出結論:傳統的手工描述子SIFT的效能要優於深度學習描述子效能。

2017以來的2D to 3D | VALSE2018
2017以來的2D to 3D | VALSE2018

視覺定位主要分兩類,一類是3D點已知,另一類是3D點未知。我們最近出了一篇關於視覺定位很全面的分類與綜述。3D點已知通常對2D點和3D點進行匹配,PnP問題,SLAM重定位是屬於這個範疇。在CVPR2017年有一篇文章,討論是否需要大場景3D建模以實現精確定位。我認為需不需要,要根據具體應用決定,不能一概而論。3D未知,就是通常所說的SLAM。

2017以來的2D to 3D | VALSE2018

在3D點已知的情況下,小場景的研究已經比較成熟,很多研究工作集中在大場景上以及異質影像上,其中關鍵任務是進行2D和3D之間快速精確的匹配。2018PR上面有一篇文章是關於異質資料下視覺定位的綜述,其餘的是關於global,雜湊,以及2D到3D匹配的一些方法。

2017以來的2D to 3D | VALSE2018

在3D未知情況下,SLAM自2017以來異常火爆,近幾年每年都有綜述不斷地發表出來。

2017以來的2D to 3D | VALSE2018

SLAM中第一個顯著性工作是研究複雜環境下魯棒視覺定位,由於傳統視覺場景下有很多挑戰性的問題,而工業界又面臨著迫切的落地需求,因此魯棒性視覺定位成為了一個研究方向,例如,面臨強光線以及大空曠場景下時,從前的視覺定位方法都會失敗。而2017到2018年解決這個問題的主要方式,是通過點線面以及邊緣融合或者多感測器融合方法進行。

2017以來的2D to 3D | VALSE2018

SLAM中第二類集中性的工作是深度學習的方法,以及深度學習方法與傳統幾何方法進行融合的研究。在CVPR2017上有3篇深度學習工作,arXIV上面也有好幾篇。我相信這方面的論文還會不斷地出現。

2017以來的2D to 3D | VALSE2018

機器人在實際應用場景中僅依賴SLAM還是不夠的,必定要加入語義資訊,因此這也是一個發展方向,關於語義的SLAM,這裡也列出了幾篇文章。

2017以來的2D to 3D | VALSE2018

大家對SLAM的熱情不僅體現在新方法、以及如何解決迫切場合的需求上。還體現在對比較成熟方向上的研究,例如Marker SLAM方面,它是在SLAM領域比較成熟的方向,但仍然有很多論文出現,例如ICCV2017,PR2018的幾篇文章,在這些工作中需要依賴2D到3D的匹配。通常由於Marker點比較少,一旦匹配幾個錯誤的點結果會差很多,即使RANSAC也難以剔除掉。我們最近研究不需要匹配的方法,效能會提高很多。

2017以來的2D to 3D | VALSE2018

前面講的SLAM是基於傳統透視相機的研究,隨著相關新硬體的發展,基於事件相機的SLAM、RGBD 的SLAM的研究也有新的進展。深度相機最近比較熱,但非常遺憾微軟在2017年宣佈對Kinect 停產(2018年5月上旬,Kinect又正式復活)。

2017以來的2D to 3D | VALSE2018

縱觀剛才介紹的視覺定位工作來看,深度學習方法是在呈上升趨勢,傳統幾何方法熱情不減,不僅研究計算機視覺工作者投入很多熱情,還有其他領域,比如說機器人領域,很多學者也在投入很多熱情對SLAM進行研究。但以實際場景來看,主要以幾何方法為主。深度學習的方法離實用還有一定的距離。

2017以來的2D to 3D | VALSE2018

現在看一下三維重建方面的工作。 三維重建可以分為三個方面:


1.基於SFM的方法,

2.最近幾年興起的基於學習的方法,包括有關於單目的直接學習深度的方法,以及有關於多目的學習匹配、視差的方法。

3.另外就是深度相機下的三維重建,深度相機的可視範圍和視角有限,通常對大範圍場景重建或者要得到完整模型,需要RGBD SLAM。RGBD很多是對非剛體進行重建。

2017以來的2D to 3D | VALSE2018

傳統的SFM的方法,在位姿和場景結構估計時分為:增量式,全域性式,混合式。後面會經過捆綁調整,以及點雲處理。

2017以來的2D to 3D | VALSE2018

單純增量式的研究和全域性式研究都有各自缺陷,所以相關論文不是很多,進行混合式研究是必然趨勢。

2017以來的2D to 3D | VALSE2018

在混合式研究方面主要有兩種研究方式:


第一種:將攝像機位置和姿態求取拆開。

第二種:將攝像機進行分組,每一組進行增量式重建,組之間再進行模型對齊時採用全域性式方法。

2017以來的2D to 3D | VALSE2018

在得到初始的三維點之後還要消除誤差,所以要對其進行捆綁調整。由於存在大量的點,如何提高速度是捆綁調整的關鍵問題。2017年有2篇相關論文,研究如何有效的處理大量的點雲,以提高捆綁調整的效率。此外,對大規模場景進行重建,還要在不同角度進行拍攝,比如天空拍攝重建、地面拍攝重建。由於視角差別很大,如何在大視角下對點進行融合也是很有價值的方向。

2017以來的2D to 3D | VALSE2018

而針對點雲處理,這裡是幾篇偏圖形學的論文。

2017以來的2D to 3D | VALSE2018

剛剛講的是SFM的方法,那麼深度學習也在逐漸攻克三維視覺領域,三維重建方面也陸續湧現深度學習的方法。有單幅影像學習場景深度的深度學習方法,有雙目相機下學習匹配、視差的深度學習方法。如果要進行單幅影像深度學習,理解背後的幾何知識很重要,因為焦距不同,同一張圖片的場景深度也不同。對於多目情況下通常是學習匹配視差。目前在KITTI上,排名靠前的論文大多數都是基於深度學習的方法,大家感興趣可以去研究下這些論文。

2017以來的2D to 3D | VALSE2018

除此之外在三維重建方面,還有一些研究是關於非剛體的重建,非剛體多是人體或者手勢。在主流方法以外還有其他的一些三維重建的方法,比如在手機端對大場景的基於濾波的三維重建,基於體測的稠密三維重建,基於偏振光度計演算法向資訊可適用於無紋理物體的重建方法。無紋理對視覺來說是個難題。

2017以來的2D to 3D | VALSE2018

最後介紹一下發展趨勢。


首先是幾何與學習融合:目前深度學習已廣泛應用於計算機視覺領域,但在三維計算機視覺方面,深度學習方法的效能還超越不了傳統的幾何方法。傳統的方法有退化和不魯棒的時候,比如純旋轉進行三維重建,用深度學習的方法可以來彌補。深度學習方法泛化能力弱,很多情況下直接學習結構和運動精度較低,但有強大的特徵表達能力。以傳統的多視幾何為主導,輔以深度學習,來提高三維視覺的魯棒性是一種發展趨勢。


第二個趨勢是多感測器融合。工業界對視覺有非常迫切的需求,但視覺環境複雜多變,即使深度學習也不能彌補時,輔以其餘的感測器是一種有效的方式。視覺感測器相比其餘感測器,靈活成本低廉,而且視覺感測器普遍存在。在要求低成本時,以視覺感測器主導,結合廉價的鐳射、IMU等,可達到效能和成本兼顧的目的。


第三個趨勢是與硬體結合。目前已有很多深度相機,3D攝像頭,但有些介面使用起來並不方便,將三維視覺的演算法與硬體結合,嵌入到硬體或晶片中,是一種發展趨勢。最近有一篇論文:嵌入式SLAM時代是否來臨?文中將幾種典型的SLAM演算法嵌入到晶片中,並對效能進行了分析和比較,答案是的。


最後一個趨勢是與具體應用結合。三維視覺在AGV、無人駕駛、服務機器人、AR教育、AR影音等方面有廣泛的應用價值。在實際場景中,會面臨很多問題,去解決這些問題,會刺激三維視覺快速發展並保持三維視覺發展的新活力。

2017以來的2D to 3D | VALSE2018

參考文獻連結:

連結: https://pan.baidu.com/s/14aSII2m5XGstUeZxYCicCg 

密碼: kuey

相關文章