基於影像語義的視覺化同時定位和建圖的面向應用程式的移動機器人自主導航解決方案綜述
論文名稱: A survey of image semantics-based visual simultaneous localization and mapping Application-oriented solutions to autonomous navigation of mobile robots
作者: Linlin Xia, Jiashuo Cui, Ran Shen, Xun Xu, Yiping Gao and Xinying Li
論文下載:https://journals.sagepub.com/doi/pdf/10.1177/1729881420919185
作者主頁:https://orcid.org/0000-0002-5079-3788
本文的核心思想
作為機器人自主導航的經典方案之一,視覺同步定位和建圖(V-SLAM)有著本質的限制,這些限制來自於對以影像幾何特徵為基礎的單純環境理解。相對比,語義SLAM以高層次的環境感知為特點,因此開啟了一道新的大門,即將影像語義應用於有效位姿估計,迴環檢測,構建3D地圖等等。這篇文章詳細回顧了語義SLAM的近期發展,主要涵蓋不同SLAM方案的感知能力,魯棒性和準確性。特別的,“語義提取器”的概念和“現代同步定位和建圖(modern SLAM)”的框架被提出。本文進一步在巨集觀角度討論了一些開放問題,並嘗試找到對應答案。本文認為,多尺度地圖表示,物件SLAM系統和基於神經網路的SLAM等設計方案,能夠有效解決影像語義融合的視覺同步定位和建圖。
I.研究背景介紹
現如今,自主機器人可以在沒有人為干預的情況下,獨立操作完成特定的任務。作為自主機器人的一個主要的屬性--自主運動,主要取決於自我運動估計和高層次的環境感知。但是,在某些情況下,人工地標是不可知的,或者機器人處於GPS缺失的環境中,這樣自我運動估計或獲取場景資訊就遭遇很大的困難。名詞“SLAM”解釋為同步定位和建圖(有Smith和Cheeseman在1986年提出),被認為是一個基本工具,解決移動機器人在未知環境中的未知位置進行自我定位。技術上,移動機器人漸近的構建一個環境的全域性一致地圖,於此同時藉助此地圖實現自我定位。從數學角度來看,SLAM過程能夠被抽象為一個併發估計問題,主要涵蓋了機器人在可獲得地標下的姿態估計和位置估計。很長時間以來,SLAM問題基本上是通過一系列距離感測器來解決的,比如光線檢測和測距,紅外輻射,或聲納導航和測距,這些適用於小範圍靜態環境中(各種距離感測器受限於他們獨自的物理屬性)。但是,在動態、複雜和大範圍環境下,基於距離感測器的SLAM可能面對很多挑戰。
SLAM問題的示意圖如圖1所示。
通過外部相機(作為外部感測器)方法的SLAM被稱為視覺SLAM(V-SLAM)。相比於傳統SLAM技術框架,V-SLAM的重大優勢是,它對於實際應用場景的適用性,因為V-SLAM可獲得更豐富的影像紋理結構和更簡單的感測器配置。此外,伴隨計算機視覺(CV)技術的發展和成熟,使得V-SLAM可獲得圖形和視覺的支援。意識到基於CV的方法已經解決了許多主要的V-SLAM領域中的問題,例如:影像特徵檢測、描述和匹配,迴環檢測和3D地圖構建等等。目前,利用許多開源演算法,V-SLAM系統的架構已經完全建立。但是,我們必須承認,在機器人移動或者具有挑戰性環境下(比如,快速的機器人動力學,快速變換的環境,嚴重的光亮變化,嚴格的可見度限制或複雜的缺失紋理場景),V-SLAM技術還是不夠健壯。Cadena等人,首先將SLAM時間線分為3個時期,並進一步總結了不同時期的成果。技術上,Cadena他們陳述,如果我們已經來到的SLAM的第三階段,即為一個魯棒感知的階段:魯棒性效能的實現,高層次的理解,資源感知和任務驅動的感知表示。SLAM相關的研究者,已經致力於研究方法,解決高層次的場景感知和理解。他們的工作主要定位於語義理解,因為它在提升魯棒性,直觀視覺化和高效的人機互動方面有著優勢。與基於語義的魯棒性/準確性提升或語義構圖相關的研究,都被稱為語義SLAM。由於V-SLAM能夠在一個聯合的公式下實現定位和建圖,自然的,上述的語義SLAM的兩個過程也同樣能夠在一個估計器下同步解決。
SLAM時間線如圖2所示。
表1列出了從2006年至今的SLAM技術方面的主要研究調查。
本調查的其餘部分如下:
- 陳述了對於語義提取器的詳細描述,現代V-SLAM系統的基礎架構以及主流的開源演算法。
- 然後,特別關注於語義SLAM的許多獨特屬性----感知力、魯棒性和準確性,並分別與人機環境互動,環境適應和可靠的導航有關相結合分析,這些問題將在第三、四、五章節詳述。
- 關注語義SLAM目前面臨挑戰,嘗試尋求這些問題的答案。
- 給出語義SLAM相關內容的總結。
II. 語義SLAM系統的元件
A.語義提取器
物件檢測被認為是CV的一個重要的分支,CV的發展可以初略的分為人工特徵機器學習階段(2001-2013)和學習特徵深度學習階段(2013至今)。區域卷積神經網路(R-CNN)系列屬於典型的2-階段網路,包括R-CNN,fast R-CNN,faster R-CNN,以及最新的mask R-CNN。值得注意的是,最新型別的物件檢測演算法實現同步完成目標定位和分類任務,而不是首先進行物件的2D定位。具有代表性的Yolo系列演算法(已知的最快的語義提取器)採用S×S的網格替代區域建議,並且這些網格的分類類別作為最終檢測結果的理想候選結果。一般而言,Yolo系列的檢測速度滿足一般的實時語義SLAM系統,但是為了更高的準確度,最新的Centernet提供了一個新穎的基於特徵點的方法。
為了清晰的描述物件檢測網路的發展,按照時間順序的總覽如圖3所示。
語義分割,在涉及極其複雜的場景情況下,需要一些特殊的關注,並且為了確保魯棒定位和建圖,更好的場景圖例,也就是大量物件之間的深度關聯挖掘需要進一步考慮。相對比,物件檢測適用於粗粒度的場景推理,而語義分割更為普遍,因為它適用於精細的場景處理。類似的,語義分割的發展經歷了從“機器學習為基礎”到“深度學習為基礎”的轉變。如今,CNN的引入已經極大的提升了物件分割的精度和效率;因此,對於構建語義SLAM系統的情況,通常首選基於CNN的解決方案。考慮到語義SLAM系統中語義分割的實際應用,需要研究和網路相關的兩件事(為了進行語義分割)。一件是採用技術指標(包括準確性和有效性),另一件是應用條件(表明一個網路是否適用於視訊分割或者3D影像分割)。這一段主要是描述基於深度學習的語義分割網路,大多遵從上述的思路。
對不同CNN網路進行語義分割的效能對比如表2所示。
B.現代V-SLAM系統
考慮到感測器資料和任務級別的流向,一個V-SLAM系統一般包含兩個部分:前端和後端。如圖所示,視覺里程計和迴環檢測模組同時接收某些感測器所提供的輸入。這裡,視覺里程計的功能是提供預先的機器人位姿估計,迴環檢測模組的功能是提供場景相似度。獲得到的機器人位姿或場景相似度資訊,作為後續機器人全域性優化位姿和地標,以及繪製移動軌跡和環境地圖的源資訊。數學上,前端任務和後端任務可以被分別抽象為“資料關聯”問題和“狀態估計”問題。
V-SLAM系統示意如圖4所示。
前端:資料關聯
前端模組在同一圖片序列中的不同幀,追蹤相同特徵(特徵點或代表性畫素塊)的過程被稱為“資料關聯”。一般而言,早起V-SLAM系統通過特徵匹配來處理“資料關聯”。顯然,對於區域性影像特徵的描述資訊缺失,在很大概率下會導致錯誤的資料關聯,這也就會導致錯誤的位姿和地標估計。一些關注於減少資料關聯中錯誤的研究(例如:隨機樣本共識 RANSAC)被提出,但是尚未真正解決問題仍令其不滿意。之後的研究者開始在概率論角度解決“資料關聯”(也就是, 做出將新特徵分配給跟蹤序列的軟性決定)。關於資料關聯在SLAM問題中的表達,Bowman等人是\(D\triangleq Z\{l_k,x_k\}_{k=1}^K\)表達的支持者,這就表明\(Z_k\)(下標\(k\)表示\(k\)th)是獨立於\(x_k\)(相機姿態)和\(l_k\)(地標位置)。之後就採用最大估計概率(MLE)來解決\(D\)。
概率資料關聯充分考慮了特徵分配中的不確定性,並最大程度上減少了錯誤關聯,具體如圖5所示。
後端:狀態估計
Lu等人和Gutmann等人將SLAM問題定義為一共最大後驗估計問題,目標是從一組觀測(\(Z=\{z_1,\cdots,z_k\}\)帶有噪聲)中估計一個變數\(X\)(包括機器人姿態和地標位置)。
\(X^*= \underset {X}{\operatorname {arg\,max}} P(Z|X)P(X)\) (1)
等式(1)遵循貝葉斯定理。\(P(Z|X)\)表示狀態\(Z\)(給定變數\(X\))的可能性,\(P(X)\)表示變數\(X\)的先驗概率,所以後驗概率表示為\(P(Z|X)P(X)\)。這個問題一般化為確定一個分配變數\(X^*\),使得\(P(X|Z)\)最小,並進一步確定變數\(X\)。SLAM問題最為重要的答案之一是由Davison等人提出的,他們首先使用擴充套件卡爾曼濾波器(EKF)進行更新相機和地表點的狀態資訊。與之不同的是,基於集束優化的非線性優化方法,通過將具有約束變數的全域性約束方程進行優化,而不是純粹的迭代求解EKF,來求解最大後驗概率估計問題。相比而言,基於EKF的SLAM方法在處理小範圍場景應用的情況下比基於優化方案的SLAM方法具有更高的效率;但是,對於大範圍場景應用下,基於過濾的SLAM方法由於需要計算較大的協方差矩陣而造成效能表現欠佳。
開源V-SLAM系統。一般的,V-SLAM系統可以通過相機型別進行分類,包括但不僅限於:單目,雙目和RGB-D相機。作為詳細的比較,作者堅信,對於一個V-SLAM框架評價的關鍵點,包括,是否能夠稠密建圖和迴環檢測,是否支援大量感測器,是否具備實時處理的效能。重要的是,為了簡化目前語義SLAM的設計,許多研究之間參考了完善的V-SLAM框架。
表3進一步總結了它們的特性,包括前端,後端,重定位,迴環檢測等等相關描述。
III.人機環境互動:感知
我們認為在語義SLAM領域中的感知定義應該包含兩個方面:對環境的理解和對人的理解。毫無疑問,一個環境模型(也被定義為環境地圖)將會在這兩個過程中發揮重要作用。
表4主要總結了一些語義地圖的研究。
語義地圖
語義地圖在一個寬廣的場景下可分類為物件級別和畫素級別。以前的研究建立了物件級別的語義地圖的原始概念,即將提前建立好的已知物件的3D模型插入到無意義的稀疏點雲地圖中。很不一樣的是,一些研究嘗試通過一些傳統的工具構造優越的畫素級語義地圖,比如:SVM(即使SVM一般被用在解決工業中的預測,分類和診斷問題),CRF,並且至今,因為這些工具被認為在物件識別和場景分割方面具有重要作用。但是,大部分情況下,這些有限制的工具不能滿足分類的準確性要求。受到深度學習的啟發,出現越來越多的基於CNN的物件識別、檢測和分割的研究。因此,這些大量的成就為構建更多的畫素級語義地圖提供了保證。Li和Delaroussi提出了一個方法,即融合目前最先進語義分割的策略(即DeepLab-v2)和V-SLAM框架(大型直接單目,LSD-SLAM)。它的成功在於,通過一個多視單目相機構建一個半稠密的3D語義地圖(區別於Mccmac等人的使用RGB-D相機構建的稠密3D語義地圖)。值得注意的是,這個融合方案反過來,對於更大範圍的2D單視角的語義分割方法有很大的效能提升。明顯的,SLAM從本質上提高了語義分割的準確性。
2. 公開問題
時變語義地圖。語義地圖為高階語義理解打下基礎,但是遠不能達到滿足長期魯棒定位的使用。一個理想的解決方法,是構建一個時變語義地圖,因為一個模型對於所關注場景下的物件的時空關係不能被建立,和後續物件的空間變化(即運動)不能被預測這一事實。因此,我們相信,通過引入時變語義地圖有助於長期動態定位。我們也相信,考慮到時空關係的原因,這些時變語義地圖的基礎就是一些人工智慧的方法。據我們所知,目前語義SLAM很少涉及這方面的研究。
全景語義地圖。據上述討論,基於CNN的語義分割會得到更細粒度的結果。即使看起來足夠精細,但是對於某些特定目的,分割區域不是很小的情況下(例如,不同型別的車輛不能被識別),某種程度上限制了對於場景感知的理解。在SLAM領域中的例項分割網路的一個重要的貢獻在於,它在同類別的物件中進一步細分例項;儘管如此,這一方法不能適用於不規則的背景下。
全景分割全部包括這兩個分割的優勢,作為CV領域的一個新的方向,它被認為以較好的方式生成一個帶有全域性已知標籤的細粒度結果。因此,全景語義地圖,被認為是研製智慧自主機器人和研究增強顯示背景知識有力而重要的工具。全景融合是全景語義3D重建的首要研究,但是,它不利地忽略了對於基於語義的定位思想的研究。由於語義定位在實際應用中常被忽略的事實,我們堅信,同步關注定位和建圖的語義SLAM框架仍然值得被研究。
Ⅳ.環境適應:魯棒性
如上所述,V-SLAM如今處於魯棒感知的階段。某種程度上,一個重要的語義SLAM關注是“魯棒性”提高。在特徵選擇機制方面和優化資料關聯方面,我們將著重關注魯棒性這一問題。在詳細回顧之前,我們首先總結一下魯棒性提高的相關性研究。
表5總結魯棒性相關研究。
特徵選擇機制
對於特徵點的先驗語義獲取會導致視覺里程計魯棒性的提高。因為我們初始就評估過這些特徵點是否適合特定的任務,因此所選擇的魯棒性特徵會促進更好的機器人自我運動追蹤。更有趣的是,特徵選擇策略可以針對特定變化任務的要求,進行對應的更改。我們將在接下來的內容回顧最近的研究:
- 興趣區域特徵選取。Liang等人提出一個視覺里程計框架,在視覺顯著地圖(由單張影像上每個畫素點的視覺顯著性所定義,越接近紅色,視覺顯著性越高)上進行特徵選取,由語義分割結果進行過濾。
- 內容豐富區域特徵選取。使用從低資訊熵區域提取的特徵點,其位姿估計的準確度較低。同時,對於這些特徵進行追蹤,會導致資料關聯的錯誤率提高。Ganti和Waslander提出一個基於資訊理論的特徵選取方法,通過將語義分割的不確定性概念來計算資訊交叉熵。這一方法導致特徵數量驟減,因此顯著提高了系統的實時效能和魯棒性表現,同時獲得客觀的準確性。
- 動態特徵選取。所提取的特徵點(來自於影像)屬於移動物件(所謂的動態特徵點),大大的降低了V-SLAM系統的魯棒性。幸運的是,高階語義能夠有效地對靜態和動態特徵點進行劃分(所謂的動態劃分),以至於那些在動態場景中使用正機制的V-SLAM系統獲得很高的魯棒性。
優化資料關聯
在V-SLAM框架,考慮到更新頻率,資料關聯可以被分為兩類:短期關聯(e.g.,特徵匹配)和長期關聯(e.g.,迴環檢測)。這樣的機制將最大化資料關聯的可靠性。但是,在迴環檢測失敗的情況下(e.g.,無人車長期行駛在直行道上),視覺里程計會不可逆的漂移,從而導致導航系統的失效。一項語義SLAM的研究,表明影像語義基於中期關聯機制。從實驗角度,這項機制極大減小了視覺里程計在無人駕駛場景下的平移漂移。有幾個問題限制了這種基於影像語義機制的推廣。Bowman等人發現在應用中,這樣的語義關聯有一個缺陷,就是物件語義的不合理資料關聯極大影響了定位和建圖的結果。因此,他們提出了一個所謂的概率資料關聯機制,在處理資料關聯的過程充分考慮不確定性。
公開問題
主流的語義SLAM方法,通過選擇特徵或優化資料關聯來提高視覺里程計的魯棒性。但是,演算法規模的提高,通過純粹的特徵選取或資料關聯優化不能滿足視覺里程計的魯棒性提高。近來,基於CNN的特徵提取器在CV領域得到關注,並且它們可以獲得更多手工特徵設計方案中獲取不到的魯棒視覺特徵。受此啟發,在SLAM領域的研究者如今嘗試通過這樣的學習特徵進行重建視覺里程計,從而最終實現提高視覺里程計的魯棒性。遵循這樣的想法,我們相信,以後會不斷追求提高特徵的穩定性和泛化性,因為這些屬性有助於提高視覺里程計的魯棒性。
Ⅴ.可靠導航:準確性
定位和建圖的準確性,可以衡量一個自主導航系統的可靠性。一般而言,如果需要提高準確性,語義幾乎可以被包含在傳統SLAM演算法框架的所有階段,例如:初始化,後端優化,重定位,迴環檢測等等。在後面章節陳述詳細的討論之前,我們要首先總結語義SLAM相關的研究。
這些研究致力於系統準確性的提高,如表6所示。
單目尺度初始化
由於影像之間沒有絕對的基準,單目V-SLAM系統的尺度不可避免地隨著時間出現模糊和漂移。因此,在開發單目V-SLAM系統初始化中地一個關鍵問題是,如何矯正尺度模糊和漂移。這些問題研究中相同重點是,它們都引入了影像語義地概念。作為影像語義地一種形式,物件的大小被完全考慮在內,並且單目尺度初始化過程被認為更加簡潔有效。在公開資料集上地實驗結果驗證了這些方法在大量應用上的有效性,包括從小範圍地室內場景到大範圍地室外場景。
語義和幾何聯合優化
最緊密地語義和幾何聯合優化框架之一被Bowman等人提出,他們首先提出了概率資料關聯地方法。如果連續和離散資料都涉及到資料關聯任務中,直接使用一個MLE(最大概率估計)方法不能解決問題。因此,作者巧妙地將主要問題分解為多個子問題,就是,他們將所謂的混合關聯分為兩個步驟:離散語義關聯和連續姿態估計。這個兩部聯合迭代計算問題,能夠被經典地期望最大演算法簡單地解決。此外,被物件檢測所提取出的語義最重要的點是,它在後端優化中發揮重要作用。
Linaos等人提出了一個合併SLAM後端中的語義資訊(通過語義分割提取出)。事實是,2D物件邊界不能準確地表達出所匹配地3D物件地邊界,Linaos的方法被認為在實際應用更加有效。最新的研究將2D物件檢測運用到推理3D物件的邊界邊框。從工程角度,這個方法能夠適用於準確度要求較低但是具有實時要求的語義SLAM系統中。
重定位和迴環檢測
重定位和迴環檢測檢測採用相同的技術,但是,它們卻是解決不同的問題。重定位的目標是恢復相機姿態,但是迴環檢測的功能則是獲得幾何一致地圖。不考慮單個技術功能的差異性,我們更加關注這些技術的相同點。因此,這一小段主要是描述基於語義的重定位演算法,大多遵循面向運用的思路。
幾何定位的主要限制在於,對於預先構建好的地圖,長期定位具有難度場景的能力。但是,基於語義的方法是這個具有挑戰性問題的答案。從近來的研究中可見,一項基於語義的交叉推理定位演算法被提出。原則上,幾何定位演算法依賴於影像形狀之間的相似性,並且這明顯受限於研究者,即使影像從相同位置採集,季節的變化足以使所關注的影像表現得不一致,以至於匹配關係變得不可靠。在這種情況下,語義肯定會讓人聯想到,跨季節本地化研究的重要貢獻之一是,單個影像中語義物件的拓撲隨著時間的推移將保持一致。這個跨季節定位方法被應用在無人駕駛中,可以表現出足夠的可靠性。一個新穎的基於圖的語義重定位方法被Gawel提出,在這樣的系統中,帶有語義的關鍵幀被轉化為一組3D圖,並且這些3D圖被用來在預先構建好的環境地圖中進行匹配。處理季節變化,引入的語義資訊同樣解決更大的視點變化或照明變化,甚至部分由於時間引起的場景結構變化。重定位和迴環檢測方案所產生的準確性提升驗證,作為V-SLAM系統的一個附加功能。
公開問題
部分語義SLAM研究者關注基於深度學習方案的流程設計,從而可以搭建一個可訓練的端到端的SLAM系統。近年來,已經有嘗試使用CNNs的方法來估計一張影像的深度資訊。即使可行性得到了驗證,限制CNN泛化能力所帶來的困難仍然是一個固有的不適定問題。一些研究者做出一些努力,即採用一些端到端的方案,在一對影像中聯合估計位姿資訊和相機的移動。此外,Wang和Clark提供一個可替代的方案,就是直接從視訊中推理姿態和不確定性。從他們的實驗中可知,他們已經採用層級式網路設計,伴隨認真的引數配置和充足的訓練,這樣能夠在給定資料集上得到當前最優的準確性。與此同時,反對者仍在爭論管線形SLAM在實際應用中的不良效能;他們在強調“可解釋性”和“泛化效能”的問題。對於此,研究者目前致力於深度學習建模方法,為了更好的解釋下和多維度視覺化。
Ⅵ.討論
在上述章節,主要涉及到語義SLAM的感知、魯棒性和準確性問題。此外,用於提升SLAM效能的技術工具中,一些對應的公開問題被提出。這項調查的主要關注之一,就是從巨集觀角度提出了這個公開問題的解決方法。因此,這個章節主要是巨集觀角度的討論。主要涉及多尺度地圖表達,物件SLAM和弱監督、無監督學習SLAM。
多尺度地圖表達
我們相信,時標地圖有助於機器人的長期自主定位。近幾年來,V-SLAM的倡導者忽略了他們研究者存在的問題。例如,影像序列的時空上下文資訊已經被地圖表達所考慮,這也就不可能重構所希望的時間變化語義地圖。近來,關於RNN的研究,已經表現出構造影像序列中時空上下文的幫助。從我們的觀點,RNN可被用來處理V-SLAM的建圖任務,建圖需要長期的強自主的定位能力。
伴隨著時變地圖(在某個時間段中包含整體的環境資訊),全景語義地圖構成了可被用來進行多尺度表達的主要形式。如果要求使用一個V-SLAM框架來構造一個全景語義地圖,那麼就要在全域性角度分割一個全景語義地圖。作為CV領域的難點之一,多項方法被提出用來解決,在畫素級別上進行分割前景物件,但是前景和背景的統一標定問題仍然存在。所提出的全景語義分割是這類問題的一種解決方案。它通過融合從語義分割和例項分割所獲得的資訊,產生一個全域性一致的標定,這是對於之前獲取到結果資訊的更好的理解。據上述分析,在語言SLAM領域,我們堅信多尺度地圖的發展前景可觀,在高階別人機環境互動和長期自治位置方面具有相同的一般特徵。
物件SLAM
從我們的角度來看,DNNs作為一個新穎的方法,對於提升視覺里程計的魯棒性卻不具備實用性。許多情況下,由於忽視特徵點的魯棒性,過度訓練的DNN方案不但會產生過多的時間損耗,而且在全新場景下的某些SLAM任務中也無法使用。通過建立起對於3D場景下單個物件的單獨跟蹤,它使2D到3D以及單執行緒到多執行緒的高效特徵選擇和資料關聯得以實現,從而切實提高了VO的魯棒性和準確性。
一個可靠的物件SLAM框架如圖6所示。
SLAM++提出最早對於物件SLAM領域的研究。基於物件資料集應該首先被建立的事實,SLAM++仍不適用於線上任務。最近,關於SLAM++的研究可分為兩個方向:一個是CubeSLAM提出的通過立方體描述物件,另一個是QuadricSLAM提出的用橢圓體描述物件。我們詳細物件SLAM有著廣闊的研究前景,並且它的觀點是在3D場景下,整個過程直接追蹤動態目標。伴隨CV領域中3D物件追蹤(包括3D語義估測器)的快速發展,有理由相信它對於建立一個更加高效物件SLAM系統有所幫助。
弱監督和無監督學習SLAM
伴隨資料集的出現,端到端的語義SLAM框架一般會帶來最佳定位精度,但是其可解釋性和泛化性受限於它的廣泛的應用範圍。以DNN為例,泛化能力的減弱同時伴隨著過擬合,這是由於過於細緻的引數配置和訓練過程。因而,基於弱監督或無監督的學習框架被提出,應用來提高DNNs的泛化能力。但是,該項研究仍處於初期階段。事實上,在端到端的SLAM領域,基於無監督的單目深度估計器已經被認為是一個主要研究方向;與此同時,機器學習專家的興趣現在集中在DNN的可解釋性上。這些線索令我們相信,高階的學習策略將是語義SLAM框架的強大而有力的工具。重要的是,可以將語義SLAM管道輕鬆整合到深度強化學習範例中,以構建具有一般智慧的機器人系統。
Ⅶ.總結
對於自主機器人的導航任務,一個致力於更好理解和感知機器人工作中資訊的SLAM系統,已經引起了越來越多的關注。這項總結中,我們回顧了語義SLAM在感知,魯棒性和準確性方面的發展,然後討論了與最新進展和挑戰相關的開放問題。具體而言,我們嘗試從巨集觀的角度尋求對這些公開問題的可能解決方案,並以建設性方式進一步提出建議。我們相信通過實際應用可以證明SLAM框架的完善性,語義SLAM將通過影像語義的顯著融合來區分自己。基於深度學習的方法的發展顯然為研究人員提供了利用其強大的影像處理能力來估計姿勢,檢測環路閉合,構建3D地圖等的機會。 從我們的角度來看,深度學習和語義SLAM現在已經密不可分,並且在未來的研究中必將它們融合在一起。