Robust Loop Closure by Textual Cues in Challenging Environments

Gaowaly發表於2024-10-24

arxiv | 南洋理工大學開源 基於文字線索實現複雜環境中的魯棒閉環檢測 【Robust Loop Closure by Textual Cues in Challenging Environments】

文章連結:[2410.15869] Robust Loop Closure by Textual Cues i...

開源倉庫:GitHub - TongxingJin/TXTLCD: This repository is fo...

在具有挑戰性的環境中透過文字提示實現穩健的迴圈閉合  

摘要:迴環檢測是機器人導航中的一項重要任務。然而,現有的方法大多依賴於環境的一些隱式或啟發式特徵,在走廊、隧道和倉庫等常見環境中仍然無法工作。事實上,在這種無特徵、退化和重複(FDR)的環境中導航即使對人類來說也會構成重大挑戰,但周圍環境中明確的文字提示通常會提供最好的幫助。這啟發我們提出一種基於 FDR 環境中明確的人類可讀文字提示的多模式閉環方法。具體來說,我們的方法首先基於光學字元識別(OCR)提取場景文字實體,然後基於精確的鐳射雷達里程計建立文字線索的本地地圖,最後透過圖論方案識別閉環事件。實驗結果表明,該方法比僅依賴視覺和鐳射雷達感測器的現有方法具有更優越的效能。為了造福社群,我們在 https://github.com/TongshingJin/TXTLCD 釋出了原始碼和資料集。

索引術語——環路閉合、LiDAR SLAM、定位

I. 簡介

  近年來,鐳射雷達慣性里程計(LIO)已成為移動機器人領域的支柱[1]-[3]。值得注意的是,較新的 Livox Mid-360 3D LiDAR 現在的成本與英特爾實感 D455 攝像頭相似,提供更寬的視野、更遠的範圍和更高的精度。在連續定位方面,基於 LiDAR 的方法明顯證明了比傳統視覺 SLAM 更好的準確性和魯棒性,並且消除了大多數應用中對視覺 SLAM 的需求,正如 Hilti SLAM 挑戰 [4] 所反映的那樣。然而,基於LiDAR的閉環檢測(LCD)方法,例如穩定三角描述符(STD)[5]、掃描上下文(SC)[6]和強度掃描上下文(ISC)[7],通常很難找到準確的在退化和重複的環境中匹配。雖然基於視覺的 LCD [8]-[10] 提供了更大的特徵描述符維度,但它們大多數對照明和視點變化敏感。

  儘管具有密集的特徵表示,但基於視覺的 LCD 故障仍然會發生。當處理具有計算限制的無特徵、退化和重複 (FDR) 環境時,LCD 挑戰就會出現。 FDR 環境中 LIO 的高效、簡單且直觀的 LCD 解決方案存在差距,能夠反映類人流程。

  本文中提出的研究從人類經常依賴其環境中的文字線索來確定其位置的觀察中獲得了靈感。事實上,這些文字提示的設計目的通常是幫助人類在 FDR 環境中導航(圖 1),並且可以採用多種形式,例如尋路標誌、銘牌和其他形式的基於語言的標牌。 TextSLAM [11]、[12] 是第一個將場景文字緊密整合到視覺 SLAM 管道中的方法,並在文字豐富的商業廣場中展示了其有效性。與他們的方法相比,我們的方法進一步利用場景文字的空間結構來驗證迴環的真實性,同時在文字密度適中的環境中有效執行,這是大多數現實世界場景的典型。

 圖 1. 常見的 FDR 場景示例,其中人類使用可讀的文字符號及其空間排列自然地進行導航。

這啟發我們使用文字提示來理解全球位置。

  基於這一靈感,我們提出了一種多模態 (MM) 閉環解決方案,該解決方案利用 FDR 場景中的場景文字提示。具體來說,我們採用成熟的視覺光學字元識別(OCR)技術來檢測當前位置附近存在的場景文字實體,然後基於低漂移​​LIO,建立本地文字實體對映(LTEM)來編碼這些文字的特殊空間排列,可以用作驗證候選閉環真實性的令牌。後端位姿圖將引入閉環約束,以增強典型 FDR 環境中狀態估計的魯棒性和準確性。我們的工作貢獻可概括如下:

  1)我們透過融合鐳射雷達和視覺資料,引入了一種新穎的文字實體表示、估計和管理方法,該方法支援高效的閉環檢索和對齊。

  2)我們提出了一種用於同一文字實體觀察的關聯方案,然後用於建立閉環並提高狀態估計準確性。特別是,我們採用圖論方法來識別候選閉環的真實性。

  3)我們將我們的方法與LiDAR里程計相結合,形成SLAM框架,並進行廣泛的實驗,以證明其與最先進的(SOTA)方法相比的競爭效能。

  4)我們釋出原始碼和調查分級的高精度資料集,以造福社群。

  二.相關工作

  用於全球定位的視覺和鐳射雷達融合是感知任務中的一個常見問題,該問題已在各種先前的研究中得到解決。

  傳統上,全域性定位可以透過視覺里程計或SLAM方法來實現。然而,視覺方法在處理無特徵區域、光照變化和遠處物體時往往缺乏魯棒性[13]。通常,視覺因素必須輔以其他因素,例如 IMU 或 UWB [14],以提高效率和魯棒性。最近,LiDAR 方法已成為前端里程計估計的主流,因為與大多數與視覺融合的實時方法相比,LIO [1]、[3] 始終能產生優異的結果。隨著基於 LiDAR 的新型低成本解決方案的出現,基於視覺的方法在機器人定位中的受歡迎程度已經下降 [4]。

  實現全域性定位的另一種方式是透過LCD。傳統上,基於視覺的方法是主流,具有手工製作的特徵。 DBOW2 [8]使用基於BRIEF特徵[15]的二進位制視覺詞模型改進了實時LCD。近幾十年來,基於學習的方法[9]由於在處理視點和外觀變化方面具有更好的效能而在LCD中佔據主導地位。作為[9]的擴充套件,[10]中提出了一種基於最佳交通聚合的視覺地點識別模型,在許多基準上取得了SOTA結果。然而,由於有限的幾何理解、FDR 環境和照明的變化,基於視覺的 LCD 仍然遠非完美。

  最近,基於鐳射雷達的LCD方法在現場機器人領域得到了廣泛的探索,以實現精確的幾何測量和照明不變性。 SC系列目前被認為是基於LiDAR的LCD最流行的方法[6],[16],其主要思想是採用投影和空間分割槽來編碼整個點雲,後來的工作透過整合對這一思想進行了改進強度[7]和語義資訊[17]。然而,這一系列方法無法估計候選幀之間完整的 SE3 相對姿勢,並且依賴里程計姿勢來拒絕錯誤迴圈,從而使它們容易受到顯著的里程計漂移的影響。

  STD [5] 提出透過聚合區域性點特徵來建立基於三角形的描述符,使用每條邊的長度作為雜湊表中的鍵,透過投票方案找到閉環候選者。最近的工作被稱為二元三角組合(BTC)[18],將 STD 與二元模式相結合,以提高速度和視點不變性。 BTC 目前處於搶先體驗階段,尚未可用於開源驗證。然而,這些方法在 FDR 場景中遇到了困難,其中相似的空間形狀、強度和語義可能會導致迴圈閉合中的歧義。

  TextSLAM [11]、[12] 是第一個將場景文字緊密整合到基於點的視覺 SLAM 框架中的。它選擇觀察最可見文字物件的前十個歷史關鍵幀作為迴圈閉合的候選者。共可見性要求需要多個文字物件在迴圈閉合框架中可見,這限制了其在現實環境中的適用性。為了克服這個限制,我們藉助低漂移 LIO 建立本地文字實體圖,並使用場景文字的空間排列檢查候選閉環的真實性,從而使其在具有中等文字密度的更常見場景中有效。

  三.方法

  在本節中,我們描述將場景文字表示為具有內容和姿勢屬性的文字實體並在 LiDAR 幀中觀察它們的過程。然後,我們解釋在文字觀察之間建立關聯關係並使用圖論方法識別候選閉環真實性的原理。我們方法的工作流程如圖2所示。

圖 2. 基於文字提示的迴圈閉合的pipeline。相機和鐳射雷達資料被融合以估計文字實體姿勢並建立對場景文字的特定排列進行編碼的本地文字實體地圖。

應用一種新穎的圖論方案來驗證從線上資料庫檢索的候選閉環的真實性,並且每當新的閉環閉合時就執行位姿圖最佳化,以減輕累積里程計漂移並確保全域性地圖的一致性。

  符號:我們定義了四個主要座標系:世界座標系W、LiDAR座標系L和相機座標系C。我們使用TW Lt來表示LiDAR在世界座標系中的SE3位姿在時間戳t。為了簡單起見,我們可以省略世界座標系的上標W,並將它們重寫為TLt和TL。另外,後端位姿圖最佳化採用LiDAR位姿{TLt}tn t=t0作為節點。類似地,T L C 將用於表達相機和鐳射雷達之間的外在引數,TC文字和TL文字分別是在相機和鐳射雷達幀中表達的文字實體姿態。

  A.文字實體觀察

  我們將場景文字抽象為包含兩個屬性的文字實體:文字內容和SE3位姿。文字內容是指可以透過OCR實現的文字字串,而位姿觀測是透過相機和鐳射雷達測量的融合來實現的。

  1)文字內容解讀:OCR是一種成熟的技術,它首先以多邊形的形式定點陣圖像中的文字區域,然後將感興趣的區域轉換為可讀的文字內容。在我們的實現中,我們採用 AttentionOCR [19] 來提取場景文字,它提供置信度分數來幫助過濾掉不可靠的識別結果。

  2)文字實體表示:受TextSLAM [11]、[12]的啟發,可以合理地假設場景文字實體通常位於平坦表面或區域性平面上。例如,佈告欄上的通知、房間號、消防設施上的銘牌以及緊急出口標誌。如圖3所示,我們定義場景文字區域左邊緣的中點作為文字實體的原點。 x 軸指向文字右邊緣的中點,z 軸與區域性平面的法線方向對齊並指向相機,y 軸由右手定則確定。

圖 3. 文字實體表示的圖示

  3)姿態估計:為了估計相機幀中文字實體的 SE3 位姿,我們首先將過去一秒的 LiDAR 掃描累積到本地點雲地圖中並透過鐳射雷達和相機之間的外部引數將其投射相機框架中:

  其中pL是LiDAR座標系中的LiDAR點座標,TC L是LiDAR和相機座標系之間的外參,pC是相機座標系中的點座標。然後,LiDAR點將進一步投影到影像座標中:

 其中K是相機的本徵矩陣,[u,v]⊤是LiDAR點所在的畫素座標。

  由於場景文字通常附加到區域性平面,因此可以透過 RANSAC 在文字所在區域內檢測到的點集上估計相機幀中的平面引數。我們將相機框架中的平面表示為:

  其中n是平面的法線,p是平面上的任意點,d是相機光心到平面的距離。給定平面引數 (n, d) 和點 pC 的投影座標 [u, v],可以如下恢復該點的深度:

  OCR 檢測到的每個文字實體都帶有一個邊界框。我們將邊界框左側和右側的中點分別表示為 pC l 和 prC 。我們選擇 pC l 作為文字實體的位置,nx ≜ pC r −pC l ∥prC −pC l ∥ x 軸的單位向量。因此,文字實體的姿態矩陣定義為:

  由於相機和鐳射雷達是不同的模態感測器,並且在不同的時間點觸發,因此文字實體將進一步錨定到影像時間戳 tj 之前時間戳 ti 的最新鐳射雷達幀中,其在鐳射雷達幀中的 SE3 位姿將表示為:

  其中 ti 和 tk 分別是影像時間戳 tj 之前和之後最近的兩個 LiDAR 時間戳。 interpolate(T , s) 是恆等變換和 T 之間按因子 s ∈ (0, 1) 進行的線性插值; T Li 文字是文字實體在其錨定 LiDAR 框架中的 SE3 位姿。為簡單起見,今後我們將僅處理文字實體相對於 LiDAR 幀 T L 文字的姿態。

  B.文字觀察管理

  為了支援有效的迴圈閉合儲存、檢索和對齊,我們將所有歷史文字實體觀察儲存在文字實體觀察資料庫中,該資料庫由文字字典和由雜湊對映實現的框架字典組成(圖1)。 2)。文字字典使用文字字串作為鍵,所有觀察文字內容的鐳射雷達幀的索引以及它們估計的文字實體姿勢作為值,這使得能夠快速檢索觀察特定文字內容的候選幀。幀字典利用幀索引作為鍵,使用該幀中所有觀察到的文字實體的內容和估計姿勢作為值,有助於建立候選幀附近的本地文字實體地圖。

  C. 基於文字實體的迴圈閉合檢測和對齊

  在各種環境中發現了多種場景文字,提供了對相關實體的功能和位置的見解。與二維碼或其他地標不同,場景文字的優點是不需要專門部署,並且可以與人類導航無縫整合。我們將場景文字分為兩類:ID 文字和通用文字,其中 ID 文字是類似地址的文字,可以幫助我們識別特定的房間或物件,通用文字是其他一切,例如退出、危險、電源。基於文字實體,我們應用不同的閉環檢測策略。

  1)ID文字:ID文字是指遵循人類設計的特殊約定的文字,用於識別建築物或地圖內的特定物件。例如,S1-B4c-14表示S1棟,地下四層(地下一層),c區,14號房間,而S2-B3c-AHU3則表示S2棟,地下三層,c區,14號房間。空氣處理單元3。可以根據應用環境的預定義模式挑選出此類文字。

  ID文字通常被設計成具有排他性,例如門號或裝置號,因此在不同時間重複檢測到相同的ID文字內容表明閉環的可能性很高。當前和候選閉環姿勢 TLi 和 TLj 之間的相對姿勢先驗 ̄ T Li Lj 計算如下,

  然而,ID 文字也可以在不同位置有多個例項,例如,一個房間可能有多個具有相同編號的門。因此,我們使用 ICP 檢查來排除這種情況下的錯誤迴圈候選。此外,ICP可以提供更精確的相對位姿先驗(9),這有利於全域性位姿圖最佳化任務。

  2) 通用文字:一般來說,場景文字的很大一部分不指示專有位置資訊,並且可以在場景內多次出現,例如,退出、禁止停車和停止。此類文字實體的關聯可能是不明確的。為了解決這個問題,我們透過聚合當前位置附近的文字實體來建立本地文字實體地圖(LTEM)。這樣的 LTEM 對空間排列進行編碼,並且可以用作當前姿勢的標記,以驗證候選迴圈與其他姿勢的真實性,我們將在下面解釋。

  具體來說,LTEM 是一組由一組 LiDAR 里程計姿勢觀察到的所有文字實體,包括 ID 文字和通用文字。假設在當前姿態Tc(下標c代表當前),我們觀察到一個文字實體Ec。我們將 Mc 定義為 LTEM,其中包含透過連續姿勢 Tc = {Tc−w 觀察到的所有文字實體。 。 。 Tc},其中 Tc−w 是距 Tc 一定距離 d 內的最早姿勢。請注意,Mc 可能包含其他文字實體,其內容(即文字字串)與 Ec 不同。

  然後,我們使用 Ec 的內容從文字字典中搜尋看到具有相同內容的文字實體的所有過去姿勢。讓我們將這些姿勢的集合表示為 T 。對於每個候選先前姿勢 Tp ∈ T ,我們將 Ep 表示為與 Tp 觀察到的 Ec 具有相同內容的文字實體。然後,我們構建由連續姿勢 Tp = {Tp−w 觀察到的所有文字實體的 LTEM。 。 。 Tp+v},其中 Tp−w 和 Tp+v 分別是距 Tp 相同距離 d 內最早和最晚的姿勢。我們將此 LTEM 表示為 Mp(圖 4)。

  給定 Mc 和 Mp,我們將構造一個關聯關係集 A ≜ {ai, . 。 。 } = {(Ec i ,Ep i ), . 。 。 },其中 Ec i ∈ Mc,E p i ∈ Mp,並且 Ec i ,Ep i 具有相同的文字內容。集合 A 稱為推定關聯集合。顯然,A可能由於一些重複的文字內容而包含不適當的關聯。如圖 4 所示,關聯 a1、a2 和 a3 是互斥的,因為它們試圖將來自 Mc 的相同文字實體與來自 Mp 的三個不同實體相關聯。

  A 中這些假定關聯之間的親和關係可以用一致性圖 G 表示,如圖 5(a)所示。一致性圖中的節點對應於圖4中的假定關聯,任意兩個節點 ai 和 aj 之間的連線表示它們的相容性,線條的深色進一步表示透過以下方式評估的幾何一致性得分:

  其中 pi 和 qi 是 ai 關聯的兩個文字實體的位置,pj 和 qj 是 aj 關聯的文字實體的位置,∥·∥表示向量的歐幾里德範數,s : R → [0, 1] 是損失函式如果 x > ε,則滿足 s(0) = 1 且 s(x) = 0,其中 ε 是閾值。這個分數表明一個 LTEM 中兩個實體之間的距離應與另一個 LTEM 中對應實體之間的距離相匹配,因為 LTEM 內的 LiDAR 里程計漂移可以忽略不計。

  接下來,我們要找到一個全連線子圖 G* ⊂ G(圖 5(b)),以及它們的節點子集 A* ⊂ A,使得 A* 中的任意一對關聯 ai 和 aj 相互一致。這個問題是最大團問題的一個變體,CLIPPER [20]將該問題表述為尋找最稠密的子圖 G*。在這項工作中,我們使用 CLIPPER 來解決這個問題。

  一旦集合 A* 被識別為至少具有三個元素並且 (Ec, Ep) ∈ A*,兩個實體 Ec 和 Ep 就可以用於構造相對位姿約束 ̄ Tp c 用於閉環,類似於 (9 )。然後我們迭代 T 中的所有其他姿勢以找到所有可能的閉環約束 ̄ Tp c 。演算法1總結了一般過程。

  我們注意到,在上面的多模態 LCD 和對齊方案中,LIO 輸出與視覺檢測資訊緊密整合,首先是文字實體姿態的估計,其次是 LTEM 的構建。 LIO 短期導航的高精度對於我們方法的效能至關重要,而 VIO 無法實現,因為它的深度感知較差,定位漂移較大。

圖 4. 兩個 LTEM 之間的假定關聯。 LTEM Mc 和 Mp 包含一組分別由連續 LiDAR 位姿 Tc(綠色軌跡)和 Tp(藍色軌跡)觀察到的文字實體。具有相同文字內容的文字實體由相同顏色的球表示,透過紫色線連線以指示兩個 LTEM 之間的假定關聯。 Mc 中唯一的 EXIT 與 Mp 中的三個不同實體相關聯。雖然關聯 a1 是唯一正確的關聯,但 a2 和 a3(由紫色虛線表示)應該被我們的圖論閉環驗證方法拒絕。

圖 5. 一致性圖。線條的黑色表示連線的兩個節點(假定的關聯)之間的幾何一致性。

四.實驗

  在本節中,我們討論資料集的開發以及與現有 SOTA 方法的比較。我們所有的實驗都是在配備 Intel i7-10875H CPU @ 2.30GHz 和 NVIDIA GeForce RTX 2060 GPU 的膝上型電腦上進行的。我們實驗的影片摘要可以在摘要中列出的專案頁面上檢視。

  A. 資料集和實驗設定

  據我們所知,收集的資料集很少關注文字提示。我們注意到,在[11]中,文字提示足夠多,但是由於沒有可用的鐳射雷達資料,我們無法制作精確的本地文字實體圖。另一個關鍵要求是相機和鐳射雷達視場需要有足夠的重疊。由於這些要求,我們發現沒有公共資料集可用於基於文字的視覺鐳射雷達閉環研究。

  為了填補這一空白,我們為重複和退化場景中的多模態 LCD 開發了高質量的資料集。我們的設定包括解析度為 1920 × 1080 的相機、Livox Mid360 LiDAR 及其嵌入式 IMU。對於地面實況,我們使用 Leica MS60 掃描器建立環境的高精度先驗點雲圖,然後將 LiDAR 點雲與這些先驗地圖配准以獲得地面實況軌跡,類似於 [4]、[21]、[ 22]。總共從 3 個不同的 FDR 場景收集了 8 個資料序列:室內走廊、半室外走廊和距離從 200 米到 500 米的跨樓層建築物。它們的軌跡如圖6所示。

圖 6.我們資料集中軌跡的圖示。藍線表示正常路徑,而紅線表示環路閉合事件的位置(第 IV-B.1 節)。序列1、2、3和4、5、6在同一樓層捕獲,而序列7和8則穿過不同樓層和垂直樓梯。在(a)、(b)、(c)、(d)中,我們在序列 1 和 4 中的不同走廊上展示了非常相似的場景。

  我們將我們的方法與其他流行的開源 SOTA 作品進行比較,包括 SC [6]、ISC [7] 和 STD [5]。為了保證實驗的公平性,我們將FAST-LIO2[1]與不同的閉環方法整合,形成完整的SLAM系統進行評估。我們嘗試保持所有引數不變,除了 ikdtree 圖大小設定為 100m × 100m,解析度為 0.2m,掃描以體素解析度 0.1m 下采樣。

  雖然我們的方法旨在解決 FDR 場景中的 LiDAR 閉環問題,但我們還將資料集的影像序列輸入 DBoW2 [8] 和 SALAD [10] 以評估其召回率和精度效能,因為我們的方法使用相機來檢測文字。

  B. LCD 召回和精度分析

  1) 真實閉環事件:根據地面真實姿勢,我們將評估每個姿勢以確定是否應該發生閉環檢測。具體來說,考慮一個姿勢 Tk,我們找到集合 Nk ≜ {Tp : ∥Tk ⊟ Tp∥ < τ ∧ S(Tk, Tp) > 10m, ∀p < k},其中 τ 是歐幾里德距離閾值,我們將其設定為我們的實驗中為 1.0m 和 1.7m,行進距離 S(Tk, Tp) ≜ Pk−1 i=p ∥Ti+1 ⊟ Ti∥。如果 Nk ̸= ∅,則 Tk 被標記為閉環姿勢。

  對於每種閉環方法,我們評估其召回率和精確率。基於上述 Nk 的檢查,該方法在位姿 Tk 處的預測可以是 TP、FP、TN 或 FN。因此,召回率是比率 P T P/(P T P + P F N ),準確率是比率 P T P/(P T P + P F P )。

 2) 召回:如表所示。 I,當τ=1.0m時,SALAD達到最好的召回效能,大多數情況下超過70%。我們的方法和 SC 都顯示出有競爭力的結果,召回了 4 個序列中超過 50% 的迴圈。限制我們召回效能的主要因素是 OCR 模組的可重複性,這是指它能夠在同一文字實體的多次觀察中一致地檢測到相同文字字串結果。

  ISC和STD的召回率最低,通常低於10%,因為它們設定了更嚴格的閾值來確認真正的閉環,因此與SC相比,準確率相對更高。

  在環路閉合的情況下,較高的召回率可能並不表明兩種方法之間具有決定性的優勢,因為為每個重複走廊檢測至少一個準確的環路足以顯著減少里程計漂移。然而,精度更為關鍵,因為錯誤的閉環可能會破壞全域性姿態估計和地圖構建。在秒。 IVC,將檢測到的迴圈納入位姿圖最佳化階段時,可以透過有效減少絕對平移誤差來驗證召回的充分性。

  3)精度:如表1所示,當τ = 1.0m時,SALAD表現出了具有競爭力的效能,獲得了5個第二名的成績,而ISC則脫穎而出,成為最有效的純鐳射雷達閉環方法,在4個序列中實現了80%以上的精度率。 DBoW 在序列 1 和序列 2(室內走廊)中表現良好,準確率超過 80%。然而,在序列 4 和 5 中,效能顯著下降至 40% 左右。我們的 FDR 資料集對於 DBoW 來說確實具有挑戰性,因為它錯誤地在相似位置(例如 (a) 和 (b)、(c) 和 ( d) 如圖6所示,即使對於人類來說也是可能很難區分。

  序列7和序列8的多層建築是典型的重複場景,不同樓層的佈局非常相似,如圖6(c)和(d)所示。事實上,有些人可能還會發現,如果沒有文字指示器的幫助,很難區分走廊。所有比較方法的一個顯著缺點是它們容易產生災難性的錯誤閉環。圖7顯示了序列8中幾種方法生成的部分軌跡。ISC和STD都錯誤地將來自不同樓層的幀關聯為閉環,導致它們的軌跡偏離真實值。然而,我們的方法仍然可以使用房間或裝置編號作為文字提示來區分不同的樓層,避免形成錯誤迴圈的風險。

圖 7.STD 和 ISC 軌跡與地面真實情況顯著偏離,綠色虛線箭頭表示收斂方向。相比之下,我們的軌跡始終接近真實情況。

  此外,與完全重疊的序列相比,所有 SOTA 方法的精度在部分重疊的序列中顯著下降,即使它們是從相同的環境中收集的,即序列 3 與 1-2 和序列 6 與 4-5。這揭示了它們預測錯誤閉環的傾向,當軌跡重疊相對較低時,這種傾向變得更加明顯。

  相比之下,我們的方法始終實現最佳效能,並在所有序列上獲得超過 95% 的高精度,這得益於我們的圖論閉環識別方案,該方案有效地利用了文字實體的空間排列。效能不完美的原因是我們設定了一個嚴格的閾值 τ = 1.0m 來確定環路閉合的發生率,如下所示。在 IV-B.1 中。如果閾值稍微放寬到1.7m,我們的方法可以達到100%的準確率,同時保持相同的召回率,如表1所示。

  C.位姿圖最佳化誤差評估

  我們以FAST-LIO2作為前端里程計,在檢測迴環的同時進行全域性位姿圖最佳化。 FDR 環境對視覺里程計或 ORB-SLAM [23] 等 SLAM 方法提出了重大挑戰,因為許多影像是面向牆壁捕獲的,幾乎沒有可連續提取或跟蹤的特徵。同時,視覺方法SALAD並不是為閉環設計的,不能直接輸出相對位姿估計以供後續的全域性位姿最佳化。因此,我們僅分析不同 LiDAR LCD 方法與 EVO 評估的 FASTLIO2 整合時的位姿誤差 [24]。

  如表二所示,透過利用迴圈閉合的文字提示,我們的方法有效地最小化了所有資料集的里程計漂移,始終實現最低的平均翻譯誤差。相比之下,ISC 和 STD 經常報告錯誤的閉環,導致與里程計姿勢相比平均誤差更高。我們資料集中的主要挑戰是其對稱和重複的佈局,如圖 6 (a)-(d) 所示。

  儘管我們避免在 10m 行進距離內的相鄰姿勢之間形成閉環,如 IV-B.1 中所述,但 SC 可以檢索行進距離略大於此閾值的姿勢之間的迴圈,並在之前引入非相鄰姿勢之間的相對姿勢約束迴圈是閉合的,與其他方法相比,SC 的平均翻譯誤差更小。

  除了平均翻譯誤差之外,圖8還顯示了不同方法在3個序列中的誤差分佈。很明顯,我們的方法始終實現最低的誤差。與其他方法相比,它是上限,因為我們的方法建立的所有迴圈都是真實的,並且不會在位姿圖中引入錯誤的約束。此外,我們的定位誤差的分佈在不同序列中保持一致。

  圖 8. 平均誤差分佈

  D. 執行時分析

  我們分別評估序列 1、4 和 7 中方法的不同階段的時間成本。結果如表 III 所示,表明 OCR 是最耗時的部分。不過,將來可以用其他 OCR 方法替代。

V. 結論

  為了填補 FDR 場景中現有導航方法的空白,我們提出了一種迴環方案,該方案利用受人類導航啟發的場景文字提示。我們的方法融合鐳射雷達和視覺資訊來觀察環境中的文字實體,並透過圖論方案識別候選閉環的真實性。我們收集了 FDR 場景中的多個資料集,並進行了全面的比較實驗,以證明我們的方法的競爭力。我們的開原始碼和資料集將可供社群使用。

附:

一、介紹一下什麼是OCR技術?

視覺光學字元識別(Optical Character Recognition,簡稱OCR)技術是一種將不同質量的掃描影像轉換成可編輯文字格式(如PDF、Word等)的軟體技術。它能夠識別和處理印刷體文字、手寫文字以及場景文字。OCR技術廣泛應用於文件掃描、票據識別、車牌識別、證件資訊提取等領域。

OCR技術的基本流程包括以下幾個步驟:

1. **影像預處理**:包括去噪、二值化、傾斜校正等,目的是提高影像質量,使文字更易於識別。

2. **文字檢測**:定點陣圖像中的文字區域,確定文字的位置和形狀。

3. **字元分割**:將檢測到的文字區域分割成單個字元。

4. **字元識別**:對分割後的字元進行識別,轉換成對應的文字字元。

5. **後處理**:包括校驗、糾錯等步驟,提高識別的準確性。

6. **輸出**:將識別結果輸出為可編輯的文字格式。

隨著深度學習技術的發展,OCR技術在識別準確率和處理速度上都有了顯著提升。現在,許多OCR服務提供商都採用了基於深度學習的模型,如卷積神經網路(CNN)和迴圈神經網路(RNN),以提高對複雜場景和不同字型的識別能力。

如果你需要將紙質文件轉換成電子文字,可以使用市面上的OCR軟體,如Adobe Acrobat、ABBYY FineReader等,或者使用線上OCR服務。這些工具通常都提供了使用者友好的介面,使得文件轉換變得簡單快捷。

二、介紹一下什麼是基於LiDAR的閉環檢測(LCD)方法

基於LiDAR的閉環檢測(Loop Closure Detection, LCD)是SLAM(Simultaneous Localization and Mapping,即同步定位與建圖)系統中的一個關鍵環節,其目的是識別機器人在環境中的重複訪問位置,以糾正由累積誤差引起的地圖和軌跡漂移問題。以下是一些基於LiDAR的閉環檢測方法的介紹:

1. **OverlapNet**:
- 由德國波恩大學Photogrammetry and Robotics Lab開源的OverlapNet是一種用於鐳射雷達SLAM中閉環檢測的程式碼。
- 無需先驗位姿資訊,使用深度神經網路直接估計兩個鐳射雷達掃描的重疊率和相對偏航角。
- 結合里程計資訊和重疊率預測實現閉環的檢測和修正。
- 可以在挑戰性環境下估計迴環資訊,並在不同資料集上具有良好的泛化效能。

2. **LCDNet**:
- LCDNet是一個端到端的系統,旨在解決自動駕駛汽車和其他移動機器人中的閉環檢測問題。
- 透過深度學習和幾何方法的結合,LCDNet能夠有效地檢測潛在的迴圈閉合並執行點雲間的匹配。
- 它包含一個深度神經網路架構,能高效處理點雲資料,識別潛在的迴圈閉合場景,幷包括一個快速的點雲註冊模組。

3. **Voxel-SLAM**:
- 香港大學提出的Voxel-SLAM是一個完整、精確和通用的鐳射雷達-慣性SLAM系統。
- 充分利用短期、中期、長期和多地圖資料關聯,實現實時估計和高精度製圖。
- 閉環檢測透過利用長期資料關聯減輕漂移,並透過位姿圖最佳化來校正累積誤差。

4. **基於點雲的閉環檢測方法**:
- 一種快速完整的基於點雲閉環檢測的鐳射SLAM系統,透過計算關鍵幀的2D直方圖和區域性地圖patch來檢測閉環。
- 使用2D直方圖的歸一化互相關作為當前關鍵幀與地圖中關鍵幀之間的相似性度量,快速且具有旋轉不變性。

5. **基於多尺度點雲特徵變換器的LiDAR-SLAM閉環檢測**:
- 提出了一種基於多尺度點雲特徵提取和變換器全域性上下文建模的閉環檢測方法。
- 利用體素稀疏卷積獲取不同解析度下的原始點雲特徵,並利用Transformer網路建立不同解析度下特徵之間的上下文關係。

6. **基於強度資訊的LiDAR SLAM和閉環檢測**:
- 提出了一種新穎的基於強度的LiDAR-SLAM框架,強調了鐳射雷達強度資訊在稀疏特徵環境中的重要性。
- 使用強度圓柱投影形狀上下文描述符進行閉環檢測,並採用雙值迴圈候選驗證策略。

這些方法展示了閉環檢測在LiDAR SLAM中的多樣性和深度學習技術的融合,以提高閉環檢測的準確性和魯棒性。隨著研究的深入,這些方法在自動駕駛、機器人導航等領域的應用前景十分廣闊。

相關文章