TILDE: A Temporally Invariant Learned DEtector學習筆記

耳火菜菜發表於2020-12-15

TILDE: A Temporally Invariant Learned DEtector

Abstract

我們介紹了一種基於學習的方法來檢測可重複的關鍵點,在天氣和光照條件的劇烈變化下,最先進的關鍵點探測器是驚人的敏感。我們首先從同一視點拍攝的多幅訓練影像中識別出好的關鍵點候選者。然後我們訓練一個迴歸器來預測一個分數圖,它的最大值就是這些點,這樣就可以通過簡單的非最大值抑制來找到它們。
由於沒有標準的資料集來測試這些變化的影響,我們建立了自己的資料集,我們將公開這些資料集。我們將證明,我們的方法在如此具有挑戰性的條件下顯著優於最先進的方法,同時在未經訓練的標準資料集上仍然達到最先進的效能。

1.Introduction

關鍵點檢測與匹配是解決影像檢索、目標跟蹤、影像配準等計算機視覺問題的重要工具。自從20世紀80年代引入Moravec、FoĔrstner和Harris角探測器以來,已經有許多其他探測器被提出。當尺度和視點發生變化或影像模糊時,有些具有極好的可重複性。然而,如圖1所示,當在一天的不同時間和不同的天氣或季節在室外獲取影像時,它們的可靠性顯著降低。這是一個嚴重的障礙,當試圖匹配在晴朗和惡劣的天氣,早晚,冬季和夏季拍攝的影像,即使是照明不變的描述符。
在本文中,我們提出了一種學習關鍵點檢測器的方法,該檢測器提取在這種具有挑戰性的條件下穩定的關鍵點,並且允許在像圖1所示的那樣困難的情況下進行匹配。為此,我們首先介紹一種簡單而有效的識別訓練影像中潛在穩定點的方法。然後我們用它們來訓練一個迴歸器,這個迴歸器產生一個得分圖,它的值是這些位置的區域性極大值。通過在新影像上執行它,我們可以通過簡單的非最大值抑制來提取關鍵點。我們的方法受到最近提出的一種演算法的啟發,該演算法依賴於迴歸來從線性結構影像中提取中心線。為了達到這一目的,我們需要開發一種對複雜的外觀變化具有魯棒性的新型迴歸器,以便能夠高效、可靠地處理輸入影像。
正如機器學習成功地應用於描述符和邊緣檢測一樣,學習方法以前也被用於關鍵點檢測中,以減少在尋找與手工製作方法相同的關鍵點時所需的運算元量。然而,儘管進行了廣泛的文獻檢索,我們只發現了一種方法,它試圖通過學習來提高關鍵點的重複性。該方法側重於學習一個分類器來過濾出最初檢測到的關鍵點,但效果有限。這可能是因為他們的方法是基於純分類的,也因為首先要找到好的關鍵點由分類器學習是非常重要的。
總之,我們的貢獻有三個方面:
1.我們介紹了一種新的基於迴歸的方法“時間不變學習檢測器”(TILDE)來提取在天氣、季節和時間變化引起的劇烈光照變化下可重複的特徵點。
2.我們提出一種有效的方法來產生所需的訓練集「好的學習要點」
3.我們建立了一個新的benchmark dataset,用於在不同時間和季節拍攝的室外影像上評估特徵點探測器。

Related Work

手工製作的關鍵點探測器大量的工作致力於開發更有效的特徵點探測器。儘管20世紀80年代出現的方法仍在廣泛使用,但此後又出現了許多新方法。在一般螺旋模型的基礎上,提出了使用結點和水滴的SFOP探測器。而涉水檢測器利用對稱性來獲得可靠的關鍵點。使用SIFER和D-SIFER,使用餘弦調製高斯濾波器和10階高斯導數濾波器來更穩健地檢測關鍵點。邊緣焦點和使用邊緣資訊來增強對照明變化的魯棒性。總的來說,這些方法在標準資料集上持續改進了關鍵點檢測器的效能,但是當應用於具有時間差異的室外場景時,仍然會出現嚴重的效能下降。
手工製作的方法的一個主要缺點是它們不能很容易地適應上下文,因此缺乏靈活性。例如,SFOP在校準相機時工作良好,而WADE在應用於對稱物件時顯示出良好的效果。然而,它們的優勢並不容易被我們在這裡解決的問題所繼承,例如找到類似的戶外場景。
學習型關鍵點檢測器雖然關於關鍵點檢測器的工作主要集中在手工製作的方法上,但是一些基於學習的方法已經被提出。藉助FAST,引入了機器學習技術來學習快速角點檢測器。然而,在他們的案例中,學習只是為了加快關鍵點提取過程。可重複性在快速版本中沒有發揮重要作用。訓練WaldBoost分類器在預先對齊的訓練集中學習具有高重複性的關鍵點,然後根據分類器的得分篩選出初始的關鍵點集。他們的方法稱為TaSK,可能與我們的方法最相關,因為他們使用預先對齊的影像來構建訓練集。然而,其方法的效能受到初始關鍵點檢測器的限制。
最近,提出學習一種分類器來檢測運動結構的匹配關鍵點(SfM)應用。他們通過觀察在SfM管道中保留哪些關鍵點來收集匹配的關鍵點,並學習這些關鍵點。雖然他們的方法顯示出顯著的加速,但他們仍然受到初始關鍵點檢測器的質量的限制。通過隨機抽樣學習卷積濾波器,並尋找在應用於立體視覺里程計時給出最小姿態估計誤差的濾波器。不幸的是,他們的方法僅限於線性濾波器,在靈活性方面受到限制,而且不清楚他們的方法如何應用於立體視覺里程計以外的其他任務。
我們提出了一個學習關鍵點檢測器的一般方案,併為此任務指定了一個新的有效迴歸器。我們將它與最先進的手工製作方法以及任務進行比較,因為它是文獻中最接近的方法,在幾個資料集上。
在這裡插入圖片描述
圖2:我們的方法概述。我們依靠一堆訓練影像,從相同的視角捕捉,但在不同的照明(a),和一個簡單的方法來選擇好的關鍵點學習。我們訓練一個關於影像塊的迴歸函式,以返回峰值,比如(b)中的關鍵點位置,以及遠離這些位置的小值。將這個迴歸函式應用到新影像的每個影像塊上,會得到一個分數圖,如(c)中的,我們可以從中提取關鍵點,如(d)中所示,方法是尋找具有大值的區域性極大值。

3.Learning a Robust Keypoint Detector

在本節中,我們首先簡要介紹我們基於迴歸的方法,然後解釋如何構建所需的訓練集。在下一節中,我們將形式化我們的演算法並更詳細地描述迴歸器。

3.1. Overview of our Approach

讓我們首先假設我們有一組從同一角度拍攝的同一場景的訓練影像,但是在不同的季節和一天中的不同時間,例如圖2(a)的集合。讓我們進一步假設,我們已經在這些影像中確定了一組我們認為可以在不同成像條件下一致地找到的位置。我們在下文第3.2節中提出了一種切實可行的方法。我們稱正樣本為每個訓練影像中集中在這些位置的影像塊。遠離這些位置的斑塊是陰性樣本。
為了學習在一個新的輸入影像中找到這些位置,我們建議訓練一個迴歸器來為輸入影像的給定大小的每個影像塊返回一個值。這些值應具有與圖2(b)中所示的正樣本相似的峰值形狀,我們還鼓勵迴歸器為負樣本生成儘可能小的分數。如圖2(c)所示,我們可以通過尋找回歸器返回的值的區域性極大值來提取關鍵點,並通過簡單的閾值化來丟棄具有低值的影像位置。此外,我們的迴歸器也被訓練為在影像堆疊上返回相同位置的相似值。這樣,即使照明條件發生變化,迴歸器也會返回一致的值。

3.2. Creating the Training Set

正如圖3所示,為了建立我們的正樣本和負樣本,我們先從一天中不同時間和季節拍攝的室外網路攝像頭收集圖片。從AMOS資料集中可以看出,網路攝像頭長時間保持固定,不受雨水等影響。我們還使用了建築物頂部的攝像頭拍攝的全景影像。
為了收集一組正樣本,我們首先在該資料集的每個影像中獨立地檢測關鍵點。我們使用SIFT,但也可以考慮其他探測器。然後我們迭代檢測到的關鍵點,從最小比例的關鍵點開始。如果在來自同一個攝像頭的大多數影像中,在大約相同的位置檢測到一個關鍵點,那麼它的位置很可能是一個很好的學習物件。
在實踐中,我們認為如果兩個關鍵點的距離小於SIFT估計的尺度,則它們位於大致相同的位置,並且我們保持最佳的100個重複位置。然後從所有影像(包括未檢測到關鍵點的影像)中提取一組陽性樣本,並以檢測到的平均位置為中心。
這種簡單的策略有幾個優點:我們只保留最可重複的關鍵點用於培訓,而放棄那些很少被發現的關鍵點。我們還介紹了一個高度可重複的關鍵點缺失的補丁作為陽性樣本。這樣,我們就可以針對不同情況下能夠可靠檢測到的關鍵點進行重點檢測,從而糾正原檢測器的錯誤。
要建立負取樣集,我們只需在遠離用於建立正取樣集的關鍵點的位置提取面片。

4. An Efficient Piece-wise Linear Regressor

在這一部分中,我們首先介紹我們的迴歸函式的形式,它被有效地應用於影像中的每一個面片,然後我們描述所提出的目標函式的不同項來訓練關鍵點的檢測,最後我們解釋瞭如何優化迴歸函式的引數以最小化目標函式。

4.1.A Piece-wise Linear Regressor

我們的迴歸函式是用廣義鉸鏈超平面(GHH)表示的分段線性函式:式1
在這裡插入圖片描述
其中x是由從影像塊中提取的影像特徵組成的向量,ω是迴歸器引數n=1的向量,可以分解為[w11,…,δ1,…,δn]。wnm向量可以看作線性濾波器。引數δn被限制為-1或+1。N和M是控制GHH複雜度的元引數。作為影像特徵,我們使用了LUV顏色空間的三個分量,影像梯度水平和垂直梯度,以及在x面片的每個畫素處計算的梯度大小。
任何連續的分段線性函式都可以用式(1)表示。它非常適合於我們的關鍵點檢測器學習問題,因為將回歸器應用到影像的每個位置只涉及簡單的影像卷積和畫素級的最大值運算子,而回歸樹需要隨機訪問影像和節點,而CNN涉及到大多數層的高階卷積。此外,我們將證明,該公式也有助於整合不同的約束,包括相鄰位置的響應之間的約束,這有助於提高關鍵點提取的效能。