LightTR: A Lightweight Framework for Federated Trajectory Recovery
general的問題,資料來源於邊緣裝置。無法很好的訓練一個最優的模型
框架分散訓練的得問題 (邊緣裝置)
一般來說,這些網路是由一堆時空(ST)塊組成的,旨在學習軌跡之間的複雜的時空依賴性。st塊包含基st運算元,可以進一步分為卷積神經網路(CNN)[18]、遞迴神經網路(RNN)[16]、[19]和基於注意神經網路(Attn)[15]的st運算元。然而,現有的方法假設模型是用從邊緣裝置收集的集中資料進行訓練的,這導致了較高的收集和儲存成本,並且無法處理分散的訓練資料。
specific的問題
資料中低取樣率,存在資料缺失。因此需要補全===========》(所以這裡是沒有提出針對補全資料中的異質性提出問題)
由於移動感測裝置的爆炸性採用和發展,大量的軌跡以分散的方式收集,使各種基於軌跡的應用[1]-[8],如交通預測[9]、目的地預測[10]和車輛導航[4]。儘管如此,在實踐中,收集到的軌跡資料通常以低取樣率[11]進行取樣,稱為不完全軌跡(a.k.a.低取樣率軌跡),由於詳細資訊的丟失和高不確定性,損害了上述應用程式的有效性。因此,恢復被稱為軌跡恢復的不完全軌跡的缺失點是很重要的,以便能夠更有效地利用這些低取樣率的軌跡
資料的時空依賴性===========》(針對軌跡資料中的特性,時空依賴性)
然而,現有的基於fl的方法[20]、[21]沒有考慮到固有的時空依賴性,而這對於有效的軌跡嵌入[16]很重要。在本研究中,我們的目標是開發一種新的基於fl的軌跡恢復模型,它可以彌補分散資料處理和複雜的時空依賴建模之間的差距。儘管如此,由於以下挑戰,開發這種模型是很重要的。
框架的問題
計算資源 (ST+MLP)
挑戰一:可擴充套件性。現有流行的軌跡恢復方法通常具有較差的可伸縮性,因為這些基於深度學習的模型往往很大,其中訓練和推理往往耗時和計算昂貴。這限制了軌跡恢復模型在資源約束的邊緣計算裝置上的可擴充套件性,這在分散計算中起著至關重要的作用。此外,這些方法可能會在大規模的軌跡學習設定中導致記憶體溢位,因為整個網路在訓練過程中必須駐留在記憶體中。例如,給定N個軌跡,每個軌跡都有L個點,基於attn的st運算子的記憶體成本隨L和N呈二次增加(見表II)。然而,目前的軌跡恢復模型中沒有定製的閃電模組,簡單地減輕這些模型會顯著降低[22]的效能,這也限制了軌跡學習的可擴充套件性。
資料異質性問題,導致模型難以收斂 (知識蒸餾)
挑戰二:通訊成本。在FL培訓過程中,中央伺服器和所有參與客戶之間存在一定的通訊。有兩行因素,如有限的網路頻寬和爆炸性的參與客戶端,可能會在FL環境中造成通訊瓶頸,從而增加延遲並降低實用性。統計上,不同客戶端收集的軌跡通常不是獨立的、同分布的(Non-IID)和異構的,這導致通訊輪顯著增加以實現收斂,並難以獲得最優的全域性模型。系統地說,FL環境中涉及一定數量的客戶端,而每個客戶端的通訊容量可能由於硬體、網路連線和電源方面的重大限制而不同。在聯邦軌跡恢復中開發一種降低通訊成本的方法,它能夠解決這些統計和系統的問題是非常可取的,但也不是不簡單的。
解決方案
客戶端確保時空依賴
為了避免巨大的記憶體消耗和有限的可伸縮性(挑戰I),我們為每個客戶端設計了一個本地輕量級軌跡嵌入(LTE)模型。具體來說,LTE包含一個嵌入元件和一個st塊堆疊來學習有效的時空表示。與以往的研究[19],我們形式化一個輕量級的運算子和取代流行的算符(如CNN和附加)純MLP(多層感知器)架構考慮較低的空間複雜性(即O(L + D + 1))和時間複雜性(即O(N·(L + D)))的MLP,其中L表示每個軌跡,D是嵌入大小,N是軌跡的數量。在這裡,我們只使用一個RNN層與MLP結合來確保時間依賴項捕獲。
知識蒸餾解決通訊成本問題
為了降低通訊成本並加快模型的收斂速度(挑戰II),我們提出了一種基於知識蒸餾的元知識增強的區域性-全域性訓練模組。在聯合培訓之前,我們提出了一個教師模型(即元學習者),使用其中的一部分本地資料為每個客戶學習本地元知識。我們將區域性輕量級軌跡嵌入模型作為學生模型。在FL過程中,採用教師模型來指導學生模型的最佳化,以更好地學習共同特徵,實現更快的收斂速度
實驗,使用的都是車輛資料,並且是將以一個資料集拆分成20個客戶端。每個資料集的實驗是獨立的
在這項研究中,提出了一個輕量級的聯邦學習框架 LightTR,用於實現高效的軌跡恢復。研究使用了 Geolife 和 Tdrive 兩個資料集,資料保留比例分別為 6.25%、12.5% 和 25%,並在每兩個保留的軌跡點之間平均插入 6 個資料點,以實現高取樣率的軌跡恢復。
LightTR 框架在客戶端使用以下方法模組來協同完成軌跡恢復任務:
-
FC+FL:結合水平聯邦學習 (FL) 和堆疊的全連線層 (FC) 用於軌跡恢復。在此方法中,使用隱馬爾可夫模型 (HMM) 作為匹配演算法。
-
RNN+FL:一種去中心化的軌跡恢復模型,透過堆疊遞迴神經網路 (RNN) 與水平聯邦學習相結合,協作學習軌跡的表示。
-
MTrajRec+FL:利用 MTrajRec 作為本地模型的去中心化軌跡恢復方法。MTrajRec 是基於序列到序列 (Seq2Seq) 的先進軌跡恢復方法。
-
RTrajRec+FL:使用 RNtrajRec 作為本地模型的水平聯邦學習軌跡恢復方法。RNtrajRec 應用了圖神經網路,以捕捉軌跡中的豐富時空相關性。
LightTR 框架透過上述模組在客戶端完成輕量化的軌跡嵌入,並結合聯邦學習的水平協同訓練,確保資料隱私和分散化。同時,LightTR 還採用了增強的本地-全域性訓練方案,以減少客戶端與伺服器之間的通訊成本,從而進一步提升了計算效率。
實驗結果表明,LightTR 框架在實現高效軌跡恢復的同時,能夠有效保障資料隱私並降低計算資源消耗。
Physics-Informed Trajectory Prediction for Autonomous Driving under Missing Observation
specific的資料問題=====》缺失資料,感測器觀測缺失
在自動駕駛汽車的領域中,在動態環境中有效預測周圍車輛的軌跡遇到了兩個經常被忽視但相互關聯的挑戰。最大的挑戰來自於現實世界的觀測限制,如感測器的限制和環境因素,包括障礙物、不利天氣或交通擁堵。這些約束經常導致觀察結果的缺失[Liao et al.,2024b],這對傳統的深度學習模型構成了重大障礙。儘管這些模型在理想的資料集上很有效,但它們通常難以適應現實世界駕駛的不可預測和變化的條件特徵[巴塔查里亞等人,2023年],這是一個問題
物理定律,運動學約束========》導致預測在統計上是準確的,但在運動學上不可行
其次,同樣被忽視的挑戰包括確保這些模型在軌跡預測中符合物理定律。目前的許多模型沒有充分考慮車輛運動的運動學約束,導致預測在統計上是準確的,但在運動學上不可行。這種限制可能會損害無人機運動計劃的安全性和可靠性[Huang等人,2022;Shen等人,2023],但在現有文獻中還沒有給予應有的關注
解決方案
為了彌補這些差距,我們的研究引入了一種新的雙階段軌跡預測方法,該方法將資料分割和基於物理的方法與物理增強階段相結合,如圖1所示,以及軌跡預測階段。這種方法結合了深度學習的魯棒性和物理資訊原理,確保在缺少觀測的情況下,即使是現實和穩健的軌跡預測。為了證明它的有效性,我們的方法始終優於最先進的(SOTA)
基於運動學的補全
我們介紹了一個開創性的物理增強階段,其中包括一個小波重建網路和一個運動學腳踏車模型。這種整合促進了軌跡預測領域的顯著進步,顯著提高了該方法對缺失觀測值的魯棒性,並增強了預測軌跡的運動學可行性。我們創新的波聚變編碼器,受到量子力學的啟發,徹底改變了相互作用建模。透過將車輛特徵概念化為波形,該模組促進了一種利用波疊加原理建模車輛相互作用的新方法。
實驗
在實驗設定部分描述的缺失率和時間步可能確實讓人困惑。以下是對文中提到的時間步和缺失率的解析:
-
時間步的含義:文中提到的 "3秒用於軌跡歷史"((t_h = 3))和"5秒用於模型預測"((t_f = 5))指的是時間跨度,而不是時間步的個數。通常在軌跡資料中,時間步是以更小的時間間隔取樣的(例如每秒取樣一次)。因此,雖然歷史部分的總時長為3秒,但在取樣頻率較高的情況下,可能會包含多個時間步資料點(例如3秒內可能有3個或更多時間步,具體取決於取樣頻率)。
-
缺失率的理解:文中提到的缺失率(25%、50%、75%)是指在資料樣本中,觀察到的資料點被隨機移除的比例,而不是時間段的缺失。例如,在“MoCAD-missing, NGSIM-missing, 和 HighD-missing”資料集中,25%、50% 或 75% 的觀測點被隨機移除。因此,如果原始軌跡包含多個時間步(多個取樣點),即使總時間跨度為3秒或5秒,仍然可以設定較高的缺失率,因為每個樣本包含的具體資料點數可能足夠多,允許這種比例的隨機移除。
-
73%的缺失率可能的原因:檔案沒有具體說明是如何達成 73% 缺失的,但推測是一個統計上的缺失率或一種特定的實驗設定。例如,如果某些段的資料極其稀疏或故意以高缺失率設計以測試模型的適應性和魯棒性,可能會出現非標準的缺失率。
總結來說,缺失率是在一個包含多個時間步的軌跡資料點上實施的,並非僅針對 3 秒或 5 秒的時間跨度。這樣可以確保資料集能夠包含足夠的點數以支援實驗,即使缺失率較高。
COLA: Cross-city Mobility Transformer for Human Trajectory
資料上的長尾問題。每個城市都基本上是長尾資料 (資料稀疏)========》透過遷移知識緩解資料稀疏的問題
普遍存在的資料稀缺問題促使我們將人類流動的普遍模式從豐富的外部城市轉移過來,以幫助提高我們的目標城市的綜合質量。如圖1(a)所示,城市市民的日常活動通常受到類似的意圖的驅動,包括工作、娛樂、通勤、購物、休息等。這些共同的意圖表現出不同城市人類軌跡的普遍模式,導致了相似的長尾頻率分佈,如圖1(b).所示如果能夠適當地轉移城市間的移動知識,就可以在很大程度上緩解人類發展軌跡的資料稀缺性。
資料異質性的問題
然而,與跨城市[22,28,36]的時空轉移相比,跨城市移動轉移帶來了相當特殊的挑戰。[22,28,36]研究空氣質量指標[36]、大流行病例[28]或交通速度[22]。首先,外部城市的位置與目標城市的位置很難相互作用,導致位置嵌入不能在城市間轉移,這稱為知識轉移中的領域異質性。相比之下,時空傳輸通常處理相同特徵空間的指標,如空氣質量指標,減輕了傳輸的難度。其次,由於城市文化或地理影響,不同城市呈現出細微不同的長尾頻率分佈。這些細微的差異需要在知識轉移過程中仔細校準現有的過度自信的深度神經網路[18]。上述挑戰要求我們重新思考跨城市流動轉移的原則。
解決方案上的問題
針對軌跡資料,迴圈網路的不適應。對抗方法也不適應
最近的深度學習模型[9,10、14、20,43-45]在很大程度上促進了基於先進的序列生成技術的人類軌跡的合成質量。一方面,遞迴模型[9,14,20]涉及到人類軌跡序列的歸納偏差。DeepMove [9]設計了一種個體軌跡的注意機制來檢索相關資訊;CGE [14]利用個體軌跡的時空上下文資訊。儘管如此,迴圈模型很難從零開始生成高保真度的軌跡,因為它們依賴於歷史模型
軌跡另一方面,基於對抗的方法[10,43-45]結合了人類流動性的高階語義,如地理關係[10]、活動動態[44]和Maslow的需求層次[45],同時基於雙人最大遊戲最大化長期生成獎勵。儘管他們做出了努力,但人類軌跡資料的嚴重缺乏將導致這些專用模型的次優解決方案。
針對異質性的問題,使用transformer來遷移
為了解決這些挑戰,我們在遷移學習框架中引入了強大的變壓器[29,31]塊,以學習基於標記(位置)之間的注意相似性的人類移動的通用模式,這已經證明了它在許多NLP任務中的泛化能力。具體地說,我們用一個模型不可知的傳輸框架[11,28]定製了一個跨城市的移動模型,稱為COLA,以處理領域異質性和跨城市的位置的不同長尾頻率分佈。首先,可樂將變壓器劃分為城市專用模組共享模組占城市通用知識,稱為半開放變壓器。它將注意力計算機制置於共享模組中,以更好地促進城市人類軌跡之間的模式轉移。一旦轉移,目標城市就可以透過私人模組展示其特定的移動行為,包括不可轉移的位置嵌入及其潛在的表示。其次,COLA將其位置的預測機率與真實的長尾頻率分佈進行事後[26]對齊,以解決過度自信問題[18]。與重加權損失函式[48,50]的迭代最佳化相比,預測機率的後調整僅對移動遷移完成後的目標城市有效,使得遷移框架複雜最佳化的變化最小。COLA可以有效地適應強大的變壓器跨城市移動轉移。
Improving Transferability for Cross-Domain Trajectory Prediction via Neural Stochastic Diferential Equation
資料異質性的困難
資料驅動模型的一個眾所周知的問題是,當訓練資料和測試資料之間的資料分佈存在差異時,它們的效能有限。因此,要在一個特定的環境下構建一個軌跡預測系統,最優的方法是從該環境中收集資料。然而,最近的模型需要大量的資料來獲得最佳效能,這需要一個繁瑣的獲取如此數量的資料。從這個意義上說,充分利用現有的大規模資料集在規避這一障礙方面具有優勢。最近的方法試圖透過提出領域自適應來克服這一挑戰(Xu等人2022;Wang等人2022b)或透過多源資料集訓練來增加模型的通用性(Wang等人20222a)。與這些處理域間隙的方法相比,每個資料採集策略之間的差異導致的資料集特定差異被排除在域間隙之外,訪問次數較少。我們的工作表明,對這些資料集特定差異的充分處理可以釋放出跨資料集運動模式的集體潛力。
在處理跨資料集的軌跡或運動模式時,不同資料集的採集方式會導致一些特有的差異,這種差異通常沒有被視為“領域差異”(domain gap),也就是說,它們往往沒有被認為是需要適應或處理的領域差異。這些差異指的是各個資料集因不同的採集策略或技術導致的資料特徵差異,比如感測器的解析度、取樣頻率、地理區域、甚至環境因素的不同。
許多最新的研究透過 領域適應(domain adaptation) 或 多源資料集訓練 來提高模型的通用性,以此來應對不同領域之間的差異(即傳統意義上的“領域差異”)。然而,這些研究通常忽略了由資料採集策略差異所帶來的資料集特定的偏差(即資料集特定的差異,並不被視為典型的領域差異)。
本文的工作展示了,如果能夠有效地處理這些資料集特有的差異,那麼可以從不同資料集的運動模式中挖掘出一種集體的潛力,進而提升模型的效能。這意味著,透過充分利用各資料集的特定資訊,可以更好地結合這些資料集的優勢,提升模型對跨資料集任務的適應性和表現。
這段話討論的是不同資料集之間在 時間步配置 上的差異,以及這種差異對模型表現的影響。這裡的“偏差”指的是 由於各資料集的取樣策略和預測配置不同,導致的輸入輸出特徵空間的差異,這使得模型在跨資料集時難以適應。
具體來說:
- 時間步配置差異:不同的資料集有不同的時間配置,例如:
- 觀察和預測時間長度:一個資料集可能使用短時間的過去軌跡來預測較長時間的未來軌跡,另一個資料集則可能配置不同的過去和未來時間長度。
- 取樣頻率:不同的資料集取樣頻率不同,比如 10Hz、2Hz 等,即每秒取樣的次數不同,這會導致特徵在時間上的分佈不同。
- 特徵空間的差異:時間步配置的不同會導致輸入和輸出軌跡的特徵空間(feature space)存在差異。舉例來說,如果一個模型在 WOMD 資料集上訓練,它的任務是基於過去 1 秒的軌跡(10Hz 取樣)預測未來 8 秒的軌跡,這個模型學習的是一種從 1 秒的運動特徵對映到 8 秒未來特徵的函式。
- 跨資料集問題:如果這個模型在 nuScenes 資料集上進行評估,而 nuScenes 的配置是基於 2 秒的軌跡(2Hz 取樣)預測未來 6 秒的軌跡,那麼模型在輸入和輸出特徵空間上會遇到困難。這是因為 WOMD 和 nuScenes 資料集的時間配置差異導致它們的輸入輸出特徵的分佈(或稱特徵流形)並不相同,模型很難將過去的軌跡特徵準確地對映到未來的軌跡特徵。
總結來說,這裡的“偏差”是指不同資料集之間 由於取樣頻率、觀察和預測時間長度的不同,導致的輸入輸出特徵空間的分佈差異。這些差異增加了跨資料集任務的難度,因為模型必須適應不同的特徵空間,這種特徵空間的偏差並不是典型的“領域差異”,而是資料集採集策略本身帶來的差異。
概念上的問題
好的,我們來梳理一下取樣頻率、觀測時間和預測時間之間的關係。這三個因素共同決定了軌跡資料的結構,以及模型輸入和輸出的特徵。
1. 取樣頻率(Sampling Frequency)
取樣頻率表示在單位時間內採集資料的次數,通常以Hz為單位。例如:
- 10Hz 表示每秒採集 10 個資料點。
- 2Hz 表示每秒採集 2 個資料點。
取樣頻率越高,每秒採集的資料點越多,軌跡資訊的時間解析度就越高。取樣頻率對軌跡的細節捕捉能力有很大影響,頻率越高,可以捕捉到更細微的運動變化。
2. 觀測時間(Observation Time)
觀測時間是模型用於預測未來軌跡的過去時間長度,即模型的輸入部分。例如:
- 觀測時間為 1 秒,意味著模型僅使用過去 1 秒的資料進行預測。
- 觀測時間為 2 秒,則使用過去 2 秒的資料。
觀測時間決定了模型在做出預測前可以看到的軌跡長度。觀測時間越長,模型能夠利用的資訊越多,這可能有助於更準確的預測。
3. 預測時間(Prediction Time)
預測時間是模型需要預測的未來軌跡的時間長度,代表模型的輸出部分。例如:
- 預測時間為 8 秒,表示模型需要預測未來 8 秒的軌跡。
- 預測時間為 6 秒,表示模型預測未來 6 秒的軌跡。
預測時間決定了模型需要推測的未來軌跡的跨度。預測時間越長,模型的預測難度可能越大,因為需要在更長的時間跨度上推測運動趨勢。
三者之間的關係
這三個因素的組合會影響輸入輸出的特徵空間,具體關係如下:
-
取樣頻率和觀測時間的關係:
取樣頻率決定了在觀測時間內的取樣點數量。例如,10Hz 取樣頻率下,1 秒觀測時間內會有 10 個資料點,而 2 秒觀測時間內會有 20 個資料點。因此,觀測時間 × 取樣頻率 = 觀測資料點的數量。 -
取樣頻率和預測時間的關係:
取樣頻率同樣影響預測時間內的取樣點數量。例如,8 秒預測時間在 10Hz 取樣下會有 80 個資料點,而在 2Hz 取樣下只有 16 個資料點。因此,預測時間 × 取樣頻率 = 預測資料點的數量。 -
觀測時間和預測時間的關係:
觀測時間和預測時間的比例決定了輸入和輸出之間的“跨度”關係。例如,如果模型使用 1 秒觀測時間預測未來 8 秒的軌跡,模型的輸入比輸出少得多,需要根據短時的資訊預測較長的未來。如果是 2 秒觀測時間預測 6 秒未來,輸入和輸出的比值更接近,預測難度可能稍微減小。 -
三者共同影響特徵空間的差異:
當不同的資料集具有不同的取樣頻率、觀測時間和預測時間時,輸入輸出的軌跡分佈和特徵空間會有顯著差異。例如:- 一個資料集可能是1 秒觀測 + 8 秒預測 + 10Hz取樣,輸入輸出點數是 10 和 80;
- 另一個資料集是2 秒觀測 + 6 秒預測 + 2Hz取樣,輸入輸出點數是 4 和 12。
這會導致輸入和輸出的特徵在不同資料集中分佈差異顯著,使得模型難以在跨資料集的情況下泛化。
總結
- 取樣頻率決定了單位時間內的取樣點數,影響軌跡的時間解析度。
- 觀測時間是輸入資料的時間跨度,影響模型能觀察到的軌跡長度。
- 預測時間是模型需要預測的時間跨度,決定了模型輸出軌跡的長度。
- 三者的組合會影響輸入和輸出的特徵空間,不同組合會導致不同的資料分佈,使得模型在跨資料集時難以直接適應。
噪聲的影響
這段話討論了在軌跡資料集的採集過程中,由於感測器噪聲和檢測與跟蹤誤差帶來的問題,以及它們對預測效能的負面影響。這些誤差和噪聲在不同的資料集中表現出獨特的趨勢和模式,從而給跨資料集的預測帶來了額外的挑戰。
具體來說,主要的問題包括:
-
感測器噪聲和檢測/跟蹤誤差:
軌跡資料集通常是透過從自車(ego-agent)感測器資料中檢測並跟蹤周圍的目標物體(例如其他車輛或行人)來生成的。這些跟蹤結果(tracklets)容易受到感測器噪聲的影響,也可能因為檢測和跟蹤演算法的精度不足而產生錯誤。這些噪聲和誤差會直接影響到後續模型的預測效能。 -
資料集特定的跟蹤誤差模式:
每個資料集的採集過程使用的感測器型別、檢測器和跟蹤器配置不同,導致不同資料集在跟蹤誤差上表現出獨特的模式或趨勢。不同資料集在噪聲和誤差的型別、分佈和嚴重程度上有所不同,這使得模型在一個資料集上訓練後,難以適應其他資料集的特定誤差模式。 -
取樣頻率對噪聲模式的影響:
跟蹤噪聲的模式還受到取樣頻率(時間步長配置)的影響。例如,較高的取樣頻率(即較小的時間步長 Δt)通常會導致更嚴重的噪聲。文中提到 Argoverse 資料集比 nuScenes 資料集在相同的時間長度內表現出更嚴重的跟蹤噪聲,這可能是因為 Argoverse 的取樣頻率更高,因此更容易捕捉到微小的、但可能不準確的位移變化。 -
對預測效能的影響:
跟蹤誤差和噪聲會導致模型的輸入資料質量下降,從而降低模型的預測準確性。這種噪聲還具有資料集特定的特點,增加了跨資料集遷移或泛化的難度,因為模型需要適應每個資料集特有的噪聲模式。
總結
該段描述了由於感測器噪聲、檢測和跟蹤誤差帶來的資料集特定問題,以及取樣頻率對噪聲模式的影響。這些因素使得不同資料集在軌跡資料上表現出不同的噪聲模式,給模型的跨資料集泛化和預測效能帶來了挑戰。這意味著在跨資料集預測中,除了領域差異,還必須考慮每個資料集特有的跟蹤誤差和噪聲模式對模型的影響。
解決方案 處理時間步不同的問題
我們利用NSDE的連續表示來進行軌跡預測,以減少在任意時間混淆中收集的資料集之間的內部差異。
處理資料中存在噪聲的問題
這裡的第二個貢獻點可以理解為,提出了一個特定於資料集的擴散網路框架及其訓練方法,用於處理不同資料集中獨特的跟蹤誤差。
具體來說:
-
資料集特定的擴散網路框架:
作者提出了一種框架,能夠針對不同的資料集進行定製化處理,尤其是處理由於感測器、檢測器和跟蹤器配置的差異而導致的各資料集特有的跟蹤誤差(tracklet errors)。每個資料集的採集過程和配置不同,誤差的型別、分佈和嚴重程度也不同,這種特定於資料集的擴散網路框架能夠識別和適應這些差異,從而提升預測效能。 -
訓練方法:
提出了一個訓練方法,使得這個資料集特定的擴散網路可以在有噪聲和誤差的情況下進行更有效的學習。擴散網路的設計使得它具有一定的隨機性(stochasticity),因此可以更好地應對和糾正跟蹤誤差,增強模型的魯棒性。
總結
這個貢獻點的核心在於,作者為每個資料集設計了一個專門的擴散網路,以應對資料集採集過程中產生的特有噪聲和誤差。這種定製化的網路和訓練方法能夠幫助模型更好地處理不同資料集中的噪聲模式和跟蹤誤差,從而提高預測的準確性和泛化能力。
實驗=======》只使用了車輛軌跡
我們使用nuScenes(30k)和Lyft(160k)作為小規模的目標資料集,因為它們的規模相對較小。我們利用互動、Argogirse(200k)和WOMD(500k)資料集作為大規模的資料集進行額外的訓練。為了利用資料集之間的公共資訊,我們只使用過去/未來的軌跡和車道中心線資訊。此外,雖然這些資料集同時有車輛和行人的軌跡資料,但為了簡單起見,我們只訓練和評估車輛的軌跡。為了展示我們的框架的有效性,我們選擇了HiVT(Zhou等人. 2022)和MUSE-VAE(Lee et al. 2022)作為最新的迴歸和基於目標預測的軌跡預測方法,並表明即使是最先進的
設定不同的時間步
從實驗設定和資料集的描述來看,本文的訓練和預測方法大致如下:
訓練過程
-
目標:
本文的目標是在目標資料集上的效能提升,並透過在大規模源資料集上的額外訓練來實現。為了解決跨資料集傳遞性的問題,模型會聯合多個資料集的訓練集來訓練,然後在目標資料集的驗證集上評估。 -
訓練資料組合:
- 基於迴歸的預測模型:
- 僅使用 nuScenes 訓練集 (N)。
- 使用 nuScenes + Argoverse 訓練集 (N+A)。
- 使用 nuScenes + WOMD 訓練集 (N+W)。
- 基於目標條件的模型:
- 在 nuScenes 驗證集上,模型只用 nuScenes 訓練集 (N) 或 nuScenes + INTERACTION 訓練集 (N+I)。
- 在 Lyft 驗證集上,模型只用 Lyft 訓練集 (L) 或 Lyft + INTERACTION 訓練集 (L+I)。
- 基於迴歸的預測模型:
-
時間步配置的處理:
- 為了讓基線模型適應不同的時間步配置,重新排列了兩個資料集的時間序列資料。為每個時間步建立了空時間條,以對齊不同資料集的時間步配置。例如,在 nuScenes (2秒, 2Hz) 和 Argoverse (2/3秒, 10Hz) 的情況下,會建立 81 個 (2/6s, 10Hz) 的空時間條。
-
使用的資料集:
- 小規模目標資料集:nuScenes (30k samples) 和 Lyft (160k samples)。
- 大規模源資料集:INTERACTION, Argoverse (200k samples) 和 WOMD (500k samples)。
- 為了確保一致性,只使用了資料集中車輛的軌跡資料,並採用了歷史/未來軌跡和車道中心線資訊。
-
基線模型:
- 選擇了 HiVT 和 MUSE-VAE 作為最新的基線方法,用於基於迴歸和目標預測的軌跡預測。
預測過程
-
驗證集的評估:
- 在聯合訓練後,模型在目標資料集的驗證集上進行預測和評估,特別是在 nuScenes 和 Lyft 驗證集上。
-
評估指標:
- 使用 mADE10 作為評估指標(廣泛使用的均方平均位移誤差),用於衡量模型在目標資料集上的預測精度。
-
效能提升:
- 實驗的重點在於透過融合多源資料集來提升模型的泛化能力和在目標資料集上的表現。即便是現有的最先進方法,透過融合作者提出的 SDE 框架仍然有改進空間。
總結
本文的訓練過程是基於多源資料集聯合訓練,透過重新排列時間步配置來處理不同資料集的時間步差異。預測過程則在目標資料集的驗證集上進行,並使用 mADE10 指標進行評估。透過這種方式,作者探索瞭如何利用源資料集的資訊來增強目標資料集的效能,並展示了 SDE 框架的改進潛力。