Here's the organized markdown text for LightTR: A Lightweight Framework for Federated Trajectory Recovery.
LightTR: A Lightweight Framework for Federated Trajectory Recovery
資料形式
根據提供的圖片,這項研究的主題是關於聯邦軌跡恢復問題,主要涉及GPS軌跡資料。以下是資料和任務的總結:
使用的資料
- 道路網路:表示為一個有向圖 $ G = (V, E) $,其中 $ V $ 表示道路的交叉口或終點,$ E $ 表示有向道路段。
- GPS點:包含緯度、經度和附加屬性(如時間戳)的點,表示為 $ \langle lat, lng, \gamma \rangle $。
- 不完整軌跡:由一些GPS點組成的序列,其中部分資料缺失,表示為原始或不完整軌跡 $ \tau = \langle (p_1, t_1), (p_2, t_2), \dots, (p_n, t_n) \rangle $。
- 地圖匹配軌跡:將GPS軌跡投影到道路網路上的過程,透過已知的道路路徑來校準GPS點,從而減少原始GPS資料中的噪聲或誤差。
- 不完整地圖匹配軌跡:類似於地圖匹配軌跡,但其中包含一些缺失點,需要進行補全。
任務
聯邦軌跡恢復問題的目標是恢復缺失的GPS軌跡資料。在這個框架中:
- 多個客戶端(如公司的分散式資料中心)各自擁有本地的不完整軌跡資料集。
- 研究的目標是開發一個全域性函式 $ F(\cdot) $,以便在不集中化資料的情況下,恢復各客戶端的不完整地圖匹配軌跡中的缺失座標。
每一條不完整的軌跡都會被處理以填補資料缺口,從而重構出完整的地圖匹配軌跡。函式 $ F(\cdot) $ 可能應用了聯邦學習的原理,在不共享原始資料的情況下,透過分散式資料來源協同訓練模型。
這種方法允許多個客戶端的資料共同為統一的軌跡恢復模型提供支援,同時保護資料隱私。
是的,這裡的 $ p_1 $ 表示的是一個 GPS點,包含以下資訊:
- 緯度(lat)
- 經度(lng)
- 附加資訊(γ):例如地址或其他相關資訊
在文中的定義中,每個 $ p $(包括 $ p_1, p_2, \dots $)都是一個三元組 $ \langle lat, lng, \gamma \rangle \(。因此,\) p_1 $ 具體就是第一個 GPS 點的緯度、經度以及可能的附加資訊。
框架
以下是包含公式詳細解釋的文字內容,幫助更清楚地理解 LightTR 框架中的公式和模組功能:
模組解讀和公式解析
- Local Trajectory Preprocessing and Light Embedding
-
Local Trajectory Preprocessing:這一模組將收集的軌跡資料預處理為地圖匹配的軌跡,即將 GPS 點轉換為道路網路上的離散單元,通常使用隱馬爾可夫模型(HMM)實現,如公式 (4) 所示:
\[T = \text{HMM}(\tau) = \langle (g_1, t_1), \dots, (g_n, t_n) \rangle \]其中,$ g_i = (x_i, y_i, tid_i) $,表示軌跡點在道路網格中的座標 $ x_i $ 和 $ y_i $,以及時間間隔資訊 $ tid_i = \left\lfloor \frac{t_i - t_0}{\epsilon} \right\rfloor $,用於指導模型學習如何在兩個低取樣率點之間恢復軌跡點。
-
Lightweight Trajectory Embedding:使用一個輕量化的軌跡嵌入模組將軌跡 $ T $ 轉換為單一向量表示,以捕捉軌跡資料的複雜時空關係。這裡採用門控迴圈單元(GRU)進行嵌入,如公式 (5) 所示:
\[r_t = \sigma(W_r \cdot [h_{t-1}, g_t] + b_r) \]\[z_t = \sigma(W_z \cdot [h_{t-1}, g_t] + b_z) \]\[\tilde{h}_t = \tanh(W_h \cdot [r_i \ast h_{t-1}, g_t] + b_h) \]\[h_t = (1 - z_t) \ast h_{t-1} + z_t \ast \tilde{h}_t \]其中 $ W $ 是各個門的權重矩陣,$ b $ 是偏置項,$ \sigma $ 表示 sigmoid 啟用函式,$ \ast $ 表示元素乘法,$ h_t $ 是當前時間步的隱藏狀態。公式 (6) 簡化了嵌入模型,定義為:
\[ h_t = \text{embedding}(h_{t-1}, s_{t-1}) \]表示在低取樣率的軌跡嵌入中得到隱藏特徵 $ h_t $。 -
在公式中,$s_{t-1} \(是輕量化軌跡嵌入模型的輸入之一,通常表示上一個時間步\) t-1 $ 的某種特徵或狀態資訊。在軌跡恢復任務中,$ s_{t-1} $ 可能是用來描述上一個時間步的空間或時間資訊,例如該點的座標、時間戳,或者是與軌跡點相關的其他上下文資訊。
當 $ h_t = \text{embedding}(h_{t-1}, s_{t-1}) $時,模型使用上一個隱藏狀態 $ h_{t-1} $ 和上一個時間步的特徵 $s_{t-1} $ 進行嵌入計算,以生成當前時間步的隱藏狀態 $h_t $。這使得模型在生成當前嵌入時能夠利用前一個時間步的資訊,從而更好地捕捉軌跡的時序和空間依賴關係。
-
ST-blocks
-
ST-blocks 包含一個輕量化的時空運算子(ST-operator),用於同時預測道路段 $ e_t $ 和移動比例 $ r_t $。其中 ST-operator 包含一個 RNN 層和一個多工(MT)模型,用於同時處理道路段和移動比例的預測。公式 (7) 表示 ST-operator 的過程:
\[h'_t = \text{RNN}(h_t) \]\[e_t, r_t = \text{MT}(h'_t) \]MT 模型進一步分解為公式 (8):
\[h_{t,d} = \text{Dense}(h'_t, W_d) = W_d \cdot h'_t + b_d \]\[e_t = \text{Mask}(h_{t,d}) \]\[h_{t,e} = \text{Emb}(h_{t,d}, e^t) = \text{ReLU}(h_{t,d} + \text{RNN}(e^t)) \]\[r_t = \text{ReLU}(\text{Dense}([h_{t,e}, e^t], W_r)) = W_r \cdot [h_{t,e}, e^t] + b_r \]其中 $ h_t $ 表示當前時刻的隱藏狀態,$ W $ 和 $ b $ 分別表示權重和偏置項,ST-operator 將 $ h_t $ 傳入 RNN 和多工模型,分別得到道路段預測 $ e_t $ 和移動比例預測 $ r_t $。
-
遞迴公式 (9) 表示 ST-blocks 的狀態更新:
\[h_t = \text{STBlocks}(h_{t-1}, e_{t-1}, r_{t-1}) \]其中 $ e_{t-1} $ 和 $ r_{t-1} $ 分別代表上一個時間步的道路段嵌入和移動比例。
-
-
Constraint Mask Layer
- 該層透過限制掩膜函式來提高模型的精確度和細粒度軌跡恢復。公式 (10) 定義了該掩膜層:\[c_i = \exp\left(-\frac{\text{dist}^2(p_i, \tilde{p}_i)}{\gamma}\right) \]其中,$ \text{dist}(p_i, \tilde{p}_i) $ 表示原始點 $ p_i $ 與地圖匹配點 $ \tilde{p}_i $ 在相應道路段 $ e $ 上的歐氏距離,$ \gamma $ 是與道路網路相關的引數。該掩膜層用於降低與道路網格位置較遠點的影響。
- 該層透過限制掩膜函式來提高模型的精確度和細粒度軌跡恢復。公式 (10) 定義了該掩膜層:
-
Knowledge Distillation (公式 11)
- 在知識蒸餾過程中,結合掩膜層與 softmax 函式預測軌跡的道路段。公式 (11) 表示在考慮距離約束下的機率計算:\[P(e_i | h_i) = \frac{\exp(h_{t,d}^T \cdot w_{c}) \circ c_i}{\sum_{c' \in C} \exp(h_{t,d}^T \cdot w_{c'}) \circ c_i} \]其中 $ w_c $ 為可訓練的引數矩陣,$ c_i $ 為掩膜係數,用於調整預測的機率。最終透過 $ \text{argmax} $ 確定最終預測的道路段
- 在知識蒸餾過程中,結合掩膜層與 softmax 函式預測軌跡的道路段。公式 (11) 表示在考慮距離約束下的機率計算:
$ e_t $。
Meta-knowledge Enhanced Local-Global Training
- 知識蒸餾過程:如圖所示,包含教師模型和學生模型。教師模型(或元學習器)在中央伺服器上進行預訓練,以學習元知識。然後,在本地訓練過程中,客戶端下載教師模型的引數,作為學生模型的指導。這一方法減少了通訊成本,同時透過引數聚合更新全域性模型,提升模型的準確性和訓練效率。
總體而言,LightTR 框架透過分散式的聯邦學習和知識蒸餾技術,結合輕量化嵌入和時空操作,實現了高效的軌跡恢復,保護了資料隱私並降低了通訊開銷。