港大發布OpenCity: 大模型驅動下的智慧城市"新核心"

新闻助手發表於2024-09-12

程式碼連結: https://github.com/HKUDS/OpenCity

論文連結: http://arxiv.org/abs/2408.10269

實驗室主頁: https://sites.google.com/view/chaoh

01 導讀

精確的交通預測是實現高效城市規劃和交通管理的關鍵,它有助於最佳化資源分配並改善出行體驗。但是,現有的預測模型在面對未知區域和城市的零樣本預測任務,以及長期預測時,表現往往不盡如人意。這些問題主要歸因於交通資料在空間和時間上的異質性,以及跨時間和空間的顯著分佈變化。在本研究中,我們的目標是開發一個多功能、強魯棒性和高適應性的時空基礎模型,用於交通流量的預測。為此,我們設計了一種新型的基礎模型——OpenCity,它能夠捕捉並規範來自不同資料來源的潛在時空模式,以促進在不同城市環境中的零樣本泛化能力。OpenCity融合了Transformer和圖神經網路,以模擬交通資料中的複雜時空依賴性。透過在大規模、多樣化的交通資料集上進行預訓練,OpenCity能夠學習到豐富且具有泛化能力的特徵表示,這些特徵表示適用於多種交通預測場景。我們的實驗結果表明,OpenCity在零樣本預測方面表現出色。此外,OpenCity還顯示出良好的可擴充套件性,這表明我們有望開發出一種能夠適應所有交通預測需求的解決方案,並且能夠以最小的額外成本適應新的城市環境。

02 概述

2.1 現有挑戰

C1. 空間泛化挑戰: 現有交通預測模型主要受限於其有限的空間泛化能力,難以適應因地區差異如基礎設施和人口特徵而異的交通模式。全面部署感測器網路收集資料在現實中不現實,因此,開發能夠基於有限資料泛化到新區域的模型顯得尤為重要。這樣的模型不僅能減少在不同城市部署時的成本,還能確保交通預測系統在多樣化的城市環境中有效執行,無需頻繁的重新訓練或調整。

C2. 時間泛化與長期預測: 儘管現有的交通預測模型在短期內(如未來一小時)的預測上表現良好,但它們在進行幾小時甚至幾天的長期預測時表現不佳。這是因為模型難以適應城市環境中隨時間變化的複雜交通模式。這種侷限性阻礙了城市規劃者和交通管理者制定有效的長期策略。

C3. 通用表徵學習 & 時空異質泛化: 開發能夠廣泛適用的交通模型,關鍵在於學習能夠泛化的交通動態的通用特徵。這樣的學習使模型能夠跨不同場景應用,即使缺乏特定場景的訓練資料。城市交通的多樣性和時空分佈的顯著變化要求模型能夠適應這些變化,以保持其多功能性和靈活性。

港大發布OpenCity: 大模型驅動下的智慧城市"新核心"

圖1:左側展示了交通資料集間資料分佈的顯著差異,強調了開發能夠適應這些差異的模型的重要性。右側則對比了OpenCity在零樣本條件下的表現與基線模型在全樣本條件下的表現,儘管面臨時空異質性分佈偏移的挑戰,OpenCity的效能依然與全樣本基線相媲美。

2.2 本文貢獻

(1)通用時空建模。OpenCity 專注於應對城市交通在不同地區和時間的多樣性及其變化。

(2)出色的零樣本預測表現。相較於僅在特定區域訓練的模型,OpenCity 展現了更優的效能。這證明了其學習泛化特徵的能力,允許模型在新環境中快速部署,無需大量重新訓練。

(3)快速適應。OpenCity 在多種時空預測任務中表現出廣泛的適用性,能夠迅速適應不同情境,實現靈活部署。

(4)良好的擴充套件性。OpenCity 顯示出積極的擴充套件潛力,意味著它可以在幾乎不需要額外訓練的情況下,有效適應新的未知場景。

03方法

港大發布OpenCity: 大模型驅動下的智慧城市"新核心"圖2: OpenCity 整體框架

3.1 用於分佈偏移泛化的時空嵌入

3.1.1 上下文歸一化

港大發布OpenCity: 大模型驅動下的智慧城市"新核心"

3.1.2 用於高效長期預測的Patch嵌入

港大發布OpenCity: 大模型驅動下的智慧城市"新核心"

3.2 時空上下文編碼

為了捕獲交通資料中複雜的時空模式,模型融合了時間和空間的上下文資訊。透過明確模擬這兩個維度的相互影響,OpenCity 能夠更深入地理解影響交通模式的多種因素。這種綜合方法使得該框架能夠在不同的時間段和地理區域內提供更精確的預測。

3.2.1 時間上下文編碼

港大發布OpenCity: 大模型驅動下的智慧城市"新核心"

3.2.2 空間上下文編碼

港大發布OpenCity: 大模型驅動下的智慧城市"新核心"

3.3 時空依賴建模

3.3.1 時間依賴建模

OpenCity 基於提出的 TimeShift Transformer 架構,專注於編碼時間依賴性。我們主要從兩個視角來捕捉交通模式:(1)週期性交通模式。我們的模型識別週期性且重複出現的交通模式,例如每小時、每天和每週的迴圈。透過編碼這些週期性變化,我們的方法能夠更準確地解釋交通網路中的規律性。(2)動態交通趨勢。除了週期性變化,我們的時間編碼器還捕捉交通資料隨時間演變的複雜和非線性的動態趨勢。

3.3.1.1 週期性交通轉換建模

港大發布OpenCity: 大模型驅動下的智慧城市"新核心"

3.3.1.2 動態交通模式學習

港大發布OpenCity: 大模型驅動下的智慧城市"新核心"

3.3.2 空間依賴建模

港大發布OpenCity: 大模型驅動下的智慧城市"新核心"

04 實驗

4.1 零樣本 vs. 全樣本

我們對OpenCity的零樣本效能進行了全面的測試,涵蓋了跨區域、跨城市和跨型別三種情況,並與基線模型的全樣本效能進行了比較,測試結果如表1。

(1)優越的零樣本預測效能。*OpenCity 在零樣本學習領域實現了顯著進展,無需額外微調即可超越多數基線模型。這一點凸顯了該方法在掌握大規模交通資料中的複雜時空模式、提取適用於各種任務的通用知識方面的可靠性和高效性。在多個資料集上,OpenCity 能夠保持在前兩名,即使不是領先,與最佳效能(MAE)的差距也控制在8%以內。這種出色的零樣本預測能力證明了 OpenCity 在應對多樣化交通資料集時的普適性和適應性,無需廣泛的重新訓練。其核心優勢在於能夠迅速部署到新場景,大幅減少傳統監督學習方法通常所需的時間和資源,為實際應用帶來顯著優勢。

(2)卓越的跨任務泛化能力。我們在四個不同的交通資料類別中對OpenCity進行了評估:交通流量(CAD3、CAD5)、交通速度(PEMS07M、TrafficSH)、計程車需求(CHI-TAXI)和腳踏車軌跡(NYC-BIKE)。基線分析表明,儘管各種模型在特定型別的資料上表現良好,但沒有一個模型能在所有類別中持續提供最優結果,且在其他領域保持同等水平的表現存在挑戰。與此相反,OpenCity 在所有測試類別中均提供了高質量的結果,展現了其出色的穩定性和多功能性。此外,為了測試 OpenCity 框架的通用性,我們評估了其在跨類別的零樣本泛化能力(以NYC-BIKE為例)。結果顯示,OpenCity 在多個評價指標上均保持了卓越的表現,進一步證實了其對多樣資料型別的適應性和普適性。

(3)優秀的長期預測表現。OpenCity 架構的一個顯著優勢是出色的長期預測能力,在長期交通預測任務中表現優於基線方法。許多現有模型在時間範圍延長時往往難以保持預測的準確性,因為它們可能會過度擬合曆史資料,未能充分捕捉交通狀況的動態性和演變。OpenCity 能夠從多種交通資料來源中學習到通用的時空特徵,這使得它能夠生成穩定的預測,即使在交通模式隨時間變化的情況下,預測結果依然可靠。

港大發布OpenCity: 大模型驅動下的智慧城市"新核心"

表1:零樣本 vs. 全樣本效能

4.2 有監督預測效能

為了進一步驗證 OpenCity 的效能,我們進行了監督學習評估。在這一評估中,OpenCity 在 one-for-all 配置下與基線模型在單個資料集上進行了端到端的訓練和測試對比。表 2 的結果表明,OpenCity 在監督學習設定中展現了卓越的效能,並在多數評估指標上保持領先。此外,我們注意到多數基線模型在 CAD-X 資料集上表現不佳,這可能是因為它們傾向於過度擬合曆史時空模式,導致難以泛化到長期交通依賴的建模。與此相反,OpenCity 架構有效地從預訓練階段提取了通用的週期性和動態時空特徵,解決了因跨時間和跨位置分佈偏移導致的預測效能下降問題。

港大發布OpenCity: 大模型驅動下的智慧城市"新核心"

表2:有監督任務評估

4.3 模型快速適應能力探索

在本節中,我們評估了 OpenCity 在下游任務中的快速適應性。我們專注於一個之前未接觸過的交通資料集,並採用了“高效微調”策略,具體包括:僅更新模型的預測頭部(最後一個線性層),且最多進行三個訓練週期。如表 3 所示,儘管 OpenCity 在某些指標上的零樣本效能起初不如基線模型的全樣本效能,這可能是由於交通模式和資料取樣的差異。然而,經過高效微調後,OpenCity 的表現顯著提高,超越了所有對比模型。值得注意的是,OpenCity 的訓練時間僅為基線模型所需時間的 2% 至 32%。這種快速適應性凸顯了 OpenCity 作為基礎交通預測模型的潛力,能夠迅速適應新的時空資料型別。

港大發布OpenCity: 大模型驅動下的智慧城市"新核心"

表3:OpenCity 快速適應性評測

4.4 消融實驗

(1)動態交通建模的重要性。-DTP。移除動態交通建模模組後效能下降,表明該模組能夠有效分析最新交通模式,並適應交通狀況的突變來最佳化預測。

(2)週期性交通轉移建模的作用。-PTTM。我們取消了週期性編碼,直接將時間和空間上下文融入時空嵌入。效能的衰減表明,OpenCity 透過對映歷史與未來時間對之間的交通流有效地捕獲了影響時空模式演變的普遍規律。

(3)空間依賴性建模的作用。在 -SDM 變體中,我們移除了空間編碼模組。分析表明,學習空間關係顯著提升了時空預測能力。透過整合依賴空間區域的交通訊息,模型有效地識別了動態交通流模式,為零樣本交通預測提供了重要輔助。

(4)時空上下文編碼的作用。在 -STC 變體中,我們移除了時空上下文資訊的編碼,導致效能顯著下降。時間上下文資訊幫助模型識別並學習特定時段的常見交通模式,而區域嵌入包含了關鍵的區域特定特徵。這些元素共同為理解城市間動態時空模式提供了寶貴見解。

港大發布OpenCity: 大模型驅動下的智慧城市"新核心"

圖3:OpenCity 消融實驗

4.5 模型可擴充套件性研究

如圖 4 所示,本節研究了 OpenCity 在資料量和引數規模兩個方面的可擴充套件性。引數規模可擴充套件性涵蓋了三個版本:OpenCity-mini(2M萬引數)、OpenCity-base(5M引數)和 OpenCity-plus(26M引數)。在資料規模可擴充套件性方面:對於模型plus,我們採用了 10%、50% 和 100% 的預訓練資料,以探究增加資料量的優勢。為了便於比較,縱軸表示的是相對預測誤差。結果表明,隨著引數數量和資料量的增加,OpenCity 的零樣本泛化效能逐步提高。這證明了 OpenCity 能夠從大規模資料集中提取有價值的資訊,並且透過增加引數數量來增強其學習效能。展示的可擴充套件性潛力支援了 OpenCity 成為通用交通應用基礎模型的可能性。

港大發布OpenCity: 大模型驅動下的智慧城市"新核心"

圖4:模型可擴充套件性研究

4.6 與大規模時空預測模型的比較

本節中,我們將 OpenCity 與其它先進的大型時空預訓練模型進行了對比,包括以出色的零樣本泛化能力聞名的 UniST 和 UrbanGPT。我們選用了三個模型預訓練階段均未涉及的 CHI-TAXI 資料集進行評估。表 4 的結果表明,OpenCity 在眾多先進的大規模時空模型中保持了明顯的效能優勢。此外,與 UrbanGPT 相比,OpenCity 和 UniST 展現出了顯著的效率提升。這可能是因為 UrbanGPT 依賴於問答格式的大型語言模型 (LLM) 進行預測,這限制了其處理批次資料的效率。OpenCity 模型在效能和效率上均實現了優異表現,彰顯了其作為交通基準測試中強大大規模模型的潛質。

港大發布OpenCity: 大模型驅動下的智慧城市"新核心"

表4:與大規模時空預測模型的比較實驗

05 總結與展望

本文提出了 OpenCity,一個用於交通預測的可擴充套件時空基礎模型,它在多個交通預測場景中展現了精確的零樣本預測能力。該模型採用 Transformer 編碼器架構作為核心,以建模動態時空依賴性,並透過在大規模交通資料集上的預訓練,OpenCity 在各種下游任務中表現出色,其零樣本預測效能與全樣本設定下的先進基線模型相媲美。提出的 OpenCity 框架能夠有效處理不同分佈的資料,並且具有高效的計算效能。考慮到其展現出的積極的擴充套件趨勢,這為開發一個強大且通用的交通預測解決方案奠定了基礎,該方案能夠輕鬆適應不同的城市環境和交通網路。

相關文章