長時間交通狀況預測,可以用大模型實現了。
香港大學聯合華南理工大學和百度,推出了長時間城市交通預測模型 ——OpenCity。
而且泛化能力極強,可有效應用于廣泛的交通預測場景。
為了解決傳統交通預測模型泛化性及長期預測能力不足的問題,研究團隊新的基礎模型 OpenCity。
OpenCity 結合了 Transformer 架構和圖神經網絡,用以模擬交通數據中復雜的時空依賴關系。
通過在大規模、異質性交通數據集上進行預訓練,OpenCity 能夠學習豐富、具有泛化性的表征,這些表征可有效應用于廣泛的交通預測場景。
相比于傳統方法,OpenCity 具有以下特點:
通用時空建模:OpenCity 旨在有效處理不同空間區域和時間城市交通模式的固有多樣性和變化。
卓越的零樣本預測能力:與僅在目標區域訓練的全樣本模型相比,OpenCity 展示了更優越的性能。這種顯著的零樣本能力突出了模型學習泛化表征的能力,使其能夠無需廣泛重新訓練或微調即可無縫應用于新的交通環境。
快速的情境適應能力:OpenCity 在不同天的時空預測任務中展現了廣泛的適用性。模型只需快速微調就能適應上下文,可以無縫部署在各種場景中。
可擴展性:OpenCity 展示了有希望的縮放定律,表明該模型有潛力在最小的額外訓練或微調需求下有效地擴展和適應新的、以前未見過的場景。
當前的交通預測模型,主要面臨著三大挑戰。
一是跨區域空間泛化能力。
當前交通預測模型的一個關鍵局限是它們在空間泛化能力欠佳。
不同地理位置的交通模式可能因基礎設施、人口統計等因素而有很大差異,現有模型通常僅從特定區域的數據中學習,無法有效地泛化到其他區域。
然而,在整個城市區域部署全面的傳感器網絡來收集交通數據是不切實際的。
一種更可行的方法是構建能夠僅使用部分數據就能很好泛化到未見區域的模型。
此外,開發適用于不同城市的時空模型將顯著降低部署和維護成本。
解決空間泛化挑戰對于創建可以在不同城市環境中無縫部署,無需大量重新訓練或微調的交通模型至關重要。
第二個挑戰是時間泛化與長期預測。
當前的交通預測模型擅長于短期預測,例如預測未來一小時內的交通狀況。
然而,它們在泛化到更長時間框架,如未來幾小時或幾天的能力明顯有限。
這種限制主要是由于模型在有效處理實際城市場景中較長時間范圍內發生的時間分布變化方面的泛化能力較差。
隨著預測時間范圍的增加,這些模型難以捕捉和考慮影響長期交通狀況的交通模式的動態變化。
這一限制為城市規劃者和交通機構制定有效的長期戰略帶來了較大障礙。
第三是學習有效的通用表征并應對時空異質性。
學習強大、具有泛化能力的交通動態表征對于開發多功能交通模型至關重要。
通過學習通用表征,模型可以獲得對交通模式的堅固且可轉移的理解,使其能夠有效地應用于多種場景,即使沒有特定領域的訓練數據。
此外,城市交通模式的特點是其固有的多樣性,在不同的空間區域和時間顯示出顯著的分布變化。
解決這種異質性對于確保統一的時空交通模型保持多功能性和適應性至關重要。
下方左圖展示了不同交通數據集中數據分布的變化,突出了需要能夠處理這種差異的模型的必要性;
右圖比較了 OpenCity 在零樣本下的性能與基線在全樣本下的性能,盡管存在時空異質性分布偏移挑戰,OpenCity 的表現仍與全樣本基線相當。
為了解決這些挑戰,研究團隊采取了一系列新策略。
用于分布偏移泛化的時空嵌入上下文歸一化現有方法通常利用訓練數據的統計特性如均值和標準差等,進行數據歸一化。
然而,當測試數據顯示出顯著的數據異質性且與訓練數據分布沒有地理空間重疊時,這些匯總統計可能是不充分的或不可轉移的。
為了應對這一挑戰并適應零樣本交通預測任務,作者采用實例歸一化 IN (?) 來處理數據。
這種方法利用每個區域的單個輸入實例 Xr ∈ ?^T 的均值 μ(Xr) 和標準 σ(Xr),而不依賴于全局訓練集的統計數據,它能夠有效緩解訓練數據和測試數據分布偏移的問題,形式化如下:
OpenCity 旨在解決長期交通預測問題,這涉及處理增加的輸入時間步數,導致顯著的計算和內存開銷。
為了緩解這些問題,作者采用基于 Patch 的方法按時間維度劃分數據。
定義 P 為 Patch 長度,指定分組到單個 Patch 中的時間步數,以及 S 為步長大小,決定連續 Patch 之間的重疊。
Patch 操作后,輸入數據被重塑為 Xr^P ∈ ?^(P×N),其中 N 是塊的數量,N = (T-P) / S +1。
通過將一小時的交通數據視為單個補丁的長度,并相應地調整步長(S=P),使得模型能夠捕捉并適應交通數據在延長時間范圍內的演變模式。
此外,基于補丁的處理顯著降低了計算和內存需求,使得更高效和可擴展的長期交通預測成為可能。
在 patch 操作后,作者使用線性轉換和正余弦位置編碼 PE 以得到最終時空嵌入表征 Er ∈ ?^(P×d),它被用于后續組件的輸入,如下:
為了捕捉交通數據中固有的復雜時空模式,模型整合了時間和空間上下文線索。
通過顯式地模擬這兩個關鍵維度之間的相互作用,OpenCity 能夠更好地理解影響交通模式的多方面因素。
這種集成方法使所提出的框架能夠在不同的時間范圍和地理區域中生成更準確的預測。
時間上下文編碼OpenCity 模型有效地捕捉了交通數據中的獨特時間模式,例如由日常或周常規引起的周期性變化,以及在更長的時間尺度上的復雜非線性依賴。
具體來說,作者利用一天中的時間 z^(d) ∈ ?^T 和一周中的某天 z^(w) ∈ ?^T 等時間特征來提取周期關聯,然后采用線性層來生成編碼這些時間上下文線索的時間特定嵌入。
通過顯式地模擬交通流的周期性特征,該方法即使在長期預測范圍下也能實行精確預測。
時間上下文編碼過程結合了 patch 操作與時空嵌入表征對齊,形式化如下:
由于地理特性的獨特性,不同區域的交通模式各不相同(如交通樞紐有著的較高流量)。
為了捕捉這些區域屬性,作者在交通網絡中整合了空間上下文。
首先,作者計算了標準化的拉普拉斯矩陣,其中 I 和 D 分別是單位矩陣和度數矩陣:
然后作者執行看特征值分解,得到 △=UΛU^T,其中 U 和 Λ 分別是特征值矩陣和特征向量矩陣。
使用 k 個最小的非平凡特征向量作為區域嵌入 Φ ∈ ?^(R×k),編碼交通網絡的結構信息。
然后通過線性層處理這些嵌入,以獲得最終的空間編碼 C ∈ ?^(R×d)。
時空依賴建模時間依賴建模OpenCity 在所提出的 TimeShift Transformer 架構上構建,以編碼時間依賴關系。作者主要從兩個互補的視角捕捉交通模式:
周期性交通轉換:作者的模型捕捉周期性的、反復出現的交通模式,如每小時、每日和每周的循環。通過編碼這些周期性變化,我們的方法可以更好地解釋交通網絡中的固有規律性。
動態交通模式:除了周期性變化外,作者的時間編碼器還捕捉交通數據隨時間演變的復雜、非線性時態動態和趨勢。
周期性交通轉換建模
作者利用時間嵌入 D 和空間嵌入 C 捕獲交通中的周期性模式,目標是揭示歷史交通模式與未來實例之間的相關性。
其中,時間嵌入被更新為兩個組成部分:
D^his ∈ ?^(R×p×d):捕捉歷史時間信號。
D^pre ∈ ?^(R×p×d):未來預測的預期時間信息。
作者的模型明確地模擬了歷史和未來導向的時間模式,使其能夠更好地學習和利用交通時間序列的周期性特征。
這個過程通過構建時間轉移多頭注意力機制實現 ——
將未來的時空嵌入作為查詢(Query),歷史的時空嵌入作為鍵(Key),以及歷史的時空數據表示作為值(Value)。
作者引入了 RMSNorm 來提高訓練穩定性。
通過明確建模歷史與未來時間信息之間的關系,OpenCity 具備了發現周期性時空交通模式的能力。
動態交通模式學習
該模塊旨在捕捉不同時間段之間的動態依賴關系,例如,突發的交通事故可能導致交通速度和交通量急劇下降。
為了實現這一點,我們采用類似于周期交通轉換編碼的注意力機制。
不同之處在于,查詢(Q)、鍵(K)和值(V)的輸入被替換為上一步的歸一化輸出(M)。
這一修改使得模型能夠專注于學習不同時間段之間的動態依賴關系,而不僅僅是周期模式。
得到的時間表示 H ∈ ?^(R×p×d) 捕捉了這些動態時空關系。
空間依賴建模捕捉空間依賴性是模型設計的一個關鍵方面,因為交通網絡表現出強空間相關性,一個區域的交通狀況往往受到鄰近區域狀態的影響。
為了建模這些空間關聯,作者采用了圖卷積網絡(GCNs):
殘差連接、RMSNorm 和 SwiGLU 激活函數被用于后續運算。
所提出的模型通過堆疊多層此類時空編碼網絡,捕捉復雜的時空依賴關系,使其能夠學習交通網絡內復雜的關系。
測試結果零樣本 vs. 全樣本作者全面測試了 OpenCity 的零樣本性能,包括跨區域,跨城市和跨類型三種情形,并于基線全樣本性能進行對比。
首先,OpenCity 顯現出了卓越的零樣本預測性能。
OpenCity 在零樣本學習方面取得了重大突破,即使不進行微調,也超越了大多數基線。
這突出了該方法在學習大規模交通數據中復雜的時空模式、提取適用于下游任務的通用見解方面的穩健性和有效性。
OpenCity 在多個數據集上能夠保持前兩名的位置,即使在不領先的情況下差距也保持在 8%(MAE)以內。
卓越的零樣本預測性能凸顯了 OpenCity 在處理多樣化交通數據集上的通用性和適應性,無需廣泛重新訓練。
其關鍵優勢在于可以立即部署到新場景中,顯著減少傳統監督方法通常所需的時間和資源,為實際應用帶來了巨大的好處。
OpenCity 還表現出了卓越的跨任務泛化能力。
作者在交通流量(CAD3、CAD5)、交通速度(PEMS07M、TrafficSH)、出租車需求(CHI-TAXI)和自行車軌跡(NYC-BIKE)這四個不同的交通數據類別中評估了 OpenCity。
基線分析顯示,雖然各種模型在特定數據類型上表現出色,但沒有一個能夠在所有類別中始終提供最佳結果。
然而,它們在其他領域保持該水平的表現卻存在困難。
相比之下,OpenCity 在所有測試類別中始終提供高質量的結果,突顯其卓越的穩健性和多功能性。
此外,為了評估 OpenCity 框架的通用性,作者在測試期間評估了其跨類別的零樣本泛化能力(NYC-BIKE)。
結果顯示 OpenCity 在多個指標保持了優異的表現,進一步驗證了其普適性和適應多樣數據類型的能力。
此外,OpenCity 還擁有強大的長期預測能力。
OpenCity 架構的一個關鍵優勢是其卓越的時間泛化能力,其能夠在長期交通預測任務中優于基線方法。
許多現有模型常常難以在延長的時間范圍內維持準確的預測,因為它們傾向于過度擬合歷史模式,未能充分捕捉交通條件的動態和演變特性。
OpenCity 能夠從多樣化交通數據源學習通用時空表征,這使其能夠生成穩健的預測,即使交通模式隨時間變化和演進,預測仍然可靠。
為了進一步驗證 OpenCity 的性能,作者進行了監督學習評估。
其中,OpenCity 在 one-for-all 設置下與基線在單個數據集端到端訓練測試進行對比。
OpenCity 在監督設置中保持出色的表現,并在大多數評估指標中占據領先優勢。
此外,作者觀察到大多數基線模型在 CAD-X 數據集上表現不佳,可能是因為它們傾向于過度擬合歷史時空模式,使得它們難以泛化到長期交通依賴建模。
相比之下,OpenCity 架構有效地從我們的預訓練階段提取了通用的周期性和動態時空表征,解決了由于跨時間和跨位置分布偏移引起的預測性能不佳的問題。
△ 有監督性能評估
模型快速適應能力探索本節評估了 OpenCity 在下游任務中的快速適應能力。
作者關注了一個之前未見過的交通數據集,并采用了“高效微調”方法,設置如下:
只更新模型的預測頭(最后一個線性層),最多進行三個訓練周期。
結果,OpenCity 在某些指標上的零樣本表現不如基線模型的全樣本表現,這可能是由于交通模式和數據采樣的變化。
然而,經過高效微調后,OpenCity 的表現顯著提升,超過了所有比較的模型。
值得注意的是,OpenCity 的訓練時間只占基線所需時間的 2% 至 32%。
這種快速的適應能力突顯了 OpenCity 作為基礎交通預測模型的潛力,能夠迅速適應新的時空數據類別。
動態交通建模的效用(-DTP):移除動態交通建模模塊后出現性能下降,展示了該模塊能充分分析最近的交通模式,并有效地適應交通條件的突然變化來調整其預測。
周期性交通轉移建模的影響(-PTTM):我移除了周期相關編碼,直接將時間和空間上下文整合到時空嵌入中。通過建模交通流在歷史-未來時間對之間的映射,OpenCity 捕捉了控制時空模式演變的一般規律。
空間依賴性建模的影響(-SDM):去除了空間編碼模塊。分析顯示,學習空間關系顯著增強了時空預測能力。通過聚合來自依賴空間區域的交通信息,模型有效地捕捉了動態交通流模式,從而為零樣本交通預測提供了有價值的輔助信號。
時空上下文編碼的影響(-STC):移除了時空上下文信息的編碼,導致了性能的顯著下降。時間上下文信息幫助模型識別并學習特定時期內的常見交通模式,而區域嵌入包含了重要的區域特定特性。這些元素共同提供了理解城市間動態時空模式的寶貴見解。
作者還探索了 OpenCity 在數據和參數兩個維度上的可擴展性。
其中,參數可擴展性包括三個版本:OpenCitymini(2M 參數)、OpenCitybase(5M 參數)和 OpenCityplus(26M 參數)。
在模型 plus 下,作者使用了 10%、50% 和 100% 的預訓練數據來探索納入更多數據的好處。
為了標準化比較,縱軸代表相對預測誤差值。結果顯示,隨著參數和數據規模的增加,OpenCity 的零樣本泛化性能逐漸提升。
這表明 OpenCity 能夠從大規模數據集中提取有價值的知識,并且通過參數擴展增強了其學習能力。
所展示的可擴展性潛力支持 OpenCity 成為通用交通應用的基礎模型的前景。
作者還將 OpenCity 與其他先進的大型時空預訓練模型進行比較,包括以強大的零樣本泛化能力著稱的 UniST 和 UrbanGPT。
作者使用了三個模型的預訓練階段均未包含的 CHI-TAXI 數據集進行評估。
結果顯示,OpenCity 在其他先進的大規模時空模型中保持了顯著的性能優勢。
此外,OpenCity 和 UniST 相比于 UrbanGPT 顯示出顯著的效率改進。這可能是因為 UrbanGPT 依賴于通過問答格式進行預測的大型語言模型 (LLM),這限制了其高效處理批量數據的能力。
所提出的 OpenCity 模型在性能和效率上實現了雙贏,突顯了其作為交通基準測試的強大大規模模型的潛力。
總之,OpenCity 這個用于交通預測的可擴展時空基礎模型,在多個交通預測場景中實現了精確的零樣本預測性能。
通過采用 Transformer 編碼器架構作為建模動態時空依賴關系的主干,并在大規模交通數據集上進行預訓練,OpenCity 在各種下游任務上展示了卓越的零樣本預測性能,與全樣本設置下的最先進基線模型的結果相匹配。
論文地址:
http://arxiv.org/abs/2408.10269
GitHub:
https://github.com/HKUDS/OpenCity
項目組主頁:
https://sites.google.com/view/chaoh/home
本文來自微信公眾號:量子位(ID:QbitAI),作者:關注前沿科技
本文鏈接:http://www.www897cc.com/showinfo-45-6635-0.htmlOpenCity 大模型預測交通路況:零樣本下表現出色,來自港大百度
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com