TFB:2024最新時(shí)間序列預(yù)測(cè)Benchmark
今天給大家介紹一篇VLDB 2024中時(shí)間序列預(yù)測(cè)Benchmark的工作,文章由華東師范大學(xué),華為云,奧爾堡大學(xué)聯(lián)合發(fā)布。該論文提出了TFB(時(shí)間序列預(yù)測(cè)基準(zhǔn)測(cè)試),這是一個(gè)新穎的自動(dòng)化基準(zhǔn)測(cè)試框架,旨在通過(guò)包含來(lái)自十個(gè)不同領(lǐng)域的數(shù)據(jù)集,并提供一個(gè)靈活、可擴(kuò)展且一致的評(píng)估流程,對(duì)包括統(tǒng)計(jì)學(xué)習(xí)、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在內(nèi)的多種時(shí)間序列預(yù)測(cè)方法進(jìn)行全面且無(wú)偏見(jiàn)的評(píng)估。
該論文呼吁testing不使用drop-last操作,這一影響多個(gè)時(shí)序Baselines性能的代碼bug!

論文標(biāo)題:TFB: Towards Comprehensive and Fair Benchmarking of Time Series Forecasting Methods**
論文鏈接:??https://arxiv.org/pdf/2403.20150.pdf??
代碼鏈接:??https://github.com/decisionintelligence/TFB??
1、引言
這篇論文試圖解決的問(wèn)題包括:

問(wèn)題1. 數(shù)據(jù)領(lǐng)域覆蓋不足:現(xiàn)有的時(shí)間序列預(yù)測(cè)方法評(píng)估通常只覆蓋有限的領(lǐng)域,無(wú)法全面反映方法在多樣數(shù)據(jù)集下的表現(xiàn)。


問(wèn)題2. 對(duì)傳統(tǒng)方法的刻板影響:現(xiàn)有的評(píng)估往往忽略了傳統(tǒng)方法,如統(tǒng)計(jì)學(xué)習(xí),機(jī)器學(xué)習(xí)方法,大部分只關(guān)注深度學(xué)習(xí)方法。

問(wèn)題3. 缺乏一致和靈活的流程。不同的評(píng)估基準(zhǔn)使用不同的實(shí)驗(yàn)設(shè)置,如數(shù)據(jù)劃分、歸一化方法選擇、超參數(shù)設(shè)置,drop-last操作的使用,這使得公平的比較變得困難。此外,大多數(shù)測(cè)試基準(zhǔn)流程不靈活,無(wú)法支持統(tǒng)計(jì)學(xué)習(xí)、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法的同時(shí)評(píng)估。
2、drop-last操作說(shuō)明
現(xiàn)有的一些方法在測(cè)試階段使用“刪除最后一個(gè)批次的數(shù)據(jù)”的技巧。為了加速測(cè)試,通常將數(shù)據(jù)分成批次。然而,如果我們丟棄最后一個(gè)不完整批次:其中包含的樣本數(shù)量少于批次大小,這會(huì)導(dǎo)致不公平的比較。例如,在圖4中,ETTh2具有長(zhǎng)度為2,880的測(cè)試序列長(zhǎng)度,我們使用大小為512的回溯窗口預(yù)測(cè)336個(gè)未來(lái)時(shí)間步。如果我們選擇批次大小為32、64和128,那么最后一個(gè)批次中的樣本數(shù)量分別為17、49和113。除非所有方法都使用相同的批次大小,否則丟棄這些最后一個(gè)批次的測(cè)試樣本是不公平的,因?yàn)闇y(cè)試集的實(shí)際使用長(zhǎng)度不一致。圖4顯示了在ETTh2上使用不同批次大小和“刪除最后一個(gè)批次”技巧的PatchTST、DLinear和FEDformer的測(cè)試結(jié)果。我們觀察到,在變化批次大小時(shí),方法的性能會(huì)發(fā)生變化。
因此該論文呼吁testing不使用drop-last操作,該論文在testing中沒(méi)有使用drop-last操作。


3、時(shí)間序列特征說(shuō)明
趨勢(shì)性(Trend):趨勢(shì)性是指時(shí)間序列隨著時(shí)間的推移而發(fā)生的長(zhǎng)期變化或模式。直觀地說(shuō),它代表了數(shù)據(jù)漂移的大致方向。
季節(jié)性(Seasonality):季節(jié)性是指時(shí)間序列中的變化以特定的間隔重復(fù)的現(xiàn)象。
平穩(wěn)性(Stationarity):平穩(wěn)性是指時(shí)間序列的各階統(tǒng)計(jì)特征(如均值、方差…)不隨時(shí)間的變化而變化。
漂移性(Shifting):漂移性是指時(shí)間序列的概率分布隨時(shí)間變化的現(xiàn)象。這種行為可能源于系統(tǒng)內(nèi)部的結(jié)構(gòu)變化、外部影響或隨機(jī)事件的發(fā)生。
轉(zhuǎn)移(Transition):轉(zhuǎn)移捕捉了時(shí)間序列中存在的規(guī)律性和可識(shí)別的固定特征,例如趨勢(shì)、周期性的明確表現(xiàn),或者季節(jié)性和趨勢(shì)同時(shí)存在。
相關(guān)性(Correlation):相關(guān)性是指多變量時(shí)間序列中不同變量可能共享的可能性共同的趨勢(shì)或模式,表明它們受到相似的因素或具有某種潛在的關(guān)系。
這些特征的公式可從原論文中獲取。
4、TFB:基準(zhǔn)細(xì)節(jié)





5、實(shí)驗(yàn)
單變量時(shí)間序列預(yù)測(cè)

多變量時(shí)間序列預(yù)測(cè)


不同特征上的性能
根據(jù)實(shí)驗(yàn)結(jié)果,總結(jié)了不同方法在各種數(shù)據(jù)特征上的表現(xiàn)和排名。討論了基于Transformer的方法、線性方法以及考慮通道依賴性的方法在不同場(chǎng)景下的性能差異。研究了深度學(xué)習(xí)方法在多變量時(shí)間序列預(yù)測(cè)中的推理時(shí)間和參數(shù)數(shù)量的表現(xiàn)。提供了關(guān)于如何選擇適合特定數(shù)據(jù)集和場(chǎng)景的預(yù)測(cè)方法的見(jiàn)解。



? ?
6、關(guān)鍵發(fā)現(xiàn)
在某些數(shù)據(jù)集中,統(tǒng)計(jì)方法VAR和LinearRegression的表現(xiàn)優(yōu)于最近提出的SOTA方法。
當(dāng)數(shù)據(jù)集呈現(xiàn)增長(zhǎng)趨勢(shì)或明顯漂移時(shí),基于線性的方法表現(xiàn)良好。
基于Transformer的方法在具有明顯季節(jié)性、非線性模式以及更明顯模式或強(qiáng)內(nèi)部相關(guān)性的數(shù)據(jù)集上優(yōu)于基于線性的方法。
考慮通道之間依賴關(guān)系的方法,與假設(shè)通道獨(dú)立性的方法相比,有時(shí)可以提高多變量時(shí)間序列預(yù)測(cè)的性能,特別是在具有強(qiáng)相關(guān)性的數(shù)據(jù)集上。未來(lái)的文章應(yīng)該關(guān)注如何提取、利用變量間關(guān)系來(lái)進(jìn)行預(yù)測(cè)。
測(cè)試過(guò)程中使用drop-last操作會(huì)對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生很大影響,造成不公平比較現(xiàn)象,論文呼吁testing不使用drop-last操作,這一影響多個(gè)時(shí)序Baselines性能的代碼bug!
7、總結(jié)
本文提出了TFB,這是一個(gè)專門(mén)設(shè)計(jì)用于進(jìn)一步提高時(shí)間序列預(yù)測(cè)方法公平比較的基準(zhǔn),包括單變量時(shí)間序列預(yù)測(cè)和多變量時(shí)間序列預(yù)測(cè)。TFB在8,068個(gè)單變量時(shí)間序列上測(cè)評(píng)了超過(guò)20種UTSF方法以及在25個(gè)多變量數(shù)據(jù)集上對(duì)14種MTSF方法進(jìn)行了測(cè)評(píng)。
TFB確定、收集和處理先前提出的時(shí)間序列數(shù)據(jù)集,以確定涵蓋不同領(lǐng)域和特征的全面的數(shù)據(jù)集,并以標(biāo)準(zhǔn)化格式組織它們。然后,設(shè)計(jì)實(shí)驗(yàn)來(lái)研究不同方法在不同特征數(shù)據(jù)集上的表現(xiàn)。
TFB提供了一個(gè)自動(dòng)化的端到端流程,用于評(píng)估預(yù)測(cè)方法,簡(jiǎn)化和標(biāo)準(zhǔn)化加載時(shí)間序列數(shù)據(jù)集、配置實(shí)驗(yàn)和評(píng)估方法的步驟。這簡(jiǎn)化了研究人員的評(píng)估過(guò)程。此外,所有數(shù)據(jù)集和代碼都可在https://github.com/decisionintelligence/TFB上獲得。
TFB評(píng)估、比較了一系列方法,涵蓋了統(tǒng)計(jì)學(xué)習(xí)、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法以及豐富多樣的評(píng)估任務(wù)和策略。并將評(píng)估結(jié)果總結(jié)為一些關(guān)鍵發(fā)現(xiàn)。
本文轉(zhuǎn)載自??? 圓圓的算法筆記???,作者: Fareise

















