華為最新提出的時序預測Mixers,取代Transformer實現效果速度雙提升
華為在這週四釋出了一篇最新的多元時間序列預測文章,借鑑了NLP中前一陣比較熱的Mixer模型,取代了attention結構,不僅實現了效果上的提升,也大大簡化了模型結構。
Transformer在時間序列預測中的作用最近得到比較多的探討。在Are transformers effective for time series forecasting?(2022)這篇文章中,就利用簡單的模型對Transformer提出了挑戰。下圖為一個典型的Transformer時間序列預測模型圖。
Transformer做時間序列預測有以下幾個問題。首先,temporal dependency的提取是時序預測的關鍵,而attention機制如何實現這種資訊提取還沒有被合理得到解釋。其次,Transformer對時間特徵、position embedding有很強的依賴性,這些資訊會和序列一起進入attention模組,影響了temporal dependency的學習。最後,Transformer模型本身的計算量很大,雖然一些工作提出了attention的高效計算方法,但是除了attention外,模型中還有很多其他元件計算量也很大。
文中對比了Transformer模型和其他結構的效果差異。如果將attention換成更簡單的傅立葉變換,效果是提升的。而去掉encoder和decoder之間的attention,效果反而提升非常大。這不禁讓人們懷疑attention機制在多大程度上幫助了時間序列預測任務。
多元時間序列無論是在temporal維度還是channel維度,都存在比較強的冗餘性。如下圖,在時間維度上,對一個序列進行下采樣,生成的新序列和原始序列保持著相似的趨勢性、季節性。
而在channel維度上,多元序列中不同的子序列也展示出相似的pattern。這些冗餘性都表明,大多數多元時間序列都存在低秩性,即只用一小部分資料就可以表示出近似完整的原始矩陣。利用這個性質,可以簡化多多元時間序列的建模。
MTS-Mixer的模型結構如下,第二列是一個抽象結構,後面3列是具體的實現方法。
這三種實現方式的整體計算邏輯可以表示為如下形式,時間維度資訊提取+空間維度資訊提取+資訊融合和輸出對映。
第一種結構方法是基於self-attention,這個版本基本類似Transformer,區別在於將Transformer的decoder部分去掉了,直接改成全連線的對映。因為從之前的實驗能夠看到,去掉encoder和decoder之間的attention效果反而是提升的。
第二種結構使用的是隨機初始化的矩陣。其計算公式如下,主要是將時間維度、channel維度使用兩個矩陣進行mixup,再加上一個輸出對映矩陣。這三個矩陣都是隨機初始化的。
第三種結構採用了因子分解的思路。由於上面分析的多元時間序列矩陣存在低秩性,因此文中設計了一種基於因子分解的時間維度和channel維度的mixup。對於時間維度的冗餘性,將源時間序列拆分成多個子序列,每段子序列分別進行temporal資訊的學習,然後再按原來的順序拼接傲一起。對於channel維度的冗餘性,使用SVD分解。整個計算邏輯如下,主要就是利用全連線做時間維度和channel維度的mixup:
文中在多個資料集上對比了MTS-Mixer和眾多Transformer模型的效果,發現即使不加attention結構,採用文中提出的簡單架構,就能取得超過Transformer的效果。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70024923/viewspace-2934967/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 谷歌Transformer再升級——新模型實現效能、速度雙提升,發展潛力巨大谷歌ORM模型
- 預測精度高達0.98,清華、深勢科技等提出基於Transformer的MOF材料多功能預測框架ORM框架
- 曠視科技提出雙向網路BiSeNet:實現實時語義分割SENet
- 時序資料庫QuestDB是如何實現每秒140萬行的寫入速度?資料庫
- 時間卷積網路(TCN)將取代RNN成為NLP預測領域王者卷積RNN
- 資源消耗降低 90%,速度提升 50%,解讀 Apache Doris Compaction 最新最佳化與實現Apache
- 基於Transformer的新方法,可從奈米孔測序中準確預測DNA甲基化ORM
- Transformer的Pytorch實現【1】ORMPyTorch
- 廣告投放效果難判斷?整合華為DTM為您輕鬆實現!
- SOFTS: 時間序列預測的最新模型以及Python使用示例模型Python
- 速度提高100萬倍,哈佛醫學院大神提出可預測蛋白質結構的新型深度模型模型
- AAAI 2020 | 華科Oral提出TANet:提升點雲3D目標檢測的穩健性AI3D
- 前端優化:DNS預解析提升頁面速度前端優化DNS
- 時序=影像?無需微調,視覺MAE跨界比肩最強時序預測大模型視覺大模型
- pytorch實現股票預測PyTorch
- Transformer模型:Position Embedding實現ORM模型
- 華為2020年的手機會有哪些特點?華為2020年的手機預測
- OneClock的翻頁時鐘效果是如何實現的
- CORNERSTONE | DevOps平臺是如何實現開發效率的雙倍提升?dev
- CSS實現頁面切換時的滑動效果CSS
- 聲網深度學習時序編碼器的資源預測實踐丨Dev for Dev 專欄深度學習dev
- 多角度分析,通訊時序資料的預測與異常檢測挑戰
- 史上首個實時AI影片生成技術:DiT通用,速度提升10.6倍AI
- 清華、華為等提出iVideoGPT:專攻互動式世界模型IDEGPT世界模型
- 報表展現時如何實現固定表頭效果
- 華為雲開源時序資料庫openGemini:使用列存引擎解決時序高基數問題資料庫
- 順序表的實現
- Swift如何純程式碼實現時鐘效果Swift
- 提高光學資料集利用率,天大團隊提出增強光譜預測效果 AI 模型AI模型
- 打造真實感十足的速度錶盤:WPF實現動態效果與刻度繪製
- LLM用於時序預測真的不行,連推理能力都沒用到
- 用Python實現一個實時運動的大掛鐘效果Python
- 提升使用者體驗的利器——使用 Vue-Occupy 實現佔位效果Vue
- 華為Mate 20跑分多少?華為Mate20最新跑分成績與遊戲效能測試遊戲
- FileReader初步使用實現上傳圖片預覽效果
- CSS3實現王者匹配時的粒子動畫效果CSSS3動畫
- 分支預測:為什麼有序陣列比無序陣列快?陣列
- 最新R0值3.11,疫情何時高峰難預測,這是你該知道的最新進展