專案總結 | 對【時間】構建的特徵工程

忽逢桃林發表於2020-07-27

原文網址 : https://www.cnblogs.com/PythonLearner/p/13358411.html

寫文章的目的在於之前面試的時候，提到某一個時間序列專案的特徵工程處理。我說的大多數都是一些資料清洗、資料去除異常點、針對資料特性做出的特別的特徵工程的操作，然後面試官給我的建議是下一次面試多說一下常規的特徵工程處理，因為這樣面試官才會跟你有共鳴，能更好的理解你說的特徵工程是什麼。

本文主要講述一些比較有意思的特徵工程。但是這個有意思就是不那麼普通，但是也不那麼特殊，讓人看了耳目一新的那種感覺。

有趣的特徵工程

【節假日消耗的能源更多？】
不管是什麼任務中，預測家庭能源消耗、預測消費情況等等，節假日都是一個需要注意的特徵，因為放假了就會消耗更多的能源，產生更多的消費購物。

不過需要注意的是：歐美國家的一些節假日和中國不一樣，所以需要看一下歐美的法定節假日日期以及週末的放假日期。

【分離時間戳產生更多特徵？】
一般時間戳timestamp可能是這樣的格式：13:21 20/3/1997，這樣的話，可以把這個timestamp分離成5個特徵:hour,minute,day,month,year。

進一步的，可以對小時資料進行資料探索分析，看看是否存在白天黑夜的不同導致的對預測結果的影響？對day和month進行分析，看看是否存在節假日對預測結果的影響。

【日期資料的迴圈性】
通常對於上面的hour特徵是[0,23]的，但是其實0點和23點並不像數字本身看起來差別那麼巨大，所以可以使用cos或者sin來將時間變成一個迴圈。相似的是星期一與星期日的差別。

【其他的tricks】

人造節日是否考慮進去？中國的6.18，5.20，11.11，12.12等
季節導致的偏移是否存在？可能同樣的情況春天發生和秋天發生並不相同？

常規的特徵工程

滑動視窗法。尋找100個時間相鄰的樣本的某一個特徵的某一個統計特性，比如：

均值mean()
中位數median()
最大值max()
最小值min()
標準差std()
四分位點quantile(q=0.25)/quantile(q=0.75)
資料的偏度df.skew()
資料的峰度df.kurt()
資料的絕對離差df.max(),資料與其均值的差的絕對值的平均值
絕對值的最大值
絕對值的最小值
梯度的絕對值
最大值與最小值的差值
最大值與最小值的倍數
使用時間序列的shift偏移

週期性的特徵工程

部分時間特徵是具有周期性的。可能是一個月是一個週期，也可能一個季度，一年等等。為了尋找這個週期性，可以使用自相關係數來尋找。簡單的說，就是通過平移特徵工程，然後繪製自相關係數隨著平移距離的函式影像。

有了這個週期性之後，就可以構建更多的特徵。比方說同比（去年同月）或者環比（相鄰月份）。環比和同比一般都是比率，我們可以再構建這個環比的梯度，類似二階差分。

卡爾曼濾波器

在百度搜尋“時間序列濾波”等關鍵詞的時候，會發現有下面的內容：

使用kalman濾波器好像可以作為時間序列的一種特徵工程。

其實是這樣的，在處理一些微觀資料的時候，有的時候觀測儀器會存在測量誤差，這個時候我們可以使用卡爾曼濾波器來進行一定的矯正。

對於每一個時間點的資料，獲取的方法有兩個：

第一個就是觀測，但是測量的結果不一定準確，可能受限於測量儀器的精度？
第二個就是用這個時間點之前的所有資料，預測這個時間點的資料，當然，這個預測值也是不準的。
可否利用這兩種方法，相互促進，預測的值更準，或者說讓觀測到的值更接近本質？Kalman Filter卡爾曼濾波器就這樣做的。

這裡不加贅述了，更多內容可以看這篇文章，通俗講解了卡爾曼濾波器以及python實現方法，方便下次直接拿輪子來用：
kalman filter-卡爾曼濾波器與python實現

掌握時間序列特徵工程：常用特徵總結與 Feature-engine 的應用
2024-04-20
特徵工程
優化 iOS 專案的構建時間（二）
2019-03-04
優化iOS
大規模特徵構建實踐總結
2018-11-19
特徵
企業級React專案的個人構建總結
2019-03-04
React
如何構建「大型 Node.js 專案」的專案結構？
2018-05-15
Node.js
IDEA使用Gradle構建SpringBoot專案工程
2020-07-24
IdeaGradleSpring Boot
Kotlin專案中 GlideApp 構建失敗經驗總結
2018-10-18
KotlinIdeaAPP
Android Studio目錄結構及工程專案結構解析
2018-12-11
Android
【完結篇】專欄 | 基於 Jupyter 的特徵工程手冊：特徵降維
2020-06-28
特徵工程
工程專案管理的7個主要特徵，你知道嗎？
2024-10-30
專案管理特徵
使用VUE寫一段時間專案的個人總結-元件篇
2019-01-10
Vue元件
Maven 專案獲取 Git 的提交分支、commit id、構建時間等資訊
2024-11-02
MavenGitMIT
離職後，對專案的記錄、總結
2018-06-13
【Vue專案總結】後臺管理專案總結
2019-06-18
Vue
實戰專案後對 React Hooks 總結
2019-07-08
ReactHook
流批一體的實時特徵工程平臺建設實踐
2023-03-29
特徵工程
BBS專案專案總結
2024-03-29
特徵工程系列：（三）特徵對齊與表徵
2021-07-19
特徵工程
重構商城App專案——知識總結
2019-08-02
APP
對付時間不充足的專案的一些思路
2019-07-25
結對專案
2024-09-29
構建小程式總結
2020-05-10
在 Java Spring Boot 專案中使用結構化日誌節省時間
2021-11-16
JavaSpring Boot
AndroidStudio配置settings.gradle在工程中構建多個專案
2018-09-04
AndroidGradle
oracle的interval時間格式的總結
2018-04-16
Oracle
如何構建大型的前端專案
2018-10-11
前端
番茄專案總結
2019-01-13
Nuxt專案總結
2019-09-26
UX
今日專案總結
2020-10-14
Laravel 專案總結
2020-03-28
Laravel
專欄 | 基於 Jupyter 的特徵工程手冊：特徵選擇（五）
2020-05-24
特徵工程
專欄 | 基於 Jupyter 的特徵工程手冊：特徵選擇（四）
2020-05-07
特徵工程
專欄 | 基於 Jupyter 的特徵工程手冊：特徵選擇（一）
2020-04-22
特徵工程
專欄 | 基於 Jupyter 的特徵工程手冊：特徵選擇（二）
2020-04-24
特徵工程
專欄 | 基於 Jupyter 的特徵工程手冊：特徵選擇（三）
2020-04-24
特徵工程
Gradle之多專案構建
2018-09-17
Gradle
JAVA專案映象構建
2024-03-28
Java
Gradle構建SpringBoot專案
2020-05-26
GradleSpring Boot

專案總結 | 對【時間】構建的特徵工程

有趣的特徵工程

常規的特徵工程

週期性的特徵工程

卡爾曼濾波器

相關文章