時間序列分析是資料科學和機器學習領域最廣泛的主題之一:無論是預測金融事件、能源消耗、產品銷售還是股票市場趨勢,這一領域一直是企業非常感興趣的領域。
隨著機器學習模型的不斷進步,使除了傳統的統計預測方法(如迴歸模型、ARIMA模型、指數平滑)外,與機器學習(如基於樹的模型)和深度學習(如LSTM網路、cnn、基於Transformer的模型)相關的技術已經出現了一段時間。
儘管這些技術之間存在巨大差異,但無論模型是什麼,都必須完成一個初步步驟:探索性資料分析。
在統計學中,探索性資料分析(Exploratory Data Analysis, EDA)是對資料進行分析和視覺化,以總結資料的主要特徵並從中獲得相關資訊的一門學科。這在資料科學領域非常重要,因為它可以為另一個重要步驟奠定基礎:特徵工程。
所以我們今天這篇文章將總結一個時間序列資料的分析模板,可以總結和突出資料集的最重要特徵。我們將使用一些常見的Python庫,如Pandas、Seaborn和Statsmodel。
為了方便演示,將使用Kaggle的小時能耗資料。該資料集與PJM小時能源消耗資料有關,PJM是美國的一個區域輸電組織,為幾個州提供電力。每小時的電力消耗資料來自PJM的網站,單位是兆瓦。
我在本文中我們將EDA總結為六個步驟:描述性統計、時間圖、季節圖、箱形圖、時間序列分解、滯後分析。
https://avoid.overfit.cn/post/a29fb376d9f145fcad2e9c82cea7ea51