一、引言
Python 作為一種強大的程式語言,在資料分析領域中發揮著重要作用。本文將帶領讀者深入探索 Python 資料分析的高階技術,透過實際案例和程式碼示例,幫助讀者提升資料分析能力和解決實際問題的能力。
二、資料讀取與預處理
import pandas as pd # 讀取 CSV 檔案 data = pd.read_csv('data.csv') # 讀取 Excel 檔案 data = pd.read_excel('data.xlsx') # 從 SQL 資料庫中讀取資料 import sqlite3 conn = sqlite3.connect('database.db') data = pd.read_sql_query('SELECT * FROM table_name', conn) conn.close()
# 處理缺失值 data.fillna(value=0, inplace=True) # 用 0 填充缺失值 # 處理異常值 data = data[(data['column_name'] > lower_bound) & (data['column_name'] < upper_bound)] # 處理重複值 data.drop_duplicates(inplace=True)
三、資料探索與視覺化
import matplotlib.pyplot as plt import seaborn as sns # 繪製柱狀圖 sns.barplot(x='category', y='value', data=data) plt.show() # 繪製折線圖 plt.plot(data['x'], data['y']) plt.xlabel('X') plt.ylabel('Y') plt.show() # 繪製箱線圖 sns.boxplot(x='category', y='value', data=data) plt.show()
四、高階資料分析技術
from sklearn.cluster import KMeans # 假設資料為 X kmeans = KMeans(n_clusters=3) # 設定聚類數為 3 kmeans.fit(X) # 獲取聚類標籤 labels = kmeans.labels_
from sklearn.decomposition import PCA # 假設資料為 X pca = PCA(n_components=2) # 設定主成分數為 2 X_pca = pca.fit_transform(X)
import pandas as pd import statsmodels.api as sm # 讀取時間序列資料 data = pd.read_csv('time_series_data.csv', index_col='date', parse_dates=True) # 平穩性檢驗 from statsmodels.tsa.stattools import adfuller result = adfuller(data['value']) if result[1] <= 0.05: print("資料是平穩的") else: print("資料是非平穩的,需要進行差分處理") # 建模與預測 model = sm.tsa.ARIMA(data['value'], order=(1, 1, 1)) results = model.fit() forecast = results.forecast(steps=5) # 預測未來 5 個時間點的值
五、實戰案例
透過一個實際的資料分析專案,綜合運用上述技術,解決實際問題。例如,對銷售資料進行分析,預測未來銷售趨勢,找出影響銷售的關鍵因素等。
本文程式碼部分轉自:https://www.wodianping.com/app/2024-10/37519.html
六、總結
本文介紹了 Python 資料分析的高階技術,包括資料讀取與預處理、資料探索與視覺化、高階資料分析技術和實戰案例。透過學習這些內容,讀者可以提升自己的資料分析能力,更好地應對實際工作中的資料分析任務。