【SVM】kaggle之澳大利亞天氣預測

止一發表於2021-02-23

原文網址 : https://www.cnblogs.com/waterr/p/14433847.html

專案目標

由於大氣運動極為複雜，影響天氣的因素較多，而人們認識大氣本身運動的能力極為有限，因此天氣預報水平較低，預報員在預報實踐中，每次預報的過程都極為複雜，需要綜合分析，並預報各氣象要素，比如溫度、降水等。本專案需要訓練一個二分類模型，來預測在給定天氣因素下，城市是否下雨。

資料說明

本資料包含了來自澳大利亞多個氣候站的日常共15W的資料，專案隨機抽取了1W條資料作為樣本。特徵如下：

特徵	含義
Date	觀察日期
Location	獲取該資訊的氣象站的名稱
MinTemp	以攝氏度為單位的低溫度
MaxTemp	以攝氏度為單位的高溫度
Rainfall	當天記錄的降雨量，單位為mm
Evaporation	到早上9點之前的24小時的A級蒸發量(mm)
Sunshine	白日受到日照的完整小時
WindGustDir	在到午夜12點前的24小時中的強風的風向
WindGustSpeed	在到午夜12點前的24小時中的強風速(km/h)
WindDir9am	上午9點時的風向
WindDir3pm	下午3點時的風向
WindSpeed9am	上午9點之前每個十分鐘的風速的平均值(km/h)
WindSpeed3pm	下午3點之前每個十分鐘的風速的平均值(km/h)
Humidity9am	上午9點的溼度(百分比)
Humidity3am	下午3點的溼度(百分比)
Pressure9am	上午9點平均海平面上的大氣壓(hpa)
Pressure3pm	下午3點平均海平面上的大氣壓(hpa)
Cloud9am	上午9點的天空被雲層遮蔽的程度，0表示完全晴朗的天空，而8表示它完全是陰天
Cloud3pm	下午3點的天空被雲層遮蔽的程度
Temp9am	上午9點的攝氏度溫度
Temp3pm	下午3點的攝氏度溫度

專案過程

-處理缺失值

-刪除與預測無關的特徵

-隨機抽樣

-對分類變數進行編碼

-處理異常值

-資料歸一化

-訓練模型

-模型預測

專案程式碼（Jupyter）

import pandas as pd
import numpy as np

讀取資料探索資料

weather = pd.read_csv("weather.csv", index_col=0)
weather.head()
weather.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 142193 entries, 0 to 142192
Data columns (total 20 columns):
 #   Column         Non-Null Count   Dtype  
---  ------         --------------   -----  
 0   MinTemp        141556 non-null  float64
 1   MaxTemp        141871 non-null  float64
 2   Rainfall       140787 non-null  float64
 3   Evaporation    81350 non-null   float64
 4   Sunshine       74377 non-null   float64
 5   WindGustDir    132863 non-null  object 
 6   WindGustSpeed  132923 non-null  float64
 7   WindDir9am     132180 non-null  object 
 8   WindDir3pm     138415 non-null  object 
 9   WindSpeed9am   140845 non-null  float64
 10  WindSpeed3pm   139563 non-null  float64
 11  Humidity9am    140419 non-null  float64
 12  Humidity3pm    138583 non-null  float64
 13  Pressure9am    128179 non-null  float64
 14  Pressure3pm    128212 non-null  float64
 15  Cloud9am       88536 non-null   float64
 16  Cloud3pm       85099 non-null   float64
 17  Temp9am        141289 non-null  float64
 18  Temp3pm        139467 non-null  float64
 19  RainTomorrow   142193 non-null  object 
dtypes: float64(16), object(4)
memory usage: 22.8+ MB

刪除與預測無關的特徵

weather.drop(["Date", "Location"],inplace=True, axis=1)

刪除缺失值，重置索引

weather.dropna(inplace=True)
weather.index = range(len(weather))

1.WindGustDir WindDir9am WindDir3pm 屬於定性資料中的無序資料——OneHotEncoder
2.Cloud9am Cloud3pm 屬於定性資料中的有序資料——OrdinalEncoder
3.RainTomorrow 屬於標籤變數——LabelEncoder

為了簡便起見，WindGustDir WindDir9am WindDir3pm 三個風向中只保留第一個最強風向

weather_sample.drop(["WindDir9am", "WindDir3pm"], inplace=True, axis=1)

編碼分類變數

from sklearn.preprocessing import OneHotEncoder,OrdinalEncoder,LabelEncoder

print(np.unique(weather_sample["RainTomorrow"]))
print(np.unique(weather_sample["WindGustDir"]))
print(np.unique(weather_sample["Cloud9am"]))
print(np.unique(weather_sample["Cloud3pm"]))

['No' 'Yes']
['E' 'ENE' 'ESE' 'N' 'NE' 'NNE' 'NNW' 'NW' 'S' 'SE' 'SSE' 'SSW' 'SW' 'W'
 'WNW' 'WSW']
[0. 1. 2. 3. 4. 5. 6. 7. 8.]
[0. 1. 2. 3. 4. 5. 6. 7. 8.]

# 檢視樣本不均衡問題，較輕微
weather_sample["RainTomorrow"].value_counts()

No     7750
Yes    2250
Name: RainTomorrow, dtype: int64

# 編碼標籤
weather_sample["RainTomorrow"] = pd.DataFrame(LabelEncoder().fit_transform(weather_sample["RainTomorrow"]))

# 編碼Cloud9am Cloud3pm
oe = OrdinalEncoder().fit(weather_sample["Cloud9am"].values.reshape(-1, 1))

weather_sample["Cloud9am"] = pd.DataFrame(oe.transform(weather_sample["Cloud9am"].values.reshape(-1, 1)))
weather_sample["Cloud3pm"] = pd.DataFrame(oe.transform(weather_sample["Cloud3pm"].values.reshape(-1, 1)))

# 編碼WindGustDir
ohe = OneHotEncoder(sparse=False)
ohe.fit(weather_sample["WindGustDir"].values.reshape(-1, 1))
WindGustDir_df = pd.DataFrame(ohe.transform(weather_sample["WindGustDir"].values.reshape(-1, 1)), columns=ohe.get_feature_names())

WindGustDir_df.tail()

合併資料

weather_sample_new = pd.concat([weather_sample,WindGustDir_df],axis=1)
weather_sample_new.drop(["WindGustDir"], inplace=True, axis=1)
weather_sample_new

調整列順序，將數值型變數與分類變數分開，便於資料歸一化

Cloud9am = weather_sample_new.iloc[:,12]
Cloud3pm = weather_sample_new.iloc[:,13]

weather_sample_new.drop(["Cloud9am"], inplace=True, axis=1)
weather_sample_new.drop(["Cloud3pm"], inplace=True, axis=1)

weather_sample_new["Cloud9am"] = Cloud9am
weather_sample_new["Cloud3pm"] = Cloud3pm

RainTomorrow = weather_sample_new["RainTomorrow"]
weather_sample_new.drop(["RainTomorrow"], inplace=True, axis=1)
weather_sample_new["RainTomorrow"] = RainTomorrow

weather_sample_new.head()

為了防止資料歸一化受到異常值影響，在此之前先處理異常值

# 觀察資料異常情況
weather_sample_new.describe([0.01,0.99])

因為資料歸一化只針對數值型變數，所以將兩者進行分離

# 對數值型變數和分類變數進行切片
weather_sample_mv = weather_sample_new.iloc[:,0:14]
weather_sample_cv = weather_sample_new.iloc[:,14:33]

蓋帽法處理異常值

## 蓋帽法處理數值型變數的異常值

def cap(df,quantile=[0.01,0.99]):
    for col in df:
        # 生成分位數
        Q01,Q99 = df[col].quantile(quantile).values.tolist()
        
        # 替換異常值為指定的分位數
        if Q01 > df[col].min():
            df.loc[df[col] < Q01, col] = Q01
        
        if Q99 < df[col].max():
            df.loc[df[col] > Q99, col] = Q99
        

cap(weather_sample_mv)
weather_sample_mv.describe([0.01,0.99])

資料歸一化

from sklearn.preprocessing import StandardScaler

weather_sample_mv = pd.DataFrame(StandardScaler().fit_transform(weather_sample_mv))
weather_sample_mv

重新合併資料

weather_sample = pd.concat([weather_sample_mv, weather_sample_cv], axis=1)
weather_sample.head()

劃分特徵與標籤

X = weather_sample.iloc[:,:-1]
y = weather_sample.iloc[:,-1]

print(X.shape)
print(y.shape)

(10000, 32)
(10000,)

建立模型與交叉驗證

from sklearn.svm import SVC
from sklearn.model_selection import cross_val_score
from sklearn.metrics import roc_auc_score, recall_score

for kernel in ["linear","poly","rbf"]:
    accuracy = cross_val_score(SVC(kernel=kernel), X, y, cv=5, scoring="accuracy").mean()
    print("{}:{}".format(kernel,accuracy))

linear:0.8564
poly:0.8532
rbf:0.8531000000000001

Kaggle入門之房價預測
2018-08-02
2018世界盃澳大利亞vs秘魯誰會贏澳大利亞vs秘魯比分預測
2018-06-26
疾病預測和天氣分析練習賽
2020-09-27
react native天氣預報
2018-09-07
React Native
flutter天氣預報APP
2019-06-05
FlutterAPP
天氣預報API介面
2018-03-02
API
Python 獲取當地未來五天天氣天氣預報獲取天氣
2020-04-09
Python
Forrester：2021預測之亞太地區
2020-10-26
REST
Kaggle 入門並實戰房價預測
2019-05-25
澳大利亞 ASIC牌照
2022-05-05
Flutter實踐：天氣預報
2018-10-15
Flutter
天氣預報戰略升級為“新晴天氣”，深耕天氣+出行生活場景
2020-04-13
查詢天氣預報網站
2018-08-13
網站
0828-T3 天氣預報
2024-08-29
5.22 天氣預報系統小
2024-06-05
澳大利亞警方就加密貨幣挖礦調查氣象局員工
2018-03-09
加密
澳大利亞品牌研究所：2019年澳大利亞十大健康品牌
2019-12-05
2019年-2022年澳大利亞天然氣需求佔全球比例（附原資料表）
2024-01-22
[TJOI2010] 天氣預報題解
2024-09-27
天氣預警API有什麼作用？
2023-01-31
API
天氣預報更名“新晴天氣”，品牌升級助力智慧生活
2020-04-14
Mac天氣預報元件：Weather Widget Live ‬‬ for Mac
2024-01-04
Mac元件
天氣預報：2020年春節出行指南
2020-01-17
基於Qt的天氣預報專案
2024-11-23
QT
天氣預報API，你想要的它都有
2023-03-01
API
天氣預報到底有什麼作用？
2023-01-30
天氣預報App：2019年天氣大事件盤點十大優質空氣城市出爐
2019-12-24
APP事件
天氣預報查詢 API 提供個性化的天氣服務的設計思路
2023-05-04
API
開發chrome外掛入門-天氣預報
2018-03-24
Chrome
全球頂尖天氣預報系統被AI擊敗，DeepMind新模型登Nature，8分鐘搞定未來15天預測
2024-12-05
AI模型
React實戰之React+Redux實現一個天氣預報小專案
2020-03-28
ReactRedux
請利用SAX編寫程式解析Yahoo的XML格式的天氣預報，獲取天氣預報——python學習筆記
2019-01-05
XMLPython筆記
泰坦尼克號生存預測邏輯迴歸，kaggle渣渣排名
2020-11-19
邏輯迴歸
Kaggle機器學習入門實戰 -- Titanic乘客生還預測
2018-04-03
機器學習
澳大利亞政府預算中超過50萬美元用於區塊鏈研究
2018-05-10
區塊鏈
2018世界盃丹麥VS澳大利亞影片回放丹麥1:1澳大利亞比賽影片
2018-06-22
2018世界盃法國對澳大利亞影片重播法國2-1澳大利亞影片回放
2018-06-17
氣象資料隨時隨地：讓天氣預報API為您的應用提供精準的天氣資訊
2023-03-16
API