程式設計中免不了要寫配置檔案,今天我們繼續Python網路程式設計,學習一個比 JSON 更簡潔和強大的語言————YAML 。本文老胡簡單介紹 YAML 的語法和用法,以及 YAML 在機器學習專案中的應用例項。歡迎大家一起學習,也歡迎點贊、在看、分享!
YAML
YAML 是 "YAML Ain't a Markup Language"(YAML 不是一種標記語言)的遞迴縮寫。YAML 的語法和其他高階語言類似,並且可以簡單表達清單、雜湊表,標量等資料形態。它使用空白符號縮排和大量依賴外觀的特色,特別適合用來表達或編輯資料結構、各種配置檔案、傾印除錯內容、檔案大綱。YAML 的配置檔案字尾為 .yaml
YAML 它的基本語法規則如下:
- 大小寫敏感
- 使用縮排表示層級關係
- 縮排時不允許使用Tab鍵,只允許使用空格。
- 縮排的空格數目不重要,只要相同層級的元素左側對齊即可
-
號 表示註釋
YAML 支援的資料結構有三種:
- 物件:鍵值對的集合,物件鍵值對使用冒號結構表示 key: value,冒號後面要加一個空格。
- 陣列:一組按次序排列的值,又稱為序列/ 列表,用 - 表示。
- 純量(scalars):單個的、不可再分的值
YAML 用法
安裝
pip install pyyaml
yaml 檔案格式很簡單,比如:
# categories.yaml file
sports: #注意,冒號後面要加空格
- soccer # 陣列
- football
- basketball
- cricket
- hockey
- table tennis
countries:
- Pakistan
- USA
- India
- China
- Germany
- France
- Spain
python 讀取 yaml 檔案
# read_categories.py file
import yaml
with open(r'categories.yaml') as file:
documents = yaml.full_load(file)
for item, doc in documents.items():
print(item, ":", doc)
執行結果:
sports : ['soccer', 'football', 'basketball', 'cricket', 'hockey', 'table tennis']
countries : ['Pakistan', 'USA', 'India', 'China', 'Germany', 'France', 'Spain']
以上便是 YAML 最基礎的應用了,可能大家還是有點一頭霧水,我們們更進一步,看看在機器學習專案中如何寫 YAML 配置檔案。
YAML & Machine Learning
我們直接改寫100天搞定機器學習|Day62 隨機森林調參實戰中的程式碼。
寫配置檔案rf_config.yaml
#INITIAL SETTINGS
data_directory: ./data/
data_name: creditcard.csv
target_name: Class
test_size: 0.3
model_directory: ./models/
model_name: RF_classifier.pkl
#RF parameters
n_estimators: 50
max_depth: 6
min_samples_split: 5
oob_score: True
random_state: 666
n_jobs: 2
完整程式碼,可以對比原始碼看看區別:
# rf_with_yaml_file.py
import os
import yaml
import joblib
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_auc_score
CONFIG_PATH = "./config/"
def load_config(config_name):
with open(os.path.join(CONFIG_PATH, config_name)) as file:
config = yaml.safe_load(file)
return config
config = load_config("rf_config.yaml")
df = pd.read_csv(os.path.join(config["data_directory"], config["data_name"]))
data = df.iloc[:, 1:31]
X = data.loc[:, data.columns != config["target_name"]]
y = data.loc[:, data.columns == config["target_name"]]
number_records_fraud = len(data[data.Class == 1])
fraud_indices = np.array(data[data.Class == 1].index)
normal_indices = data[data.Class == 0].index
random_normal_indices = np.random.choice(
normal_indices, number_records_fraud, replace=False)
random_normal_indices = np.array(random_normal_indices)
under_sample_indices = np.concatenate(
[fraud_indices, random_normal_indices])
under_sample_data = data.iloc[under_sample_indices, :]
X_undersample = under_sample_data.loc[:,
under_sample_data.columns != config["target_name"]]
y_undersample = under_sample_data.loc[:,
under_sample_data.columns == config["target_name"]]
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=config["test_size"], random_state=42
)
rf1 = RandomForestClassifier(
n_estimators=config["n_estimators"],
max_depth=config["max_depth"],
min_samples_split=config["min_samples_split"],
oob_score=config["oob_score"],
random_state=config["random_state"],
n_jobs=config["n_jobs"]
)
rf1.fit(X_train, y_train)
print(rf1.oob_score_)
y_predprob1 = rf1.predict_proba(X_test)[:, 1]
print("AUC Score (Train): %f" % roc_auc_score(y_test, y_predprob1))
joblib.dump(rf1, os.path.join(config["model_directory"], config["model_name"]))
reference
https://www.runoob.com/w3cnote/yaml-intro.html
https://www.ruanyifeng.com/blog/2016/07/yaml.html