工業大資料筆記2020

weixin_48888528發表於2020-10-22

10.20DATAframe 筆記

1 如何構造新特徵,為什麼做乘法,除了均值有沒有其他方法。
2 訓練集和測試集如何劃分,怎麼進行K折交叉驗證,具體實現一下
3 每個特徵重要性計算一下
4 瞭解XGBT原理,以賽帶練,學習為主,擺正心態
5 怎麼檢視XGBT的引數,他訓練出來的資料是什麼?
衡量模型在未知資料上的準確率,稱為泛化誤差。
方差衡量預測模型的穩定性。模型每次預測的結果變異 程度,預測結果是否接近。
偏差:精確性
2 split():函式
split():拆分字串。通過指定分隔符對字串進行切片,並返回分割後的字串列表(list)

str.split(sep, maxsplit).

sep 是分割符,不寫分割符時表示所有的空字元,包括空格、換行(\n)、製表符(\t)等,有分隔符時,以該分隔符進行分割;maxsplit是分割次數。

DataFrame用法

3.2 檢視資料
3.2.1 檢視資料Viewing Data
檢視資料三部曲:
head():檢視資料前幾項,看資料長什麼樣
info():檢視資料型別,以及資料缺失情況
descibe():檢視資料描述統計性資訊,資料大概分佈情況)
3.2.2 選取資料Selection

相關文章