綜合實訓週報八

liym0706發表於2020-11-17

理論學習

本週瞭解了資料集中的資訊,大致知道每列資料的大致意思和作用,發現大多數資訊都丟失嚴重,並且不是很好填補缺失值,故決定將大多數資料都直接丟棄不用。
此外還上網查詢了相關的資料,還是主要學習瞭如何選擇引數,以及在填補缺失值方面有什麼比較好的借鑑資料,不過收穫較少。

實踐學習

本週只是初步的處理資料,還沒有進行正式的提交。
主要是刪除了一些資料集。

有一些是缺失值太多捨棄。

drop = ['enttypeitem', 'opto', 'empnum', 'compform', 'parnum',
       'exenum', 'opform', 'ptbusscope', 'venind', 'enttypeminu',
       'midpreindcode', 'protype', 'reccap', 'forreccap',
       'forregcap', 'congro']

還有一些是單一值過多。

del base['dom'], base['opscope']
del base['oploc']

使用了lgb模型。

lgb_model = lgb.LGBMRegressor(
    num_leaves=64, reg_alpha=0., reg_lambda=0.01, metric='rmse',
    max_depth=-1, learning_rate=0.05, min_child_samples=10, seed=2020,
    n_estimators=2000, subsample=0.7, colsample_bytree=0.7, subsample_freq=1,
)

相關文章