資料洩露和資料處理不一致是兩個機器學習容易被忽視的錯誤 - jeande_d
機器學習專案的失敗可能由多種因素造成,但兩個常見的被忽視的錯誤做法是資料洩漏和資料處理不一致。這裡有3種方法可以避免它們:
- 1. 做探索性資料分析時不要使用測試集。只使用訓練集。透過不接觸測試集,您可以避免資料洩漏。請記住,如果您將測試資料洩露給模型,它就不能很好地推廣到新資料。
要將上述內容付諸實踐,請先將資料拆分為訓練和測試。
- 2. 最初評估模型時,不要在測試資料上評估。您的模型一開始很可能表現不佳,因此不要洩露測試資料,而是在訓練集上評估模型,直到它表現良好為止。
- 3. 為避免資料處理不一致,在訓練集和測試集之間使用相同的資料處理函式。例如。如果你對訓練集中的數值特徵進行了歸一化,那麼你也應該對測試集中的相同特徵進行歸一化。
如果在對模型輸入資料進行規範化的同時對測試集進行標準化,則這是完全不匹配的,不會產生語法錯誤,但會產生較差的結果。其他型別的特徵也必須發生同樣的事情。
例子:
如果您使用一種熱編碼(hot encoding)技術來處理分類特徵,您也應該在相同特徵的測試集中使用它。避免不一致資料處理的可靠方法是使用可以在不同資料集之間重用的函式或使用管道。好訊息是,我們大部分日常 ML 工具都支援構建資料處理(和建模)管道。
相關文章
- 機器學習:探索資料和資料預處理機器學習
- 機器學習一:資料預處理機器學習
- 機器學習筆記---資料預處理機器學習筆記
- 敏感資料洩露-基於Pikachu的學習
- JS敏感資訊洩露:不容忽視的WEB漏洞JSWeb
- 什麼是資料洩露?哪些問題可導致資料洩露
- 機器學習導圖系列(1):資料處理機器學習
- 機器學習:處理不平衡資料的5個重要技術機器學習
- 機器學習中資料缺失的處理及建模方法機器學習
- 傳聞美的被病毒勒索千萬美元 | 英特爾處理器曝新型漏洞,可導致機密資料洩露
- 10種資料預處理中的資料洩露模式解析:識別與避免策略模式
- ElasticSearch伺服器洩露 5700萬個人資料外洩Elasticsearch伺服器
- 機器學習 第2篇:資料預處理(缺失值)機器學習
- 資料洩露的12個可能後果
- 導致資料洩露的 6 個疏忽
- 伺服器如何避免【資料洩露】?伺服器
- 學習Rust 錯誤處理Rust
- 深度學習--資料預處理深度學習
- 熱搜爆了!學習通資料庫疑發生資訊洩露,超1.7億資料被非法售賣資料庫
- 機器學習中如何處理不平衡資料(imbalanced data)?機器學習
- 100天搞定機器學習|Day1資料預處理機器學習
- Go sync.Cond:最容易被忽視的同步機制Go
- CTF學習(20)MISC(荷蘭寬頻資料洩露)
- 八個機器學習資料清洗機器學習
- 2018資料科學和機器學習調查:Hadoop被拋棄!資料科學機器學習Hadoop
- Github資料洩露事件處置常見技巧Github事件
- 你的資料是如何洩露的?企業和個人應該這樣做……
- 資料清洗和資料處理
- 資料庫內機器學習是資料分析的未來 - BDAN資料庫機器學習
- SpringMVC入門學習---資料的處理SpringMVC
- 機器學習 第3篇:資料預處理(使用插補法處理缺失值)機器學習
- 資料洩露的隱性成本
- 深度學習煉丹-資料處理和增強深度學習
- 防範重要資料和公民資訊洩露之資料庫安全資料庫
- 機器學習演算法筆記之6:資料預處理機器學習演算法筆記
- 香港伺服器的資料洩露是什麼?怎樣預防?伺服器
- 深度學習——資料預處理篇深度學習
- 企業不可忽視的資料儲存和資料安全問題!