資料洩露和資料處理不一致是兩個機器學習容易被忽視的錯誤 - jeande_d
機器學習專案的失敗可能由多種因素造成,但兩個常見的被忽視的錯誤做法是資料洩漏和資料處理不一致。這裡有3種方法可以避免它們:
- 1. 做探索性資料分析時不要使用測試集。只使用訓練集。透過不接觸測試集,您可以避免資料洩漏。請記住,如果您將測試資料洩露給模型,它就不能很好地推廣到新資料。
要將上述內容付諸實踐,請先將資料拆分為訓練和測試。
- 2. 最初評估模型時,不要在測試資料上評估。您的模型一開始很可能表現不佳,因此不要洩露測試資料,而是在訓練集上評估模型,直到它表現良好為止。
- 3. 為避免資料處理不一致,在訓練集和測試集之間使用相同的資料處理函式。例如。如果你對訓練集中的數值特徵進行了歸一化,那麼你也應該對測試集中的相同特徵進行歸一化。
如果在對模型輸入資料進行規範化的同時對測試集進行標準化,則這是完全不匹配的,不會產生語法錯誤,但會產生較差的結果。其他型別的特徵也必須發生同樣的事情。
例子:
如果您使用一種熱編碼(hot encoding)技術來處理分類特徵,您也應該在相同特徵的測試集中使用它。避免不一致資料處理的可靠方法是使用可以在不同資料集之間重用的函式或使用管道。好訊息是,我們大部分日常 ML 工具都支援構建資料處理(和建模)管道。
相關文章
- Web開發和設計上容易被忽視的8個錯誤Web
- 什麼是資料洩露?哪些問題可導致資料洩露
- oDesk個人資料:容易忽視的6個方面及相應對策
- 機器學習:探索資料和資料預處理機器學習
- 安卓效能優化之被忽視的記憶體洩露安卓優化記憶體洩露
- 用SQL Server資料庫處理資料層錯誤SQLServer資料庫
- 10種資料預處理中的資料洩露模式解析:識別與避免策略模式
- 導致資料洩露的 6 個疏忽
- 資料洩露的12個可能後果
- 機器學習一:資料預處理機器學習
- Github資料洩露事件處置常見技巧Github事件
- 資料洩露的隱性成本
- 資料清洗和資料處理
- JS敏感資訊洩露:不容忽視的WEB漏洞JSWeb
- Google下自己 看看多少資訊被洩露–資料資訊圖Go
- 機器學習筆記---資料預處理機器學習筆記
- 摩拜回應資料洩露傳聞:啟動排查,暫未發現資料洩露和入侵
- 防範重要資料和公民資訊洩露之資料庫安全資料庫
- 企業不可忽視的資料儲存和資料安全問題!
- 使用者容易忽視的網路安全錯誤操作盤點
- 那些容易被忽視的 JavaScript 細節總結JavaScript
- 專案開發中容易被忽視的部分
- 誤刪資料庫資料檔案的處理方法資料庫
- 大資料安全分析不容忽視的三個真相大資料
- 微軟配置錯誤導致大量敏感資料洩露,全球客戶受影響微軟
- 資料泵匯出資料包錯處理
- 網站資料被惡意篡改洩露如何查詢漏洞網站
- 資料發現和零信任如何幫助防禦資料洩露
- 機器學習:處理不平衡資料的5個重要技術機器學習
- 綠盟科技資料洩露防護系統(DLP)獲得鯤鵬Validated認證 資料洩露防護系統流量處理效能提升81%
- 機器學習導圖系列(1):資料處理機器學習
- 構建資料防洩露體系,防範敏感資料外洩
- 大資料資訊時代,如何防止資料洩露,大資料防洩漏解決方案大資料
- 你的資料是如何洩露的?企業和個人應該這樣做……
- 華住酒店使用者資料疑被洩露,企業資料自保攻略有二
- oracle資料檔案被誤刪除後的災難處理方法Oracle
- 非平衡資料集的機器學習常用處理方法機器學習
- 大資料,還是大錯誤?大資料