機器學習專案中常見的誤區

ruan.answer發表於2015-04-22

機器學習

在最近的一次報告中，Ben Hamner向我們介紹了他和他的同事在Kaggle比賽中看到的一些機器學習專案的常見誤區。

這個報告於2014年2月在Strate舉辦，名為《機器學習小精靈》。

在這篇文章中，我們將從Ben的報告中瞭解一些常見的誤區，它們是什麼及如何避免陷入這些誤區。

機器學習的過程

在報告之前，Ben向我們展示了一個解決機器學習問題大體流程。

機器學習流程，摘自Ben Hamner的《機器學習小精靈》

這個流程包括如下9步：

以一個行業問題開始
源資料
切分資料
選擇一個評價標準
進行特徵提取
訓練模型
特徵選擇
模型選擇
生產系統

Ben強調這個過程是迭代的過程，而非線性的。

他也談及在這個過程中的每一步都可能出錯，每個錯誤都可能使整個機器學習過程難以達到預期效果。

鑑別狗和貓

Ben提出了一個研究建造一個“自動貓門”的案例，這個“門”對貓開放而對狗關閉。這是一個啟發性的例子，因為它設計到了處理資料問題上的一系列關鍵問題。

鑑別狗和貓，摘自Ben Hamner的《機器學習小精靈》

樣本大小

這個例子的第一個賣點就是，模型學習的準確度與資料樣本大小有關，並展示更多的樣本與更好的準確度之間的關係。

他通過不斷增加訓練資料，直到模型準確度趨於穩定。這個例子能夠很好讓你瞭解，你的系統對樣本大小及相應調整有多敏感。

錯誤的問題

第二個賣點就是這個系統失敗了，它對所有的貓都拒之門外。

這個例子突出了理解我們需要解決的問題的約束是非常重要的，而不是關注你想解決的問題。

機器學習工程中的誤區

Ben接著討論瞭解決機器學習問題中的4個常見誤區。

雖然這些問題非常常見，但是他指出它們相對比較容易被識別及解決。

過擬合，摘自Ben Hamner的《機器學習小精靈》

資料洩露：利用模型中的生產系統不能訪問的資料。在時序問題中這個問題特別常見。也可能發生在像系統id的資料上，id可能表示一個類標籤。執行模型並且仔細檢視有助於系統的特徵。完整檢查並考慮其是否有意義。（檢查參考論文《資料探勘中的洩露 | Leakage in Data Mining》）。
過擬合：在訓練資料上建模太精密，同時模型中又存在一些噪聲點。這時過擬合會降低模型的擴充套件能力，其在更高的維度與更復雜的類界限下更甚。
資料採用和切分：相對於資料洩露，你需要非常小心地知道訓練、測試、交叉檢驗資料集是否是真正的獨立資料集。對於時序問題，很多想法和工作需要保證可以按時間順序給系統回覆資料和驗證模型的準確性。
資料質量：檢查你的資料的一致性。Ben給了一個航班起飛及著陸地點的資料，很多不一致，重複及錯誤的資料需要被識別及明確地處理。這些資料會直接損害建模及模型的擴充套件能力。

總結

Ben的《機器學習小精靈》是一個快速且實用的報告。

你將會得到一個關於機器學習常見誤區的有用速成學習，並且這些技巧能很容易地用在處理資料的工作當中。

[譯] 前端專案中常見的 CSS 問題
2019-06-19
前端CSS
5個開源專案中常見的陷阱
2014-05-05
機器學習中常見優化方法彙總
2018-08-25
機器學習優化
區塊鏈交易系統中常見的專業名詞
2022-03-15
區塊鏈
我使用jest測試專案中常見的問題
2019-04-04
分析IT專案管理中常見的問題和挑戰
2022-05-10
專案管理
企業網站建設設計中常見的幾個誤區
2021-01-13
網站
產品需求分析中常見錯誤？
2015-09-14
JavaScript中常見的錯誤，你犯了幾個?
2021-06-16
JavaScript
政府網站中常見的成語錯誤
2021-09-14
網站
走出專案經理的誤區
2009-01-12
PbootCMS中常見的錯誤提示及其解決方案
2024-10-22
boot
git篇-- Git在專案實操中常見的使用命令--02
2024-07-29
Git
Linux中常見的檔案讀寫錯誤問題及解決方法！
2023-12-07
Linux
專案中常問的問題
2019-03-01
專案中常用的git指令
2019-02-20
Git
資料分析中常見的錯誤是什麼（一）
2019-02-27
電信軟體專案管理的誤區
2007-12-18
專案管理
Python 中常見的配置檔案寫法
2021-06-02
Python
SOCKS代理的常見誤區
2022-04-28
實用推薦！網頁設計中常見的錯誤
2014-01-04
網頁
java中常見的四種執行緒池的區別
2018-12-18
Java執行緒
ORA-01653錯誤是Oracle資料庫中常見的錯誤
2024-07-22
Oracle資料庫
跳出專案成本管理的五大誤區
2023-05-17
軟體專案管理的10個誤區（轉）
2007-08-13
專案管理
Python中常見的配置檔案寫法分享！
2021-06-10
Python
Linux中常見的日誌檔案和命令
2007-03-02
Linux
常見的資料分析誤區
2022-05-30
RPA機器人專案實施過程中常見的十大陷阱
2020-01-13
機器人
機器學習實踐中的 7 種常見錯誤
2014-06-09
機器學習
做機器學習專案的checklist
2020-01-21
機器學習
軟體公司專案管理的三大誤區（轉）
2007-08-15
專案管理
Oracle中常見的Hint(一)
2018-11-23
Oracle
Java中常見的異常
2007-08-23
Java
網頁設計中常見的五種互動設計錯誤
2015-09-05
網頁
專案中常用的 .env 檔案原理原始碼分析
2023-01-30
原始碼
JavaScript的一些常見誤區
2013-08-03
JavaScript
招聘開發者常見的九大誤區
2013-10-08