ifelse過度設計:人工智慧建模中的最大錯誤 - svpino

banq發表於2022-05-24

人們喜歡一開始就跳入他們最喜歡的模型,而沒有先提出該模型的基準baseline。

這裡有一個真實的故事和一些想法:
一個團隊花了一個月的時間試驗了三種不同的模型來解決一個二進位制分類問題。
  • - k-Nearest Neighbors
  • - 一個神經網路
  • - 一個SVM


我甚至不知道他們在這個過程中燒了多少錢。

他們對結果感到自豪:他們的最佳模型大約有92%的準確性。 

只有一個小問題:
其實只要在原始資料集中的一個特徵上設定一個簡單的if-else條件,就能夠以更高的準確率進行預測(但是不需要這些複雜的機器學習模型與演算法)。

其實只需要一個條件判斷! (banq:這大概是最昂貴的ifelse 笑梗了)

機器學習的第一條規則:
你並不需要機器學習,除非你能證明你需要。
忘記這條規則,你將註定要為追逐不可能的結果而燒錢。

什麼是基準?
讓我們來談談戰術:
以下是在我的字典中找到的 "基準baseline "的定義。
"如果今天你吃午飯遲了,那麼你可以想出的一個最愚蠢的解決方案"
基準就是一些簡單的東西,你可以向其他人解釋,打敗這個基準就是你的目標。

其他一些基準的例子。

  • - 總是返回主要部分的類(在處理不平衡的資料集時很好)。
  • - 用一組if-then-else條件實現一個簡單的啟發式方法。

你需要一些快速的東西,給你提供方向。

基準是我的北極星,我總是將基準與另外兩樣東西配對:
  • 1. 我的評估標準(我如何知道我做得更好)
  • 2. 我的停止標準(我可以承受多長時間的實驗)。


這就是它! 這就是 "三要素":

- 你要一個基準線
- 一個評估標準
- 一個停止準則(stopping criteria)

當你打敗你目前的基準時,用最新的模型取代它,然後再去做,直到你達到你的停止點。



 

相關文章