為什麼機器學習模型會越來越糟? - Santiago

banq發表於2021-05-27

當完成了機器學習模型的構建並且部署了。不幸的是,工作並沒有完成。可以說,您只走了一半,機器學習模型的效能會隨著時間的推移而降低。
機器學習模型的快速入門:
x->y:
  • x:輸入資料
  • y:輸出預測
  • ->:模型在X和y之間學習的關係。

 

資料漂移
當我們部署模型時,如果輸入X的資料發生變化會發生什麼?這稱為“資料漂移”。當我們提供給模型的資料與我們用來訓練模型的資料不同時,就會發生這種情況。
資料漂移的一個示例:10年前構建的面部識別系統開始看到使用解析度更高的相機拍攝的照片時,雖然我們的面孔仍然相同,但是資料不同。這種逐漸的變化會扼殺系統的結果。
 

概念漂移
回到我們的模型x->y,如果X和y之間的關係發生變化會發生什麼?這稱為“概念漂移”。當模型學習的模式不再有效時,就會發生這種情況。
概念漂移的一個例子:當Covid將我們所有人變成沙發上的土豆時,Netflix用來預測觀眾收看電視節目的模型就變得毫無用處,資料沒有改變。模型學到的模式卻變化了。
隨著時間的推移,這也可能會緩慢發生,例如使用模型預測突然開始面臨競爭的某些產品的購買模式。或隨著時間的流逝改變其含義的詞語,或者我們對錯誤和錯誤的定義和容忍度。
 

出路
總之,資料和概念的漂移對我們模型的質量構成了重大威脅。
資料漂移和概念漂移可能會逐漸發生,也可能會在一夜之間發生:

  1. •人臉識別示例:逐漸漂移。
  2. •Netflix示例:突然漂移。

解決方法:
  1. •監控模型
  2. •定期更新模型

每一個機器學習模型都需要持續的監控。這是與更新模型以保持適當效能的過程一起進行的必要步驟。更新可能簡單到使用新資料重新訓練模型的新版本,也可能複雜到解決問題的全新實現。
 

相關文章