當前機器學習失敗危機呼喚MLOps - gradientflow

banq發表於2021-06-01

根據2020 年 Gartner 人工智慧炒作週期,機器學習 (ML) 正在進入幻滅低谷階段,不過這才是AI真正工作開始的階段:正在開發最佳實踐、基礎設施和工具,以促進技術整合到現實世界的生產環境中。如今,機器學習技術已在許多公司中發揮核心作用。
但是如今遭遇機器學習模型在生產中降級的危機,模型在部署的那一刻開始降級。對於建立在時變資料上的模型尤其如此,但它也適用於建立在所謂的靜態資料上的模型,如自然影像,因為部署的模型用於新的和看不見的資料。
模型與現實世界互動但無法理解現實世界可能會產生嚴重後果,以下失敗示例:
  • 醫療保健:John Snow Labs 的工程師發現,經過培訓、最佳化和部署在醫院的預測性再入院模型將在兩到三個月內開始急劇下降,並且預測效果不佳。公司及其客戶面臨的問題與部署該模型的醫院數量成正比。

  • 安全是一個對手和威脅不斷變化的領域。為了保持足夠的領先地位以防止攻擊,公司和研究人員需要持續監控和重新訓練他們的 ML 模型。

  • Watson 腫瘤學:該系統旨在為癌症患者推薦治療方法。它被撤出市場,因為該模型退化到暗示不安全治療的程度。

 

模型退化是如何發生的?
在部署模型並與使用者互動之前,您永遠不會真正知道模型的工作情況。正如我們所指出的,真實世界的使用者互動和實時資料通常與歷史或訓練資料不同。例如,當模型由於難以理解尚未遇到的現實世界資料而無法泛化時,就會發生退化。有許多催化劑會導致模型退化。
 

模型監控難點
監控技術效能並不是什麼新鮮事。例如,應用程式效能管理 (APM)有著悠久的歷史——軟體應用程式的監控和管理。雖然機器學習團隊可以從軟體監控中收集到很多經驗教訓和方法,但機器學習監控面臨著獨特的挑戰,需要專門的工具和技術。

  • 在訓練機器學習模型時,獲取或建立真實情況本質上是困難的。訓練通常需要標記資料,這會受到“測量誤差”、主觀性(“專家意見”)甚至偏見的影響。缺乏真實性使得衡量模型質量變得困難——即使在 ML 模型的上下文中定義“準確性”也可能是一個挑戰。隨著監管機構和立法者越來越多地要求組織不斷審查AI 和 ML 模型,即使在最初批准部署之後,公司也必須建立適當的結構來準確、負責任地衡量其 ML 模型的質量。這份跟蹤 AI 事件的動態文件由BNH.ai 的聯合創始人 Patrick, Hall 積極維護,不僅突出了模型失敗事件的數量不斷增加,而且隨著機器學習變得越來越普遍,事件型別的廣度也越來越大跨行業的技術。
  • ML 監控沒有一刀切的解決方案。組織需要跟蹤的質量指標對於每個模型型別和領域都是獨一無二的。
  • 複雜性:機器學習方法涉及多個複雜的分散式系統。錯綜複雜的模型沿襲和複雜的資料管道使根本原因分析變得極其困難。因此,模型監控工具應與監控資料和資料質量的系統整合或包括在內。組織結構也會增加複雜性——通常,公司使用不同的團隊來訓練、測試、部署和管理/監控他們的模型。
  • 擴充套件性:與大多數技術一樣,在實施機器學習方法時,擴充套件是一個重要的考慮因素。監控工具需要擴充套件到大型資料集、大量統計資料以及實時和批次推理。然而,到目前為止我們提到的每個挑戰都適用,即使您只有少數模型。在大型科技平臺不斷測試和部署高度定製化和個性化模型的情況下,一些公司部署了數千個模型,甚至可能部署了數百萬個模型。

 

MLOps理想功能
任何“運維”相關功能通常涉及的三個方面:監控、自動化和事件響應。這些元件促進了強大的模型監控過程。

  • 建立及時警報以快速瞭解模型何時出現故障或降級。
  • 確定故障或降級的根本原因。
  • 啟用敏捷響應。快速恢復或快速更新關閉迴圈以最小化平均恢復時間 (MTTR)。

這裡是為開發或實施機器學習技術的公司提供了三條簡潔的建議:
  1. 防禦性操作;假設您的模型將失敗並放入預警系統以檢測故障。
  2. 有一個B計劃;如果你的模型失敗了,你會怎麼做?重新訓練、退回到舊模型、提供無操作預測?
  3. 投資於強大的 ML 基礎架構和流程,以便您可以立即響應事件。


 

相關文章