Anovos解決了機器學習中資料的漂移和穩定性 – thenewstack

banq發表於2021-12-03

mobilewalla已經發布了一個新的Opensource專案:Anovos,它可以用來建立功能設計一個高效的資料管道,從攝入到功能建立和儲存。
Mobilewalla,我們有一個專門的資料科學家團隊,負責處理世界上最大的資料集之一。我們還與全球一些使用我們解決方案的最先進的資料科學團隊合作。我們親眼目睹了漂移和穩定性帶來的模型挑戰,並構建了我們自己的解決方案來解決這些挑戰。

Anovos是我們構建的一個開源專案,透過引入資料穩定性的概念作為優先事項,解決了預測建模工作流特徵工程元件中的一些核心低效率問題。它專為擴充套件而構建,使使用者能夠使用 TB 級資料(而不是 GB 級資料)進行功能設計,並以資料漂移和穩定性為核心構建。
機器學習從業者越來越傾向於操作效能良好、可預測的生產模型,而不是那些在測試時表現出高效能但在部署時不能完全兌現承諾的模型。
在生產模型的行為與訓練和測試時不同的許多原因中,最重要和最常觀察到的原因之一是錨定它們的資料屬性的變化。用於建立用於訓練模型的特徵的原始資料與在部署中為模型提供動力的資料不同——這種現象稱為資料漂移。當真實世界的環境以意外和計劃外的方式貢獻資料時,就會發生資料漂移,這可以說是非彈性模型的主要原因。
 

相關文章