機器學習的靜態特徵和動態特徵

banq發表於2022-11-13

在設計機器學習系統時,瞭解靜態和動態特徵之間的區別很重要,因為它可能會成敗您將 ML 模型釋出到生產中的努力。 

靜態特徵:
  • 這些特徵是由不經常變化的資料產生的。
  • 這些資料很可能與你的資料模型中的維度相似。
  • 資料以一定的時間間隔被重新整理。例如,每2小時,每天。
  •  例子。倉庫中的庫存屬性。


動態特徵:
  • 資料經常變化,或者可能暫時存在一個背景。
  • 資料將類似於你的資料模型中的事實或事件。
  • 特徵是透過聚合事件或事實實時生成的。
  •  例子。使用者在過去2分鐘內的點選次數。


案例:
  1. 所有的資料最終都是實時產生的,所以在這個例子中,我們從CDC流中收集資料,或者直接從應用中發射事件。我們將這些資料推送到Kafka主題。
  2. 資料被推送到一個物件儲存中,以載入到資料倉儲。
  3. 資料被載入到資料倉儲中,進行轉換。
  4. 我們對資料倉儲內的資料進行建模,為特徵工程做準備。
  5. 我們將所需的資料檢索到ML管道中,該管道生成一個模型工件並將其推送到模型註冊中心。
  6. 我們執行相同的特徵工程邏輯,並將批次特徵推送到低延遲的儲存中,如Redis。
  7. 如果我們需要實時動態特徵--我們用Flink應用實時執行ML管道中的特徵工程。
  8. 我們將生成的特徵推送到Redis。

現在我們可以從模型登錄檔中部署模型並從 Redis 中獲取所有特徵了

機器學習的靜態特徵和動態特徵

 

相關文章