lakeFS:實現類似於Git或事件溯源ES的物件儲存功能

banq發表於2021-03-30

lakeFS是一個開放原始碼層,可為基於物件儲存的資料湖提供彈性和可管理性。
藉助lakeFS,您可以構建可重複的,原子的和版本化的資料湖操作-從複雜的ETL作業到資料科學和分析。
lakeFS支援將AWS S3,Azure Blob儲存和Google Cloud Storage作為其基礎儲存服務。它與S3相容,並與所有現代資料框架(例如Spark,Hive,AWS Athena,Presto等)無縫相容。
 
資料開發環境
  • 實驗-單獨嘗試工具,升級版本並評估程式碼更改。
  • 可重現性-可以回到任何時間點來獲得一致的資料湖版本。

持續資料整合
  • 透過執行最佳實踐來安全地攝取新資料-確保新資料來源遵循您湖的最佳實踐,例如格式和架構實施,命名約定等。
  • 後設資料驗證-防止重大更改進入生產資料環境。

持續資料部署
  • 即時恢復對資料的更改-如果向使用者暴露了低質量的資料,則可以立即恢復到資料湖以前,一致且正確的快照。
  • 加強交叉收集的一致性-向消費者提供必須以一種原子的,可恢復的動作同步的多個資料收集。
  • 透過啟用來防止資料質量問題
    • 測試生產資料,然後再將其提供給使用者/消費者。
    • 在您的DAG中測試中間結果,以避免級聯質量問題。

相關文章