2023年資料工程預測

banq發表於2022-12-06

需求是發明之母,我預測2023年將是技術的輝煌一年,這些技術可以幫助團隊儲存資料運維方面的時間、收入和資源使工程師可以專注於構建、擴充套件和總體上做到事半功倍。
以下是我對明年一些最重要趨勢的預測(沒有特別的順序)。

預測1:資料工程團隊將在FinOps /資料雲成本最佳化上投入更多時間
隨著越來越多的資料工作負載轉移到雲,我預計資料將成為公司支出的更大部分,並引起財務部門的更多審查。

預測2:資料團隊角色將進一步專業化
目前,資料團隊角色主要按資料處理階段劃分:

  • 資料工程師透過管道將資料輸入,
  • 分析工程師會將其清理乾淨
  • 資料分析師/科學家將其視覺化並從中收集見解。

這些角色不會有任何變化,但我認為將按業務價值或目標進行額外的細分:
  • 資料可靠性工程師將確保資料質量
  • 資料產品經理將促進採用和貨幣化
  • DataOps工程師將專注於治理和效率
  • 資料架構師將專注於消除孤島和長期投資


預測3:資料變得更加雜亂,但中央資料平臺依然存在
我認為一些團隊將繼續他們的資料網格之旅,他們將採用資料網格原則,如域優先架構、自助服務和像對待產品一樣對待資料,但他們將保留一個強大的中央平臺和資料工程SWAT團隊。

預測4:大多數機器學習模型(>51%)將成功投入生產
我相信我們會看到普通組織成功地將更多的機器學習模型部署到生產中。
有很多挑戰,包括:

  • 業務需求和機器學習目標之間的不一致,
  • 機器學習訓練不能一概而論,
  • 測試和驗證問題,以及
  • 部署和服務障礙。

我認為ML工程團隊開始轉向的原因是對資料質量的日益關注和使ML更可用的經濟壓力的結合

預測5:資料合同進入早期採用階段
任何關注LinkedIn上資料討論的人都知道,資料合約一直是今年討論最多的話題之一。這是有原因的:它們解決了資料團隊面臨的最大的資料質量問題之一。
意外的架構更改是資料質量問題的主要原因。大多數情況下,它們是不知情的軟體工程師向服務推送更新的結果,而不知道它們正在下游的資料系統中造成破壞。
然而,重要的是要注意,鑑於所有的網上聊天,資料合同仍然處於起步階段。這一過程的先驅者--像查德·桑德森安德魯·瓊斯--已經展示了它是如何從概念走向實踐的,但他們也非常坦率地說,這在他們各自的組織中仍然是一項正在進行的工作。
我預測,這一主題的能量和重要性將加速其實施,從先驅到早期階段的採用者在2023年。這將為2024年的轉折點奠定基礎,在2024年,它將開始跨越鴻溝,成為主流最佳實踐,或開始消失。

預測6:資料倉儲和資料湖使用情形開始變得模糊
資料湖更適合流媒體、人工智慧和更多資料科學用例,而資料倉儲更適合分析用例。

在2023年說同樣的話,你只會得到嘲笑。
去年,資料倉儲的重點是流功能。Snowflake宣佈推出Snowpipe流媒體,並重構了他們的Kafka聯結器,以便當資料到達Snowflake時,可以立即查詢,從而將延遲降低10倍。Google宣佈Pub/Sub現在可以直接流到BigQuery中,這使得將流連線到資料倉儲比以往任何時候都容易。
與此同時,像資料庫這樣的資料湖為儲存的資料新增了後設資料和結構。Databricks釋出了Unity Catalog,這是一個使團隊能夠更容易地向他們的資料資產新增後設資料等結構的功能。

預測7:團隊更快地解決資料異常問題
韋克菲爾德研究公司2022年對300多名資料專業人士進行的一項調查顯示,受訪者平均將40%的工作日花在資料質量上。
資料停機時間:組織每月平均遇到61起事件,平均需要4個小時來檢測,另外9個小時來解決。

在今年與數百名資料領導者的交談中,我觀察到許多人透過從靜態硬編碼資料測試轉向基於機器學習的資料監控,縮短了檢測時間。
這是令人興奮的,因為在自動化根本原因分析方面的新創新潛力也是如此。分段分析、查詢變更檢測、資料沿襲等功能有助於將“資料為什麼出錯”的可能性從無限縮小到少數幾種可能性,無論問題是與系統、程式碼還是資料本身有關。



 

相關文章