分析工程師 – 資料團隊中的新角色 - KDnuggets

banq發表於2021-11-26

在不斷變化的環境中,對於許多公司,資料工程師、分析師和資料科學家的角色和職責正在發生變化,這迫使我們引入一個新角色:分析工程師。
分析工程師處於資料科學家、分析師和資料工程師技能集的交叉點。他們為分析師和資料科學家的工作帶來了正式而嚴格的軟體工程實踐,他們為資料工程的工作帶來了分析和業務成果的思維方式。他們的工作是構建工具和基礎設施來支援整個分析和資料團隊的工作。
在我們進一步深入瞭解該角色之前,我們應該先介紹一些有關資料團隊“傳統”角色的背景知識。
  • 資料工程師:傳統上,這是將位元組從 A 點移動到 B 點的“管道”工作,通常被誤稱為“ETL”。他們關心的是為攝取和儲存資料構建健壯且可擴充套件的基礎設施,但通常不關心“業務邏輯”——一旦資料進入倉庫,這不再是他們的問題。
  • 分析師:傳統上,這是一項報告和純粹的分析工作。使用少量 SQL 和大量 excel,分析師將維護儀表板並執行一次性戰略分析以支援關鍵業務計劃。
  • 資料科學家:有點喜憂參半,但資料科學家傳統上花時間使用統計程式語言(如 R 或 SAS)來執行更復雜或更復雜的分析。他們可能會將機器學習模型“原型化”,然後交給“真正的工程師”在生產中實施。

在過去幾年中,我們看到分析領域出現了許多令人興奮的發展,這些發展導致這些傳統職責發生了轉變。他們是:
  • MPP SQL 資料倉儲技術(如 Redshift、BigQuery 和 Snowflake)的興起
  • Stitch 和 Fivetran 等資料管道即服務公司的誕生
  • 出現 SQL-first BI 工具,如 Looker、Mode 和 Periscope
  • 公司將重點放在預測和個性化上

前兩者加在一起,極大地改變了分析師的角色。現在分析師 必須 知道如何編寫 SQL,使用 git/github,並且通常將大部分時間花在 編寫程式碼上. 雖然他們不一定接受過軟體工程師的培訓,但他們現在負責管理大量程式碼庫。
類似地,雖然資料工程師過去常常花費大量時間在系統之間構建新的資料整合或在平臺上工作以進行可擴充套件計算,但現在大部分工作都可以轉移到 Stitch/Fivetran(整合)或倉庫本身(只是讓 BigQuery 找出最佳查詢計劃)。
最後,資料科學家突然開始負責管理複雜的生產系統,這些系統正在製作具有重大業務影響的實時生產。
那麼新的角色和職責是什麼?
  • 資料工程師:仍然負責資料基礎設施和管道程式碼,但現在的團隊總體上比過去小了很多。許多公司一開始只需要使用承包商和顧問就可以了,他們可能只需要一兩個資料工程師來“填補”他們無法從現成的解決方案中購買的東西
  • 分析師:除了執行臨時分析外,分析師還負責程式設計和管理 BI 工具並編寫一些 ELT 作業(在 Looker PDT 中或透過dbt 之類的工具 )
  • 資料科學家:除了完成一次性的研究任務外,資料科學家還管理複雜的資料清理和編排管道,這些管道輸入機器學習模型和複雜的測試平臺。

那些以前在這樣的組織中工作過的人可能會感受到缺少角色的壓力。儘管資料科學家和分析師正在編寫大量程式碼,但成為出色的軟體工程師並不是他們所接受的培訓,而且通常也不是他們的首要任務。同樣,雖然資料工程師是出色的軟體工程師,但他們沒有接受過如何實際使用資料方面的培訓  ,因此無法始終與分析師和資料科學家有效合作。
我相信這個差距應該由分析工程師來填補。他們的工作是:
  • 著眼於效能和可維護性編寫生產質量的 ELT 程式碼
  • 指導分析師和資料科學家瞭解軟體工程最佳實踐(例如,構建測試套件和 CI 管道)
  • 構建幫助資料科學家和分析師更高效工作的軟體工具(例如,編寫供分析師使用的內部 R 或 Python 工具包)
  • 與資料工程師合作開展基礎設施專案(他們倡導並強調應用程式的商業價值)




 

相關文章