LinkedIn大資料工程的升級

banq發表於2022-06-11

在 LinkedIn 的早期階段(2010 年代初),公司發展非常迅速。為了跟上這種增長,他們在分析堆疊中利用了幾個第三方專有平臺。
使用這些專有平臺比拼湊現成的產品要快得多。
LinkedIn 依靠 Informatica 和 Appworx 進行ETL到使用 Teradata 構建的資料倉儲。

這個堆疊為 LinkedIn 服務了 6 年,但它有一些缺點:
  • 缺乏發展的自由——由於這個系統的封閉性,他們在創新的選擇上受到限制。此外,與內部和開源系統的整合也是一個挑戰。
  • 擴充套件困難- 由於 Informatica/Appworx 許可證的限制,資料管道開發僅限於一個小型中央團隊。這日益成為LinkedIn快速增長的瓶頸。


LinkedIn 的新業務分析技術堆疊
新的技術堆疊具有以下元件

  • Unified Metrics Pipeline - 開發人員提供 ETL 指令碼來建立資料管道的統一平臺。
  • Azkaban - 一個分散式工作流排程程式,用於管理 Hadoop 上的作業。
  • 資料集讀取器 - 資料集儲存在 Hadoop 分散式檔案系統上,可以透過多種方式讀取。它們可以透過DALI讀取,DALI是一種開發用於允許 LinkedIn 工程師讀取資料而無需擔心其儲存介質、路徑或格式的 API。它們可以透過各種儀表板和用於業務分析的臨時查詢來讀取。


新生態系統的設計深受舊生態系統的影響,並解決了遺留技術堆疊的主要痛點。
  • 資料民主化- Hadoop 生態系統支援 LinkedIn 的其他團隊開發和採用資料。以前,由於專有平臺的許可限制,只有中央團隊可以在舊系統上構建資料管道。
  • 透過開源專案實現技術開發的民主化——新技術堆疊的所有方面都可以透過開源或定製專案自由增強。
  • 技術堆疊的統一——同時執行 2 個技術堆疊顯示了維護冗餘系統的複雜性和成本。統一技術可以大大提高效率。


 

相關文章