LinkedIn大資料工程的升級
在 LinkedIn 的早期階段(2010 年代初),公司發展非常迅速。為了跟上這種增長,他們在分析堆疊中利用了幾個第三方專有平臺。
使用這些專有平臺比拼湊現成的產品要快得多。
LinkedIn 依靠 Informatica 和 Appworx 進行ETL到使用 Teradata 構建的資料倉儲。
這個堆疊為 LinkedIn 服務了 6 年,但它有一些缺點:
- 缺乏發展的自由——由於這個系統的封閉性,他們在創新的選擇上受到限制。此外,與內部和開源系統的整合也是一個挑戰。
- 擴充套件困難- 由於 Informatica/Appworx 許可證的限制,資料管道開發僅限於一個小型中央團隊。這日益成為LinkedIn快速增長的瓶頸。
LinkedIn 的新業務分析技術堆疊
新的技術堆疊具有以下元件
- Unified Metrics Pipeline - 開發人員提供 ETL 指令碼來建立資料管道的統一平臺。
- Azkaban - 一個分散式工作流排程程式,用於管理 Hadoop 上的作業。
- 資料集讀取器 - 資料集儲存在 Hadoop 分散式檔案系統上,可以透過多種方式讀取。它們可以透過DALI讀取,DALI是一種開發用於允許 LinkedIn 工程師讀取資料而無需擔心其儲存介質、路徑或格式的 API。它們可以透過各種儀表板和用於業務分析的臨時查詢來讀取。
新生態系統的設計深受舊生態系統的影響,並解決了遺留技術堆疊的主要痛點。
- 資料民主化- Hadoop 生態系統支援 LinkedIn 的其他團隊開發和採用資料。以前,由於專有平臺的許可限制,只有中央團隊可以在舊系統上構建資料管道。
- 透過開源專案實現技術開發的民主化——新技術堆疊的所有方面都可以透過開源或定製專案自由增強。
- 技術堆疊的統一——同時執行 2 個技術堆疊顯示了維護冗餘系統的複雜性和成本。統一技術可以大大提高效率。
相關文章
- 大資料:小白升級版大資料
- 浪潮助力手機大資料平臺升級大資料
- 資料庫升級之-Dataguard滾動升級資料庫
- 2022,大資料Kafka全新學習路線升級大資料Kafka
- 資料庫升級之-資料泵資料庫
- 大資料+咖啡因| 可口可樂的轉型升級探索大資料
- Java工程師【2020升級版】Java工程師
- 最佳化資料處理效率,解讀 EasyMR 大資料元件升級大資料元件
- 資料庫升級之-XTTS資料庫TTS
- 資料庫升級和工具資料庫
- HootSuite:LinkedIn廣告統計資料UI
- android資料庫如何進行版本升級?架構之資料庫框架升級Android資料庫架構框架
- Grafana的版本升級和資料遷移Grafana
- 國家級大資料工程研究中心落戶京東大資料
- oracle升級後資料檔案路徑變為大寫Oracle
- 靜默方式安裝、升級oracle(三): 升級資料庫軟體及資料庫Oracle資料庫
- java實現“資料平滑升級”Java
- 重慶:房屋市政工程專案資料升級,建立責任追溯制度
- iOS 資料庫升級資料遷移解決方案iOS資料庫
- 資料庫升級-物理重新整理資料字典資料庫
- Oracle資料庫升級或資料遷移的方法探討Oracle資料庫
- 工程優化暨babel升級小記優化Babel
- 強大的Flutter App升級功能FlutterAPP
- MTK線刷升級操作指引資料
- oracle資料庫11.2.0.3升級到11.2.0.4Oracle資料庫
- 13 使用SQL Apply 升級資料庫SQLAPP資料庫
- datagrip2019.1.4-升級資料遷移
- 一文在手,全部都有 : 大資料命令全集2.0升級版大資料
- Android 中的升級資料庫最佳方法實踐Android資料庫
- 大資料成為推動旅遊產業升級和發展的重要力量大資料產業
- EXCEEDDATA — 工程大資料分析平臺大資料
- 從BAT大資料工程師那裡總結的大資料學習方法BAT大資料工程師
- Android 資料庫綜述(一) 資料庫片的升級與資料的遷移操作Android資料庫
- 大資料前景如何?大資料開發工程師是什麼?大資料工程師
- 【資料庫升級】Oracle指令碼升級12c CDB to 19c CDB資料庫Oracle指令碼
- 大資料工程師需要掌握的知識點大資料工程師
- 三大支撐 夯實基礎丨大資料助推株洲產業轉型升級大資料產業
- 自定義開發資料庫升級程式資料庫