LinkedIn大資料工程的升級
在 LinkedIn 的早期階段(2010 年代初),公司發展非常迅速。為了跟上這種增長,他們在分析堆疊中利用了幾個第三方專有平臺。
使用這些專有平臺比拼湊現成的產品要快得多。
LinkedIn 依靠 Informatica 和 Appworx 進行ETL到使用 Teradata 構建的資料倉儲。
這個堆疊為 LinkedIn 服務了 6 年,但它有一些缺點:
- 缺乏發展的自由——由於這個系統的封閉性,他們在創新的選擇上受到限制。此外,與內部和開源系統的整合也是一個挑戰。
- 擴充套件困難- 由於 Informatica/Appworx 許可證的限制,資料管道開發僅限於一個小型中央團隊。這日益成為LinkedIn快速增長的瓶頸。
LinkedIn 的新業務分析技術堆疊
新的技術堆疊具有以下元件
- Unified Metrics Pipeline - 開發人員提供 ETL 指令碼來建立資料管道的統一平臺。
- Azkaban - 一個分散式工作流排程程式,用於管理 Hadoop 上的作業。
- 資料集讀取器 - 資料集儲存在 Hadoop 分散式檔案系統上,可以透過多種方式讀取。它們可以透過DALI讀取,DALI是一種開發用於允許 LinkedIn 工程師讀取資料而無需擔心其儲存介質、路徑或格式的 API。它們可以透過各種儀表板和用於業務分析的臨時查詢來讀取。
新生態系統的設計深受舊生態系統的影響,並解決了遺留技術堆疊的主要痛點。
- 資料民主化- Hadoop 生態系統支援 LinkedIn 的其他團隊開發和採用資料。以前,由於專有平臺的許可限制,只有中央團隊可以在舊系統上構建資料管道。
- 透過開源專案實現技術開發的民主化——新技術堆疊的所有方面都可以透過開源或定製專案自由增強。
- 技術堆疊的統一——同時執行 2 個技術堆疊顯示了維護冗餘系統的複雜性和成本。統一技術可以大大提高效率。
相關文章
- 大資料:小白升級版大資料
- Linkedin資深工程師董飛:典型矽谷公司大資料實戰分析工程師大資料
- rac 升級crs 升級資料庫軟體,升級資料庫資料庫
- 浪潮助力手機大資料平臺升級大資料
- 資料庫升級資料庫
- ♀♀資料庫升級♀♀資料庫
- 資料庫升級之-Dataguard滾動升級資料庫
- Android版本升級同時Sqlite資料庫的升級及之前資料的保留AndroidSQLite資料庫
- Oracle 資料庫升級Oracle資料庫
- 資料庫升級之-資料泵資料庫
- 國家級大資料工程研究中心落戶京東大資料
- 最佳化資料處理效率,解讀 EasyMR 大資料元件升級大資料元件
- oracle資料庫升級11.2.0.3升級到11.2.0.4Oracle資料庫
- 資料庫的升級及遷移資料庫
- LinkedIn開源Cubert,著眼於大資料分析大資料
- 資料庫升級和工具資料庫
- 資料庫升級之-XTTS資料庫TTS
- 資料庫升級報錯資料庫
- 大資料+咖啡因| 可口可樂的轉型升級探索大資料
- oracle升級後資料檔案路徑變為大寫Oracle
- 營銷DT化,大資料推動品牌戰術升級大資料
- 從LinkedIn看大資料探勘應重視的四個變數大資料變數
- Grafana的版本升級和資料遷移Grafana
- 他奶奶個腿的資料庫升級資料庫
- 我的PB程式資料庫升級程式資料庫
- 靜默方式安裝、升級oracle(三): 升級資料庫軟體及資料庫Oracle資料庫
- android資料庫如何進行版本升級?架構之資料庫框架升級Android資料庫架構框架
- Oracle資料庫升級(轉發)Oracle資料庫
- Oracle 資料庫 升級為 RACOracle資料庫
- java實現“資料平滑升級”Java
- 2022,大資料Kafka全新學習路線升級大資料Kafka
- 大資料工程師:大資料的java基礎 第十週大資料工程師Java
- 重慶:房屋市政工程專案資料升級,建立責任追溯制度
- 強大的Flutter App升級功能FlutterAPP
- Windows 7的10大升級理由Windows
- HootSuite:LinkedIn廣告統計資料UI
- LinkedIn:員工資料說蘋果蘋果
- 資料庫的升級和降級[轉載wisdomone1 ]資料庫