本文由 「AI前線」原創,原文連結:Apache新成員:LinkedIn分散式資料整合框架Gobblin
作者|Abhishek Tiwari
譯者|核子可樂
編輯|Emily
AI 前線導讀:”LinkedIn 又向 Apache 基金會貢獻了一個新的開源專案:Apache Gobblin!”
下文轉載翻譯自 LinkedIn Engineering 部落格:
Gobblin 是一套分散式資料整合框架,旨在簡化大資料整合工作當中的各類常見任務,具體包括資料流與批量生態系統的提取、複製、組織與生命週期管理。
Gobblin 的發展速度非常驚人。自 2014 年 12 月問世以來,Gobblin 一直在開源世界當中快速消化海量大資料資源。目前,其已經由原本主要立足 Hadoop 之上以 mapreduce 模式執行的離線資料接收框架,逐步轉化為一套全面而強大的生態系統,且功能涵蓋執行環境、資料速度、規模化、聯結器以及其它生態系統增強領域中的不同維度。
LinkedIn 擁有豐富的開源專案貢獻歷史,並已經成為 Apache 軟體基金會(旗下擁有 Kafka、Samza 以及 Helix 等多個專案)中的重要成員。延續這一趨勢,我們相信 Gobblin 已經準備好加入 Apache 專案家族的行列。因此,我建議 Gobblin 轉型為 Apache 孵化器專案。令人振奮的是,我們的提案得到了孵化器專案委員會(簡稱 PMC)的一致認可,並於 2017 年 2 月開始了我們的孵化專案轉型旅程。自此以來,我們完成了必要的內部轉型流程並貢獻了相關程式碼,並正式開始 Apache 旗下的發展道路。
為何選擇 Apache?
Apache 軟體基金會(簡稱 ASF)為目前全球最具影響力的開源機構之一。Apache 專案支援著超過 2 億個網站(佔網際網路網站總數的一半),併成為世界上眾多最具價值企業的(技術)支柱。Gobblin 已經陸續得到 LinkedIn、蘋果、Paypal 等企業以及 CERN、Sandia 國家實驗室等研究機構的廣泛採用,我們相信其作為 Apache 專案將繼續維持穩定的運作與持久能力,並允許不斷髮展的技術社群在“Apache 道路”上繼續為其添磚加瓦。
Gobblin 未來展望
自我們釋出上一篇博文以來,Gobblin 在內部與外部社群貢獻的共同推動下迎來了一系列重大變化。下面,我們將概述這一階段中 Gobblin 中出現的令人興奮的增強功能:
- 多執行模式: Gobblin 現在能夠以 Embedded、CLI、Standalone、Mapreduce 以及 Cluster(裸機、AWS 以及 Yarn)模式執行。
- 流與批量處理支援: Gobblin 的核心引擎現在支援批量(有限)以及流(無限)資料處理能力。在批量處理模式下,我們已經能夠配合獨立、叢集、Map-Reduce、Hive 以及 Dali 實現運作,並計劃在今年之內實現對 Spark 的支援。同樣的,我們還將進一步擴充套件原生流功能,包括在今年之內對接 Samza 與 Brooklin 等系統。
- 全侷限制: Gobblin 現在支援在任意 Gobblin 執行模式下實現資源的全侷限制(例如 API 配額)。這是一項通用性基礎設施功能,適用於任何分散式系統。
- Gobblin 即服務: 此舉旨在構建起一套資料管理 PaaS(平臺即服務)方案,可對服務背後的民間構資料移動及部署處理(無論是否基於 Gobblin)進行封裝與統一化處理。
展望未來,我們將致力於繼續推動 Gobblin 專案的快速發展,同時幫助社群持續發展並適應“Apache 道路”。
自去年年初加入 Apache 孵化器計劃以來,我們已經在這方面迎來良好的進展勢頭。Apache Gobblin 社群成員在 Gobblin 生態系統當中提出、建立並啟動了一系列關鍵性發展成果,具體包括:
- Kafka 10 支援能力
- 狀態儲存強化
- AWS 模式增強與自動擴充套件能力
- Mesos 支援提議
- Gobblin 即服務增強提議
- 多款新型聯結器
- 管理員 UI 穩定性與增強。
我們還進一步邀請大家體驗 Gobblin 併為該專案的 Apache 發展之旅貢獻力量。
感興趣的讀者可以通過多種方式加入 Apache Gobblin 社群,包括貢獻新功能、進行技術佈道,或者幫助社群更新說明文件。請點選此處加入 Gobblin 的使用者或開發者郵件列表。也可以點選此處訪問 Gitter 頻道。
AI 前線未來將密切關注 Apache Gobblin 的發展,如果你有關於 Apache Gobblin 的最新訊息、使用介紹或實踐經驗想與更多人分享,請傳送郵件至 natalie.cai@geekbang.org(請在郵件標題中備註【Apache Gobblin】),歡迎進一步交流。
原文連結:
engineering.linkedin.com/blog/2018/0…
更多幹貨內容,可關注AI前線,ID:ai-front,後臺回覆「AI」、「TF」、「大資料」可獲得《AI前線》系列PDF迷你書和技能圖譜。