阿里巴巴雲原生大資料運維平臺 SREWorks 正式開源
作者:晟白
隨著行業不斷髮展,大資料&AI也逐漸呈現雲原生化的趨勢。複雜的業務場景及其背後涉及到的不同技術方向的開源和自研,使得產品運維面臨技術複雜度高、規模大、場景多等挑戰。
阿里巴巴雲原生大資料運維平臺 SREWorks,沉澱了團隊近10年經過內部業務錘鍊的 SRE 工程實踐,今天正式對外開源,秉承“資料化、智慧化”運維思想,幫助運維行業更多的從業者採用“數智”思想做好高效運維。
一 SREWorks 是什麼?
谷歌在2003年提出了一種崗位叫做 SRE (Site Reliability Engineer,站點可靠性工程師),它是軟體工程師和系統管理員的結合,重視運維人員的開發能力,要求運維日常瑣事在50%以內,另外50%精力開發自動化工具減少人力需求。
SREWorks 作為阿里雲大資料SRE團隊對SRE理念的工程實踐,專注於以應用為中心的一站式“雲原生”、“數智化”運維 SaaS 管理套件,提供企業應用&資源管理及運維開發兩大核心能力,幫助企業實現雲原生應用&資源的交付運維。
阿里雲大資料 SRE 團隊天然靠近大資料和AI,對大資料&AI技術非常熟悉,且具有隨取隨用的大資料&AI算力資源,一直努力踐行“資料化”、“智慧化”的運維理念,行業裡的 DataOps(資料化運維)最早由該團隊提出。SREWorks 中有一套端到端的 DataOps 閉環工程化實踐,包括標準的運維數倉、資料運維平臺、運營中心等。
隨著雲原生時代大趨勢的到來,阿里雲大資料 SRE 團隊將SREWorks運維平臺開源,希望為運維工程師們提供開箱即用的運維平臺。
二 SREWorks 有什麼優勢?
迴歸到運維領域的需求,無論上層產品和業務形態怎麼變化,運維本質上解決的還是“質量、成本、效率、安全”相關需求。SREWorks 用一個運維 SaaS 應用介面來支撐上述需求,同時以“數智”思想為核心驅動 SaaS 能力,具體包括交付、監測、管理、控制、運營、服務六部分。
-
體系化運維平臺分層架構
從“質量、成本、效率、安全”四個維度出發看運維本質相關工作,運維除了要搭平臺、建規範、做標準,還要用自動理念提升效率,用資料驅動測試/開發/運維,用智慧手段提前發現/預測風險問題等。這些可以看成是方法論。如何能從理論快速獲得一套體系化、工程化、產品化的能力實踐,去支撐滿足上述四個維度的需求,就是 SREWorks 所考慮的問題。
阿里雲大資料 SRE 團隊利用分層思想構築了 SREWorks 平臺產品體系,借鑑經典 SPI(SaaS/PaaS/IaaS)三層劃分思路,SREWorks 由“運維 SaaS 應用場景層、運維 PaaS 中臺服務層、運維 IaaS 接入層”三部分構成。
SREWorks 中還融入了運維規範、標準化思想,利用產品承載自動化流程、資料驅動、智慧核心的方法論。從程式碼到線上業務服務的整個過程,運維或多或少地參與了其中一些工作,因此,圍繞應用的生命週期,在SaaS場景層劃分了“交付、監測、管理、控制、運營、服務”六大區。如下圖所示,每塊內容裡都有代表性的核心功能。
SREWorks 中統一以應用抽象來描述業務系統,在開發人員將研發完成的應用製品交付上線後,就會對線上應用例項生命週期進行監測、管理、控制。SREWorks所擁有的運維資料能力會提供增值化的運營、服務,為有需要的人員提供便捷的檢視、管理能力等。
“交付、監測、管理、控制、運營、服務”六大場景在SREWorks產品手冊中有詳細的定義及邊界說明。
-
完整的資料化運維體系實踐
一套資料化運維體系,會把所有系統的運維資料全部採集起來、真正打通,並深度挖掘這些資料的價值,為運維提供資料決策;同時構建資料化運維業務模型,基於該模型建立標準化運維數倉,建設資料運維平臺,在平臺中規範運維資料的採集、儲存、計算及分析,並提供一系列資料化服務,供上層運維場景使用。
有了運維相關的量化資料,對運維工作的描述和衡量將更加立體化,可以建立長期可持續最佳化的運維工作模式,實現真正的運維價值。
-
服務化的 AIOps 智慧運維平臺
在阿里雲大資料 SRE 團隊看來, AIOps 的出現並沒有改變運維的表現形式,依舊還是“交付、監測、管理、控制、運營、服務”的介面,只是在大量運維資料化工作的基礎之上,利用AI能力探索、挖掘智慧化運維場景。因此,在一開始構築 AIOps 工程實踐時,就堅持打造“感知、決策、執行”的閉環,類似自動駕駛的理念。
SREWorks將量身定製的演算法與運維場景化結合,能夠提前預測、關聯分析,增強風險預防、故障定界定位能力,實現傳統手段無法獲得的運維價值。具體而言,將每一個智慧化的運維服務包裝成感知的“監測器”、決策的“分析器”、執行的“策略器”,供健康管理、變更管理等系列服務呼叫,即可增強已有運維場景,解決一些普通手段無法解決的問題。
-
運維中臺化、低程式碼化及雲原生化運維開發體驗
SREWorks 套件自身也是雲原生化的應用,並且採用運維中臺思想構建,在中臺裡構建大量的PaaS 化運維服務能力,在前臺圍繞“交、監、管、控、營、服”六大場景提供SaaS 化運維場景應用。
大部分頁面為企業後端控制檯類系統,不太需要很酷炫的互動設計,故而,運維開發領域的前端開發始終難於追趕前端流行趨勢。針對這些特點,SREWorks 創新性地設計了一套 Serverless 體驗的前端開發模式。
三 為什麼要開源?
阿里雲大資料 SRE 團隊之前在多次技術分享時重點介紹過“DataOps、AIOps”的能力,但都是純理論層面的介紹。具體在 SRE 領域,到底在工程實踐上實現這一套理論?對運維的需求、介面、核心這三層的理解如何落地?
為了把資料化、智慧化這套數智核心故事講明白,阿里雲大資料 SRE 團隊將具有低門檻、高效率特點的雲原生運維平臺SREWorks開源出來。
他們堅定地認為,運維團隊更需要擁抱雲原生,只有這樣,運維才能在雲原生浪潮下找到一席之地。
該團隊也希望, SREWorks 的開源,能讓更多從業者使用“大資料和AI”的能力做好運維,
實現“資料+智慧”的運維平臺核心。
據介紹,SREWorks背靠阿里雲端計算平臺系列“大資料&AI”產品,如 MaxCompute、Flink、DataWorks、Hologres、Elasticsearch 等,開源版中同樣選取了這些產品對應的開源版本,比如開源版 Flink、Elasticsearch 等。
四 後續規劃
SREWorks平臺目前每個月會進行一次迭代開發任務,後續將由版本管理員統一維護合入相關功能及問題修復等內容,以保證最新的雲原生化運維能力持續進入後期版本中。
當前, SREWorks 中有一套 OAM(Open Application Model)規範的工程化實踐,可以把該實踐看成是 SREWorks 的核心引擎。圍繞該引擎,SREWorks團隊建設了系列運維中臺服務,包含自動化、資料化、智慧化能力,之後也將跟隨社群 OAM 規範的發展,持續迭代。
五 寫在最後
今天 SREWorks 的開源只是邁出的一小步,非常期待得到開發者的反饋。SREWorks中也設計了外掛化擴充套件能力,歡迎使用 SREWorks 來打造屬於自己的運維平臺。最後,如果您對 SRE、DataOps、AIOps 或雲原生等領域有興趣,都可以參與到我們的建設中來,這將是我們莫大的榮幸,一起交流,一起打造最具特色的 SRE 雲原生運維平臺!
https://
orks
歡迎加入釘釘答疑交流群;35853026
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70004426/viewspace-2882924/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- EMR重磅釋出智慧運維診斷系統(EMR Doctor)——開源大資料平臺運維利器運維大資料
- 阿里巴巴雲原生混部系統 Koordinator 正式開源阿里
- 深度解析大快DKadoop大資料運維管理平臺功能OOP大資料運維
- 開源交流丨一站式大資料平臺運維管家ChengYing安裝原理剖析大資料運維
- 雲原生時代資料庫運維體系演進資料庫運維
- 阿里開源雲原生混部系統Koordinator正式開源阿里
- 他來了!袋鼠雲大資料基礎平臺EasyMR正式上線大資料
- KubeNode:阿里巴巴雲原生 容器基礎設施運維實踐阿里運維
- 拋棄開源平臺,雲原生儲存搭建資本市場溝通之橋
- AI原生資料庫Infinity正式開源AI資料庫
- 如何實現CDH到雲原生大資料平臺的快速平滑遷移?大資料
- 大資料平臺最常用的30款開源工具大資料開源工具
- 雲原生運維工程師學習路線與資料運維工程師
- “資料+技術”助力雲原生智慧運維體系建設運維
- 從.net開發做到雲原生運維(零)——序運維
- 京東資料庫智慧運維平臺建設之路資料庫運維
- 網易雲音樂全面開源一款雲原生應用部署平臺:Horizon
- 中通訊息服務運維平臺實踐(已開源)運維
- 阿里巴巴雲遊戲平臺PaaS1.0正式亮相 雲電腦釋出阿里遊戲
- 七牛雲:基於Go開發的大資料平臺Go大資料
- 可匯出原生移動應用的跨平臺開發引擎CrossApp正式開源!ROSAPP
- 運維平臺的建設思考-後設資料管理運維
- 阿里巴巴的雲原生應用開源探索與實踐阿里
- 【雲棲大會】再談開源大資料大資料
- 金融雲原生漫談(七)|雲原生時代:從傳統運維到智慧運維的進階之路運維
- 我在阿里巴巴做 Serverless 雲開發平臺阿里Server
- 運維平臺的建設思考-後設資料管理(五)運維
- 資料庫的智慧化運維和故障平臺預測資料庫運維
- 運維平臺的建設思考-後設資料管理(三)運維
- 運維平臺的建設思考-後設資料管理(四)運維
- 運維平臺的建設思考-後設資料管理(二)運維
- Netflix開源Mantis:基於微服務的運維監控平臺微服務運維
- 京東零售大資料雲原生平臺化實踐大資料
- 阿里雲釋出ECS運維體系,提供原生運維能力阿里運維
- 【大資料雲原生系列】大資料系統雲原生漸進式演進最佳實踐大資料
- TDS:標籤平臺+API平臺+資料共享平臺,助力資料運營平臺建設API
- IT統一運維平臺案例運維
- 開源雲原生平臺對比 KubeSphere vs RainbondAI