資料中臺升級了?原來是擁抱了雲原生!

奇點雲StartDT發表於2021-05-26
資料中臺發展至今,大體經歷了4個重要階段:資料庫-資料倉儲-大資料平臺-資料中臺。每次新的變革,都是為了解決上一階段存在的問題。

當前,走向雲原生成為資料中臺的必然和必須。

在「數智·雲原生」系列直播課的開篇,奇點雲高階技術專家地雷帶來了《雲原生資料中臺技術與趨勢解讀》,闡釋雲原生的概念雲原生資料中臺的技術要素,分享雲原生資料中臺為客戶帶來的效果,多角度解讀資料中臺為什麼必將走向雲原生。

地雷,奇點雲高階技術專家。奇點雲資料智慧平臺DataSimba總負責人,阿里大資料底層核心引擎ODPS初代產品經理。曾支援螞蟻金服、菜鳥等演算法與應用建設。

01、雲原生從何而來?

雲原生是用於指導如何在雲上構建和執行應用的方法論
 
地雷談到,“雲原生”並不是一個新的概念。回顧雲端計算史,從個人端應用到企業級應用,都早已開始“上雲”。起初,這些上雲的“非原住民”應用,延續了私有化部署的技術架構,把本地軟體不加修改地透過ECS遷至雲端。而ECS的弊端在於只能承載計算,無法實現儲存。雖然上雲後的應用實現了業務打通,但隨著業務擴大,原有的架構“可用性”明顯下降。

國內雲廠商為了解決資料儲存問題,製作了雲磁碟,將其掛靠在雲主機上,實現資料備份,且無需更改程式。傳統軟體上雲的“高可用”問題得以解決。然而,這種方式引發了另一弊端——成本高。客戶把Hadoop不加修改直接部署到ECS節點上,資料透過HDFS儲存在雲磁碟上,需花費大量成本。因此必須修改HDFS底層,把資料存到物件儲存上。隨著需求不斷豐富,系統必須按照IaaS、PaaS的技術特點進行重構,以便跟上業務和資料的爆炸性增長。
 
在私有化部署以及上一代傳統技術的軟體架構運維方法論的基礎上,帶著“高可用”、“低成本”等屬性,“雲原生”升級而出。

02、雲原生資料中臺具有哪些技術要素?


“雲原生”概念發展至今,我們已並不陌生。而為什麼要強調“雲原生資料中臺才是未來”?
分級多域資料治理的剛需、雲原生技術降本增效的天然特徵、國內基礎設施自主可控的要求……都將資料中臺推向雲原生。
 
因此,奇點雲將雲原生資料中臺的技術要素歸納為6點:CI/CD(持續整合持續交付)容器化物件體系儲存計算分離跨雲多域資料治理後設資料管理。這其中,物件體系跨平臺自主可控是全新迸發出的幾個要素——奇點雲的雲原生資料中臺DataSimba,實現跨雲的多workspace管理,以幫助客戶的資料和應用跨雲治理和遷移。

1、CI/CD(持續整合持續交付)
CI/CD的本質是提高開發和部署效率。在業務量巨大的情況下,大資料和雲的運維人力成本極高。因此需要使用大量的自動化工具和大資料預測演算法進行自動化運維。透過版本管理系統和DevOps基礎設施,實現自動化測試和持續整合。一個典型流程是,程式設計師提交程式碼到特定的tag,觸發測試介面自動化測試指令碼執行併傳送報告。由此實現測試、釋出和部署自動化。在此基礎上構建特定的資料環境,對重要介面和鏈路進行自動化檢測。
 
2、容器化
容器化本質上是一種虛擬化技術,一臺主機可虛擬出上千個容器。單個容器的啟動時間更快,佔用空間更小,而且可以根據實際應用的大小來彈性分配資源,無需額外採購伺服器,加快研發速度。使用容器編排基礎設施,對服務和作業進行治理,根除版本地獄,大幅度提高運維和整合效率。
容器化編排與CI/CD是相互結合的。在資料中臺領域,往往幾十臺機器、上百個程式同時執行,且在這些程式中不僅要執行本身的程式,也要執行客戶的程式。因此,底層微服務的程式繁多。基於安全合規要求,客戶之間的程式需要保持分隔。因此,資料中臺對於容器化的要求高於其他基於雲原生的應用。
 
3、物件體系
根據現有業務抽象出核心物件,以標準Restful風格提供API服務,解耦核心物件與業務層服務,以應對不同環境、不同業務場景的需求。這一系列正交的核心物件就構成了平臺物件體系,上層業務可在此基礎上構建應用,高效演進。
物件體系的API應該是優雅且向前相容的,一旦釋出,很難改變。例如,在WIN32研發時,出現某個單詞錯誤,幾十年後都無法修改。因此,需要把物件體系設計得極為詳盡和準確。奇點云云原生資料中臺作為開放式平臺,其上的API提供了一套物件,如:專案、作業、資料、源資料、賬號等,具有集中資料介面。
 
4、儲存計算分離
由於雲具有分散式特點,在雲上無法天然將資料儲存在ECS中。因此必須將關鍵資料、狀態型資料儲存在物件儲存中。大量私有化元件都需要被改寫。
如果把Hadoop、Spark等常規開源大資料引擎直接應用於雲主機,海量資料帶來的儲存成本和吞吐壓力,很快會壓垮客戶。因此,必須引入中間快取實現計算儲存分離,將資料儲存到物件儲存上,同時相容HDFS協議,能夠根據業務需求進行彈性擴容,就能大幅度降低成本,提高叢集效能。
 
5、跨雲多域資料治理
雲原生資料中臺的一大優勢在於可以實現跨雲多域。例如,客戶在AWS上使用資料中臺,一旦需要轉移到其他平臺,雲原生資料中臺可實現在不修改程式碼的基礎上直接遷移。對於具有多重業務、龐大資料體量的大型企業來說,為避免資料資產被一個平臺所繫結,供應商必須呈現多樣化。因此,在客戶與一家供應商合作的同時,也需要使用獨立的第三方資料中臺提供跨雲多域的資料治理能力,從而提高基礎設施的可控性和安全性。奇點云云原生資料中臺DataSimba以「第三方」的角色,為企業解決資料多雲並存的跨雲多域治理問題。
 
6、後設資料管理
由於資料量急劇增長,對資料的管理成為一大問題。雲原生資料中臺的後設資料管理功能,對資料的結構、指標、標籤、許可權、上下游血緣、生產作業等元資訊進行規範化管理,建立智慧資料治理體系。同時支援資料盤點、安全審計、血緣分析、關鍵分級等應用,最終實現資料資產化。
例如,某頂級品牌商具有73個業務系統,各自儲存在不同的資料庫和儲存介質中,需要將73個系統全部集中在一個資料中臺上進行標籤打通。在此需求下,資料治理十分重要,核心就是後設資料的管理。因此,雲原生資料中臺必須具備後設資料管理功能。

03、雲原生資料中臺能為使用者解決什麼問題?

具備以上6大技術能力的資料中臺是走向雲原生後的重要升級。基於這些能力,雲原生資料中臺究竟能為使用者解決哪些問題,帶來降本增效?

1、提高研發效率
透過微服務、CI/CD、物件體系、DevOps等一系列技術,提升迭代速度,增強在雲的複雜環境下的控制、自動化運維控制等。提高程式碼開發、測試、釋出效率,降低迭代成本。
2、降低運維成本
透過上述的技術也可以實現開發及運維高效協同,有效提升對故障的響應速度,實現持續整合和交付。使得快速部署應用成為業務流程和企業競爭力的重要組成部分,降低運維成本。
3、降低存算成本
大資料基礎設施的儲存計算成本驚人。存算分離和容器化能夠更高效地使用IaaS資源,降低儲存成本。儲存和計算節點分離後,可以在不對儲存進行擴容的情況下快速增加計算資源。另一方面,單個容器的啟動時間更快,佔用空間更小,而且可以根據實際應用的大小來彈性分配資源,無需額外採購伺服器。
4、提高治理效率
治理效率不侷限於資料治理,也包括微服務治理、系統治理和API治理,需要自動化設計和框架。使用跨雲治理、後設資料管理等技術,會大幅度提高企業積累資料資產的效率,降低安全風險,提高供應商的多樣化。



相關文章