1. 場景描述
客戶打包買了很多阿里雲的產品,但是阿里雲不負責實施,基於阿里雲產品與客戶需求,擬採用的資料中臺架構,有類似需求的,可以參考下,拿走不謝!
2. 解決方案
阿里產品大資料架構圖:
從下到上,簡要介紹下各個阿里產品作用及承擔的任務:
2.1 雲資料庫 RDS
阿里雲關係型資料庫RDS(Relational Database Service)是一種穩定可靠、可彈性伸縮的線上資料庫服務,提供容災、備份、恢復、遷移等方面的全套解決方案,徹底解決資料庫運維的煩惱。官方文件
2.2 資料傳輸DTS
資料傳輸服務(Data Transmission Service) DTS支援關係型資料庫、NoSQL、大資料(OLAP)等資料來源間的資料傳輸。 它是一種集資料遷移、資料訂閱及資料實時同步於一體的資料傳輸服務。資料傳輸致力於在公共雲、混合雲場景下,解決遠距離、毫秒級非同步資料傳輸難題。 它底層的資料流基礎設施為阿里雙11異地多活基礎架構, 為數千下游應用提供實時資料流,已線上上穩定執行6年之久。 您可以使用資料傳輸輕鬆構建安全、可擴充套件、高可用的資料架構。官方文件。
2.3 離線資料同步工具DataX
DataX 是阿里巴巴集團內被廣泛使用的離線資料同步工具/平臺,實現包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各種異構資料來源之間高效的資料同步功能。
開源地址:https://github.com/alibaba/DataX
2.4 DataHub
阿里雲流資料處理平臺DataHub是流式資料(Streaming Data)的處理平臺,提供對流式資料的釋出 (Publish),訂閱 (Subscribe)和分發功能,讓您可以輕鬆構建基於流式資料的分析和應用。DataHub服務可以對各種移動裝置,應用軟體,網站服務,感測器等產生的大量流式資料進行持續不斷的採集,儲存和處理。使用者可以編寫應用程式或者使用流計算引擎來處理寫入到DataHub的流式資料比如實時web訪問日誌、應用日誌、各種事件等,併產出各種實時的資料處理結果比如實時圖表、報警資訊、實時統計等。
DataHub服務基於阿里雲自研的飛天平臺,具有高可用,低延遲,高可擴充套件,高吞吐的特點。
2.5 ADB或ADS
雲原生資料倉儲AnalyticDB MySQL版(簡稱ADB,原分析型資料庫MySQL版),是阿里巴巴自主研發的海量資料實時高併發線上分析雲端計算服務,使得您可以在毫秒級針對千億級資料進行即時的多維分析透視和業務探索。
2.6 什麼是MaxCompute
大資料計算服務(MaxCompute,原名ODPS)是一種快速、完全託管的EB級資料倉儲解決方案。
隨著資料收集手段不斷豐富,行業資料大量積累,資料規模已增長到了傳統軟體行業無法承載的海量資料(百TB、PB、EB)級別。MaxCompute致力於批量結構化資料的儲存和計算,提供海量資料倉儲的解決方案及分析建模服務。
2.7 智慧資料構建與管理 Dataphin
面向各行各業大資料建設、管理及應用訴求,一站式提供從資料接入到資料消費全鏈路的智慧資料構建與管理的大資料能力,包括產品、技術和方法論等,助力打造標準統一、融會貫通、資產化、服務化、閉環自優化的智慧資料體系,以驅動創新。
域的伺服器組成的分散式網路。將源站資源快取到全國各地的邊緣伺服器,供使用者就近獲取,降低源站壓力。
2.8 伺服器ECS
雲伺服器ECS(Elastic Compute Service)是一種簡單高效、處理能力可彈性伸縮的計算服務。幫助您構建更穩定、安全的應用,提升運維效率,降低IT成本,使您更專注於核心業務創新。
2.9 實時流處理Blink
一套基於Apache Flink構建的一站式、高效能實時大資料處理平臺,廣泛適用於流式資料處理、離線資料處理、DataLake計算等場景。
阿里雲正式於2019年1月,宣佈將實時計算平臺Blink開源,Blink傳承自Flink開源框架,後者最早適用於小流量網際網路場景的資料處理。此前阿里對Flink進行改造,並推出內部版Blink,將計算延遲降低到毫秒級。
I’m 「軟體老王」,如果覺得還可以的話,關注下唄,後續更新秒知!歡迎討論區、同名公眾號留言交流!