破解湖+倉混合架構頑疾,星環科技推出自主可控雲原生湖倉一體平臺

星環科技發表於2022-06-30
動圖封面



近些年來,隨著企業數字化轉型持續推進,在資料的分析利用方面,其廣度和深度都在不斷向外延伸。在分析廣度方面,主要體現在所分析資料的型別以及分析場景更加多樣化、多元化;在分析深度方面,主要體現在更關注多源異構資料的融合分析以及基於資料科學技術進行資料價值的深度挖掘。

與此同時,為了滿足多樣化的資料分析需求,企業資料平臺架構也在持續演進。單一資料湖和資料倉儲已不能順應資料分析的發展趨勢,越來越多企業開始基於“湖(Hadoop技術體系)”+“倉(MPP技術體系)”的混合架構打造自己的企業級資料平臺。這種混合架構融合了“湖”和“倉”各自的技術優勢,可以在一定程度上支撐企業多樣化的資料分析場景,但是在資料平臺的易用性、可維護性、資料處理效率以及儲存成本方面都存在一定的不足。

星環科技政府與公共事業部系統架構的負責人徐流明介紹說,“湖(Hadoop技術體系)”+“倉(MPP技術體系)”的混合架構是在資料平臺架構演進過程中技術向業務妥協的一個產物。Hadoop技術體系在設計之初主要是為了解決海量資料的離線批處理問題,在高併發資料集市、即席查詢、事務一致性等方面存在先天不足;而MPP技術體系是從關係型資料庫演進而來,對事務一致性、OLAP分析效能都有比較好的支撐,但是在分析場景方面存在比較大的侷限性,主要以結構化資料分析為主,無法支撐半/非結構化資料儲存、實時計算、機器學習等場景。同時,在前些年,業內又沒有比較成熟的技術體系能夠同時滿足“湖”+“倉”的所有場景,所以才催生了“Hadoop+MPP”的混合架構。

然而,隨著多模型資料庫技術的興起,“湖”“倉”之間的技術壁壘有望被打破,湖倉一體的概念也應運而生。所謂湖倉一體,就是融合資料湖和資料倉儲的一種新型開放式資料平臺架構,將資料湖和資料倉儲的優勢充分結合,構建在資料湖低成本的資料儲存架構之上,又繼承了資料倉儲的資料處理、分析和管理功能。

從技術角度看,“湖倉一體”架構是以多模型資料平臺技術為依託,打破傳統Hadoop+MPP混合部署模式,實現湖倉技術架構統一。未來,湖倉一體作為新一代大資料技術架構,將逐漸取代單一資料湖和資料倉儲架構。


以需求為牽引,湖倉一體時代來臨

破解湖+倉混合架構頑疾,星環科技推出自主可控雲原生湖倉一體平臺



任何技術的更新迭代都是以需求為牽引的,資料平臺的建設也不例外。近年來,資料分析需求的演進趨勢體現在四個方面:

第一,資料型別多元化。由原來的以結構化資料為主,轉變為結構化、非結構化、半結構化和實時訊息資料共存的情況。

第二,分析場景多樣化。由原來的以統計分析為主,轉變為統計分析、標籤分析、全文檢索、 預測分析、甚至是基於圖資料的推理分析等共存。

第三,分析時效實時化。由以離線分析為主,轉變為實時分析、互動分析、自助分析等。

第四,資料管控統一化。由原來的弱管控模式轉變為了強管控,體現在統一資料標準、統一資料儲存、統一資料治理以及統一資料檢視。

在需求演進的趨勢下,企業級資料平臺架構也進行不斷迭代,主要經歷了四個階段:

資料庫階段。在上個世紀80年代,資料分析主要是基於業務資料庫,做一些單系統的簡單分析。

資料倉儲階段。到了90年代,數倉的概念開始興起,各個企業開始構建自己的資料倉儲平臺,把業務系統資料都抽取到數倉之中,進行一些多維的、關聯性的、融合性的BI分析,以輔助決策。

資料湖階段。到了2010年前後,隨著大資料技術的興起,資料湖的概念隨之而來。資料湖不僅支援結構化資料的處理,同時還支援半結構化、非結構化資料的儲存和查詢。同時,在資料應用場景上,也更加的多元化,出現了實時分析、全文檢索、機器學習等一些新型的分析場景。

在這一階段,大家的關注點在於用不同的技術棧來支撐不同的資料分析場景,對資料平臺架構的易用性、可維護性卻沒有過多的關注,導致很多企業建設的資料平臺架構非常之複雜,為後期平臺迭代以及運維都造成了很大困擾。

湖倉一體階段。近兩年來,湖倉一體的概念興起,企業開始逐步關注資料平臺架構問題,更強調透過統一的架構,依託一個一站式的多模型資料平臺來解決資料湖、資料倉儲多樣化的資料分析場景。

技術向業務妥協,“湖+倉”混合架構面臨多重挑戰


破解湖+倉混合架構頑疾,星環科技推出自主可控雲原生湖倉一體平臺



在湖倉一體的概念出現之前,其實業內湖+倉的混合架構已經存在了多年,而且有些企業把這種湖+倉的架構也稱為湖倉一體,實際上湖倉一體並不等於簡單的資料湖+資料倉儲。

湖+倉混合架構有幾個比較典型的特點:

資料湖和資料倉儲是兩套相對獨立的體系,混合部署在一個資料平臺上。資料湖是基於Hadoop技術來實現,主要用於支撐多源異構的資料儲存,執行批處理、流處理等工作負載。資料倉儲主要基於MPP或者一些關係型資料庫來實現,主要支撐結構化資料在OLAP場景下的BI分析和查詢需求。湖和倉是互相獨立的,透過ETL實現資料的交換。

這種架構可以在一定程度上解決企業多場景的資料分析需求,但是也有一些明顯的弊端。


第一,混合部署架構較為複雜,導致架構設計和專案實施交付成本較高,且後期平臺運維難度較大。

第二,資料冗餘非常明顯,增加儲存的成本。Hadoop和MPP都屬於分散式系統,分散式系統為了保障資料的高可靠性,一般都是透過冗餘備份的方式實現的。兩種技術本身都已經做了資料的冗餘備份,採用混合架構又避免不了有部分的資料既存在Hadoop平臺,又存在MPP平臺,進一步增加了資料冗餘的比例,增加儲存的成本。

第三,資料處理的鏈路過長,影響查詢的時效性。通常資料處理要先入湖,進行批處理後再入倉,在數倉中進行主題建模分析,最終為上層提供查詢服務,整個加工鏈路相對比較長,而且中間有湖入倉還要進行一次ETL,影響查詢的時效性。

第四,資料的一致性問題,增加了資料校驗成本。無論是由湖入倉還是由倉入湖,實際上在混合架構下都是在兩種資料平臺間的資料遷移,在遷移的過程當中難免會出現資料一致性問題,增加額外的資料校驗成本。

湖+倉的混合架構是技術向業務妥協的一個產物,並不是真正意義上的湖倉一體平臺。在前些年,業內沒有比較成熟的技術體系能夠同時滿足“湖”+“倉”的所有場景,所以才催生了“Hadoop+MPP”的混合架構。

打破“湖”“倉”技術壁壘,湖倉一體是未來演進趨勢,其特點有幾個方面:

多模儲存:湖倉一體平臺具備統一資料儲存管理能力,支援結構化、半結構化、非結構化的資料統一儲存,同時支援多種資料儲存模型;

架構統一:湖倉一體具備4層統一架構。在資源管理層可以實現統一的資源排程框架,支援計算和儲存單元彈性伸縮;在儲存層具備統一資料儲存能力,實現多源異構資料統一管理;在計算層支援統一計算引擎,可以實現跨模態資料的融合分析;在介面層支援統一資料介面,能夠為上層應用提供統一易用的查詢介面。湖倉一體架構統一,可以避免混合架構帶來的開發難、運維難、儲存成本高、資料處理效率底等問題。

效能卓越:湖倉一體平臺效能更卓越。因為在統一架構下,資料湖和資料倉儲都是採用一體化設計,減少了資料加工的鏈路,增加了資源的複用性,時效性更好。

全面賦能:透過湖倉一體平臺,可以同時滿足“湖”“倉”的資料分析需求,支援多樣化的業務場景,能夠為企業級各類業務系統、各種分析場景提供全面賦能。

“湖倉一體”架構以多模型資料平臺技術為依託,打破Hadoop+MPP混合部署模式,實現湖倉技術架構統一,屬於真正的湖倉一體平臺。

自主可控,星環科技“湖倉一體”的解決之道


破解湖+倉混合架構頑疾,星環科技推出自主可控雲原生湖倉一體平臺



星環科技推出的湖倉一體解決方案,總體分為五層架構:



破解湖+倉混合架構頑疾,星環科技推出自主可控雲原生湖倉一體平臺



第一層是基礎設施層,可以相容信創自主可控的硬體生態,相容主流X86及ARM架構伺服器,支援CentOS、Redhat、麒麟V10、統信UOS等主流作業系統,同時支援ARM與X86架構混合部署。

第二層是統一資源管理層,星環科技推出基於雲原生技術的容器化作業系統TCOS,提供統一的資源排程框架,透過容器化編排,能夠統一排程計算、儲存、網路等各類基礎資源。

第三層是統一儲存管理層,星環科技研發了統一的分散式資料管理系統TDDMS,為不同儲存引擎提供公共的儲存管理服務,保障資料一致性,實現資料統一管理運維和高可用。目前分散式資料管理系統接入了9款儲存引擎,支援10種資料模型的儲存。使用者不需要為不同模型建立單獨的儲存系統,而是透過統一的儲存管理,降低了運維管理成本,也避免了資料孤島。同時分散式資料管理系統的外掛特性,也方便後續業務的靈活擴充套件,可以根據需要接入其他儲存引擎。

第四層是統一計算引擎層,基於分散式計算引擎Transwarp Nucleon可以根據不同的儲存引擎自動匹配高效能演算法,不僅可以支援批處理、流處理等不同型別計算任務,還支援跨模態資料的融合分析,方便使用者在一個SQL中使用不同模型的資料,降低開發難度,提升開發效率。

第五層是統一資料操作層,主要提供標準的SQL語法支援,可以實現統一介面處理不同的業務和不同資料模型,只需要簡單的SQL語句即可完成各種複合跨模型資料查詢,無需訪問不同介面即可操作不同的資料模型。對於場景切換、資料庫切換而造成介面、開發語言切換的問題就不存在了,開發和遷移成本大大降低。

貫穿這五層架構,星環科技湖倉一體平臺還提供了全生命週期的資料管控能力,可以實現多模態資料以及後設資料的統一管控,同時還支援統一的多租戶管理,可確保在湖倉一體平臺上的租戶從資源層、資料層、應用層等都能實現完整隔離。

八大特點引領,星環科技湖倉一體平臺賦能使用者

破解湖+倉混合架構頑疾,星環科技推出自主可控雲原生湖倉一體平臺



那麼星環科技的湖倉一體平臺有什麼特點呢?

雲原生。基於雲原生的架構,提供容器化的底座,可以根據業務負載自動彈性擴縮容,提高整體資源利用率。湖倉一體平臺各元件採用微服務架構設計,按照功能模組進行切分,在橫向擴充套件以及版本更新方面都具有更高的靈活性。

多模態異構儲存。星環科技提供一個多模型的資料管理平臺,能夠提升場景的查詢效率,針對同一份資料可以採用多種資料模型存放,解決不同場景的效率問題。

1湖N倉多租戶體系。面向集團型企業,可以提供1湖加N倉的多租戶體系。在集團本部構建一箇中心租戶,在中心租戶中建設集團級資料湖,梳理統一的資料資產目錄,形成資料資產檢視,同時面向集團層面業務分析需求,建設集團級資料倉儲。針對集團下屬的業務部門、分子公司,或者一些資料創新團隊,可按需建立自有的租戶,在租戶內有獨立的資源環境,有獨立的一套資料開發平臺和工具,可以透過共享統一資料湖的資料,建設面向自己業務和主題的資料倉儲和資料集市,滿足個性化的資料分析需求。



破解湖+倉混合架構頑疾,星環科技推出自主可控雲原生湖倉一體平臺



自主可控。自主可控主要體現在兩個方面,對內,星環科技一直在堅持技術創新,實現全面自主可控。對外,星環科技也在積極的和信創的上下游去做相容適配,擁抱整個信創生態。

總體而言,星環科技湖倉一體平臺的優勢包括多模儲存、技術創新、批流協同、統一SQL、彈性伸縮、信創自主、全棧工具、降本增效等8大優勢。

目前,星環科技湖倉一體解決方案已經在金融、政府、交通、郵政、醫療、能源等行業以及部分大型國有企業落地應用,典型客戶包括中化集團、中國郵政集團、廣州農商行等。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69994106/viewspace-2903581/,如需轉載,請註明出處,否則將追究法律責任。

相關文章