全球分散式雲大會|GBase GCDW雲上邏輯資料倉儲助力行業迎接數字化轉型新挑戰

GBASE南大通用發表於2021-12-27

近日,以 “引領分散式雲變革 助力灣區數字經濟”為主題的全球分散式雲大會在深圳隆重召開,本屆大會由全球分散式雲聯盟、深圳科技交流服務中心、深圳市通訊學會、眾視 Tech 聯合主辦。組委會攜手南大通用、阿里雲、騰訊雲、 Google Cloud 、華為雲、螞蟻集團、浪潮雲、金山雲等海內外頂尖雲端計算團隊和分散式雲先鋒企業,為粵港澳大灣區數字經濟發展注入分散式雲動力,更將中國分散式雲端計算髮展推上全新高度!

 

在分散式資料論壇上,天津南大通用資料技術股份有限公司資料智慧產品經營部總經理張紹勇發表了題為《 GBase GCDW 雲上邏輯資料倉儲助力行業迎接數字化轉型新挑戰》的精彩演講。

 

傳統企業級資料庫面臨的六大挑戰

傳統資料庫有單機架構、分散式架構和存算一體架構,這三種架構都面臨著資源彈性的挑戰,硬體資源在業務高峰時成為瓶頸,但在業務低谷時候又出現浪費。

隨著資料量越來越大,傳統的三種架構對資料的承載的能力不足。

資料的實時處理的能力要求越來越高。

資料型別的複雜性越來越高,傳統數倉主要處理結構化資料,但現在結構化、半結構化、非結構化的場景越來越多。

使用者挖掘資料價值需求越來越高,傳統的資料庫在支撐一些深入挖掘的演算法方面乏力。

安全需求越來越高,尤其隨著國家關鍵資訊基礎設施安全保護條例等釋出,傳統資料庫在多方面的安全都亟待強化。

為了應對上述挑戰,南大通用把新一代的解決方案稱為“下一代的企業級資料倉儲”。下一代企業級資料倉儲應具備的演進方向有兩個,一是雲化、分散式、融合、智慧、實時、安全,這六點對應上述六個痛點,雲化是解決資源彈性問題,分散式解決資料容量問題,融合是解決多模問題,智慧解決資料價值挖掘問題,實時解決以 T+1 方式演進到準時方式,在加密許可權等多方面解決安全問題。

六個方向相互依賴,基礎架構在傳統 MPP 資料庫分散式融合智慧實時點作為基石,在這個基礎之上,提供資料價值挖掘能力;在雲端計算提供資源池化的基礎之上,把分散式、融合、智慧、安全、實時的基礎產品架構在雲上。核心是大資料處理能力,解決最基礎的問題,在這一基礎上,張紹勇引入了演講的重心——如何上雲的問題。

下一代企業級資料倉儲的重要能力

張紹勇從演進的 6 個方向總結資料倉儲的四大重要能力:

第一是資料實時化。 有三個方向,第一是資料來源,傳統的關聯式資料庫的資料如何同步到下一代數倉裡;第二是資料流式的處理能力;第三是資料遷入數倉湖以後,如何處理得更快。

第二是多模能力。 通過資料虛擬化的能力來解決,資料在底層儲存在多個引擎中,但使用者不用關注資料位置,需要提供統一的資料訪問能力。

第三是資料平民化。 資料要更加視覺化,並且能夠以自行自動配置的方式來使用。

第四是資料協作化。 系統面臨多種使用者,在一個系統之間進行多租戶管理和分工協作,非常重要。

張紹勇表示,下一代企業級資料倉儲的重要能力就是融合統一。在融合統一的基礎之上才是資料湖、資料倉儲,下一代企業級資料倉儲完全支撐了資料湖、資料倉的能力。資料湖的儲存容量更大、成本更低,資料以原始格式儲存,資料的使用更加靈活,面向使用者多樣。資料倉儲的模式是對資料提前加工處理,是模式化的。

雲上邏輯資料倉儲

什麼是邏輯資料倉儲?

Gartner 的定義是不再侷限於結構化資料,包括非結構化的資料,邏輯上是個大的資料倉儲,底層包括各種資料來源進行關聯處理。

Gartner 的定義中可以總結出以下幾點:

第一,處理的不僅僅侷限於結構化資料;

第二,邏輯上是個大的資料倉儲;

第三,雖然邏輯上一體,使用者或多個引擎之間的資料要發生關係,多個資料之間要進行關聯和交換。

邏輯資料倉儲所達到的目標

隨處執行  既可以部署在雲上,也可以部署在物理機、虛擬機器,無論部署在什麼樣的環境下都可執行。

隨處儲存  使用者不用關心資料在哪,結構化資料儲存在傳統資料庫和 MPP 裡,非結構化可以儲存在 Hadoop 引擎裡,這是資料虛擬化的能力。

隨處使用  資料聯邦的能力,使用時既可以處理結構化資料的演算法,也可以處理非結構化資料的演算法,混合場景也能夠支援。

邏輯資料倉儲的設計理念

傳統的資料倉儲都有資料採集的過程,把資料來源的資料通過 ETL 採集到鏈條裡;邏輯資料倉儲叫做重關聯,不需要採集,只需要資料(無論在本地、雲端或其他任何地方),使用時只需要做關聯處理。張紹勇補充說,這一場景並不絕對,有些資料需要加工處理的,要先經過集中化,實際上還是要經過 ETR ,但有些資料出於質量或自研的要求,可能在其他資料來源裡,直接使用就可以,不需要採集,兩種場景都有它實際的業務使用之處。

基於這樣的設計理念, Gartner 2016 年提出來的新一代企業級資料平臺概念:它是綜合分析場景,以及我們對於批量跟實時的工作模式。為了解決這樣的場景,提供資料虛擬化以及資料聯邦的能力,資料虛擬化主要體現在資料實現統一介面的能力,資料聯邦實現跨資料的訪問跟計算。

邏輯資料倉儲的核心技術資料虛擬化和資料聯邦,資料虛擬化的能力解決了多種資料融合的問題,能夠融合管理結構化、半結構化和非結構化的資料,通過統一的入口實現資料的隨處儲存。資料聯邦能力通過融合多種計算模型,能夠融合線上分析和關聯分析、圖計算等多種計算模型,實現各種演算法融合,繼而讓資料隨處使用;此外,聯邦能力還能夠把底層的多種引擎之間的資料進行打通,進行實時流轉。

下一代大資料平臺架構

中間資料管理層,整個架構是資料採集、資料管理、資料分析挖掘、資料服務計算,傳統的平臺架構都遵循這樣的架構,邏輯資料倉儲在資料處理這一層除了 IoT 平臺的實時處理以外的其他場景,全部融合成邏輯處理倉庫的模組來進行統一處理。從下一代大資料平臺的架構裡面也能看出邏輯資料倉儲在整個架構裡承載著非常重要的功能。

雲上邏輯資料倉儲架構分為三層,第一層是統一的介面層,由於 Hadoop 平臺的廣泛應用, GBase GCDW 支援標準的 SQL 介面。中間層實現了多引擎管理、統一使用者、統一後設資料以及跨引擎查詢計劃。最底層實現了多引擎之間的統一資料交換、一致性管理、資料透明實時同步以及資料管理層保障。

通過統一的 SQL 介面,透明的跨引擎訪問以及全資料型別融合處理,跨域和多中心管理幾個方面實現資料虛擬化能力;通過全演算法的融合,打通計算引擎間的資料的關聯,資料生命週期管理實現資料的聯邦能力。

中間統一的邏輯資料倉儲支援多種儲存引擎以及計算引擎,對外提供統一的資料虛擬化層。張紹勇介紹說,整體而言, GBase GCDW 通過把不同的儲存引擎面向不同場景,對使用者來說遮蔽了底層,只需要通過統一的資料虛擬化層來訪問不同的引擎,非常方便。

有了邏輯處理倉庫的能力,就能夠完美支撐資料湖、資料倉儲和資料集市。資料湖傳統的架構基本是 Hadoop+MPP 支撐,通過邏輯資料倉儲統一把 Hadoop+MPP 的多引擎統一管理起來支撐資料湖的建設。傳統的資料倉儲、資料集市,主流是支援結構化資料處理,用邏輯資料倉儲也能夠完美支援。這樣一款邏輯資料倉儲產品,能夠把架構統一化、簡單化,一種技術架構能同時支援資料湖、資料倉儲、資料集市。

資料智慧的實現

挖掘演算法

原有的挖掘演算法,實際上是在資料庫內部沒有進行挖據演算法之前,把資料匯入前端工具,以 Python 的方式進行挖掘學習。把演算法整合在 MPP 叢集的內部,就實現了分散式計算,從而提升了資料分析的效能且減少了資料搬遷。

資料安全

資料儲存加密,且要做到透明加密,把進行關注的列進行加密,只需要使用私鑰的 Key 檔案,使用者使用是完全透明的,不需要呼叫加密演算法。

儲存如果沒有加密,還需要對敏感資料進行脫敏。 GBase 的動態脫敏技術主要有三種方式,對有關注的資料欄位指定脫敏,可指定預設脫敏、隨機脫敏、自定義脫敏。脫敏方式指定完後,跟使用者許可權繫結,僅讓有許可權使用者看到明文資料,沒有許可權的使用者看到是祕文資料。密文有多種表達方式,通過動態資料脫敏實現了資料儲存本身沒有明文沒有加密,但前端根據不同的使用者許可權控制資料的不同展現方式。

資料整合

下一代大資料平臺面臨的資料來源是多方面的,輸出也是多方面的,因此需要對資料進行整合整合。為了兼顧實時處理,一種是通過流式方法加入,第二種是通過 CDC 的方式,第三種是通過批量資料載入,此外還可以通過 DBlink 方式載入。

多種方式接入到邏輯資料倉儲以後,能夠進行線上庫跟離線庫的統一處理。處理完的結構我們可以通過標準的開發結果的方式來提供給應用程式,或通過檔案方式給到下游,抑或提供給訪問者。無論輸入或輸出, GBase 支援多種的資料整合方式。

資料接入完成後的快速演算法

雲上邏輯資料倉儲支援新一代向量計算引擎,傳統按行來處理,面臨函式呼叫開銷比較大的問題,無法充分利用現在 CPU SIMD 的指令集,要支援新一代的向量計算引擎,能夠按塊計算,從而提升資料的執行能力。隨著國產化的推進, GBase 現在基於 NUMA 架構,在 NUMA 架構的基礎上,發揮多種架構的優勢,提供多例項部署方式,原來是部署一個例項,現在根據 NUMA 繫結到多個使命,帶來的優勢是避免了跨 NUMA 記憶體訪問效能還是比較低的問題,提升了在多 NUMA 架構上的運算效能。

2020 年底, GBase 只需要 8 臺物理機就可以達到 894 萬的 Performance 值。資料庫產品的核心要把硬體能力充分發揮出來,這也是作為基礎軟體要持續努力要做的工作。

叢集規模也是 GBase 一直追求的目標,分散式要解決的問題也是資料的容量如何擴大,從 GB 級到 PB 級, GBase 做了兩方面的測試,一是資料基礎能力測試,一個是效能測試。基礎能力測試覆蓋能各個方面,效能側在金融和電信兩個場景進行了測試。截至目前, GBase 在國內 MPP 規模最大,單個 MPP 叢集達到 4096 個節點,並且通過了基於金融電信兩個模型的效能測試,是國內首家。

雲上資料倉儲如何上雲

上雲是兩個方面,一是上私有云,二是上公有云。 GBase 支援兩種方式,一個是私有云上的塊和物件儲存,第二個是公有云物件儲存。雲上邏輯資料倉儲完全搬到公有云、私有云上,並且已經有實踐案例。資料接入和運維能力管理的核心是中間資料倉儲的虛擬倉庫層、計算層,實現了資料按照不同的邏輯有分成不同的虛擬倉庫,底層儲存層實現塊跟物件的兩種方式,公有云上主要是物件儲存,私私有云上可以是塊和物件儲存。

中間層,即虛擬倉庫層,邏輯上對使用者來說是上層通過統一的接入層實現了統一的排程管理;中間層,使用者根據不同的業務建立獨立的虛擬倉,支撐不同的關注業務。不同的虛擬倉庫之間,底層資料是共享的,最上層統一排程實現統一訪問,在不同的虛擬倉庫之間實現了故障隔離、資源的隔離,並且每個獨立的虛擬倉庫可以獨立擴容,使用者運維更加簡單。

湖倉一體核心有三個特性,第一點,既然是湖倉一體,它的儲存是共享的;第二點,湖倉一體多個引擎之間資料之間要融合打通,也就是資料聯邦能力,資料關聯運算;第三點,一份資料面向不同的場景,有多種計算引擎要支援,需要多種計算引擎多模的能力。

雲上邏輯資料倉儲能夠支援湖倉,資料共享,計算儲存分離,滿足了上述第一點;邏輯資料倉儲支援了多個計算引擎,滿足第二點;邏輯資料倉儲本身把多引擎資料、關聯計算、資料交換打通,滿足了第三點。

儲存層實現了一站式資料儲存。中間彈性計算層支援虛擬機器、容器、裸金屬多種方式。最上層實現了一站式資料治理,使資料資產化。因此雲上邏輯資料倉儲的能力,能夠完美支援湖倉一體下一代企業級資料倉儲建設。平臺部署在雲上,整個資料儲存整合,資料管理、平臺管理都屬於 PaaS ,在這基礎之上提供 SaaS 層的資料服務。整個基礎架構再加服務,以 DaaS 的方式對外提供服務。

張紹勇總結說,為了解決傳統數倉面臨的六大挑戰,我們提出了下一代企業級資料倉儲主要演進的方向——雲化、分散式、實時、智慧、安全。通過邏輯資料倉儲提供分散式能力,融合處理、實時和安全能力,從而實現了全型別資料的融合,解決整個資料儲存和處理的問題。通過機器學習 in Database AI 的整合,實現了資料價值的挖掘。把整個邏輯資料倉儲搬到雲上,以 DaaS 的方式對外提供服務,實現了 DaaS IaaS PaaS 的融合,繼而實現了上雲的能力。

綜上,雲上邏輯資料倉儲為數字行業資訊化找到了支點,解決了傳統資料倉儲面臨的六個挑戰以及下一代企業級大資料庫應該解決的六個方面的問題, GBase 能夠完美支撐下一代企業級大資料倉儲。

GBase 支援多雲、混合雲,支援海內外的公有云、私有云,通過統一的介面層實現對塊儲存、物件儲存資料的統一訪問,通過計算引擎實現了緩衝管理,物件儲存的效能比較低,需要進行多級緩衝管理加速執行效能,為使用者提供接入的排程層實現統一資源的排程。有了上述幾層能力之後,就能夠為使用者提供雲服務的整個訂購、服務的入口和統一的管理。

關於南大通用公司

南大通用到目前已經成立 17 年,專注於資料庫跟大資料產品的研發,是國內目前唯一一家在金融電信行業得到規模化應用的資料庫企業,在金融電信領域擁有大量客戶,形成了主流的三款大資料產品。

南大通用入圍 2017 2018 Gartner 分析型資料庫魔力象限, 2019 Gartner 釋出的全球 19 款資料倉儲產品排名, GBase GCDW 排名全球第七,是國內唯一上榜產品。

南大通用在中國市場取得了巨大成功,在金融電信領域部署 MPP 倉庫,提供邏輯資料倉儲解決方案,也業內相處於領先地位,並覆蓋除電信金融外的其他各行業,總節點超過 3 萬。

GBase GCDW 助力中國農業銀行總行建設了集中化的大資料平臺,總的節點數超過 2000 ,穩定執行超 2000 天。

GBase GCDW 在中國銀行,中國人民銀行、招商銀行等大國有銀行和股份制銀行也都有應用,並覆蓋大量城商銀行、農信社。

在電信行業,南大通用助力中國移動集團總部部署了集中經營分析系統,也超過了上千節點,覆蓋了中國移動全國 31 個省中的 22 個省,覆蓋率超過 80%

在其他的行業,如保險、電力、政務、黨政這些行業,南大通用也得到了大規模的應用。無論線下還是上雲, GBase GCDW 都能夠支撐企業下一代的數倉、大資料平臺建設。

未來,南大通用將繼續專注於資料庫軟體產品和服務,致力於成為使用者最信賴的資料庫產品服務商。

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69979120/viewspace-2849578/,如需轉載,請註明出處,否則將追究法律責任。

相關文章