數字化轉型浪潮下,湖倉一體如何支撐企業走向資料智慧

ifenxi發表於2021-05-14

數字化轉型浪潮下,湖倉一體如何支撐企業走向資料智慧

數字化轉型的核心要義是挖掘資料的價值,隨著企業數字化轉型的深化,跨多業務、多資料型別的新型應用場景不斷湧現,海量大資料場景下的聯機交易、非結構化資料治理等需求,給企業資料基礎設施帶來了新的挑戰。新一代“湖倉一體”資料庫廠商,在面向全新海量聯機業務的場景中快速崛起。

當前,各行各業的數字化轉型進入了快車道。數字化轉型的核心要義是挖掘資料的價值,隨著企業數字化轉型的深化,跨多業務、多資料型別的新型應用場景不斷湧現,海量大資料場景下的聯機交易、非結構化資料治理等需求,給企業資料基礎設施帶來了新的挑戰。

面對這些新需求,傳統的關係型資料庫難以滿足。10年前,在全球資料庫業界普遍還在思考如何利用MySQL、PostgreSQL替代Oracle、DB2的同時,以Snowflake、Databricks及巨杉資料庫為代表,聚焦於新一代“湖倉一體”架構的資料庫廠商,開始在面向全新海量聯機業務的場景中快速崛起。

在數字化轉型的全新技術趨勢中,資料平臺需要同時承載聯機業務與分析能力,因此湖倉一體架構並非單純為了OLAP分析而設計。湖倉一體架構可以支援聯機交易、流處理和分析,並且同時支援結構化、半結構化和非結構化資料的儲存。因此,湖倉一體真正的價值在於打通不同業務型別、不同資料型別之間的技術壁壘,實現交易分析一體化、流批一體化、多模資料一體化,最終降低資料流動帶來的開發成本及計算儲存開銷,提升企業的運作的“人效”和“能效”。

數字化轉型浪潮下,湖倉一體如何支撐企業走向資料智慧

“湖倉一體”作為企業未來資料平臺的重要基礎架構,需要一種強有力的分散式資料庫支撐其海量、多模、多型的資料。自2011年投入產品化研發時,巨杉資料庫就以此為目標,並於2013年釋出了第一個商用版本。基於原生分散式資料庫核心的“聯機資料湖”能力,發展成為面向結構化SQL、半結構化JSON以及非結構化資料的統一資料平臺。另外,巨杉資料庫率先在2015年加入資料分析引擎,為客戶提供具備海量聯機資料處理能力的湖倉一體資料服務平臺。

目前,巨杉資料庫已在超過100家金融銀行業客戶規模化生產上線應用。在金融銀行業生產環境中,執行時間最長的巨杉資料庫叢集已經超過7年,最大單客戶叢集規模達300臺物理伺服器,所管理的單叢集最大資料量達到1萬2000億條。

總體來看,巨杉資料庫被眾多客戶廣泛應用於資料中臺、影像平臺以及聯機交易資料庫替換等多類業務場景。同時,無論在物理伺服器部署、私有云、甚至公有云環境下,巨杉資料庫均能夠透過同一套軟體架構,實現跨平臺、跨底座的快速部署與應用。

數字化轉型浪潮下,湖倉一體如何支撐企業走向資料智慧

資料平臺架構進入“湖倉一體”新階段,海量資料聯機處理是關鍵

當前,企業資料管理架構的發展已邁過資料湖和資料倉儲分而治之的階段,進入“湖倉一體”的新階段。“湖倉一體”由資料湖和資料倉儲概念延伸而來,融合了兩者的架構特性。在傳統獨立構建資料湖及資料倉儲模式的基礎上,“湖倉一體”演進出對不同資料型別(結構化、半結構化與非結構化)的儲存和聯機處理能力,為企業提供裸資料儲存、資料加工、資料分析展現等能力的統一平臺。

相比資料湖,“湖倉一體”能夠支撐聯機交易和聯機分析的場景,彌補了Hadoop技術對於資料實時處理能力的重大不足。隨著企業數字化轉型的深化,特別是在資料中臺和智慧化應用進行微服務改造的過程中,企業內部出現了大量需要同時訪問多個不同業務系統(幾個到幾百個)資料的聯機交易場景,因此,底層資料庫具備大規模實時聯機處理能力顯得尤其重要。

相比資料倉儲,“湖倉一體”作為支援聯機處理的統一資料底座,具備實時處理多引擎、多資料型別能力,避免不同平臺間的資料移動,大大降低資料處理的時間成本。企業可以對不同崗位的研發及業務人員開放自由查詢分析能力,無需透過IT部門人員進行復雜建模,提升了應用開發的敏捷性及效率,讓海量資料業務從T+1走向T+0。

巨杉資料庫聯合創始人兼CTO王濤表示,“湖倉一體”是一類技術架構的統稱,而不是某個產品。巨杉資料庫對這類技術架構的佈局最早可追溯到2015年,在業界形成統一認知的概念之前,就利用其特點提前5年協助客戶落地湖倉一體資料架構。當前巨杉資料庫已經在民生銀行、廣發銀行、恆豐銀行、渤海銀行等股份制銀行;廣東省農信、吉林省農信、四川省農信等省級農信行;上海銀行、長沙銀行、廣州銀行等城商農商行;以及PICC人保、中國結算等超過100家頭部金融銀行業客戶規模化生產上線。

適配微服務架構,處理海量聯機交易,助力企業提升研發“人效”

在傳統的核心分戶帳交易業務場景(如銀行賬戶開通等)中,業務系統相對穩定,業務邏輯變化需求相對較少,因此並非是湖倉一體分散式資料庫的重點應用場景。而在服務於各類移動業務、網際網路業務、音影片銀行的海量聯機交易場景下,湖倉一體分散式資料庫應用價值則優勢顯著,特別是在微服務資料融合管理場景中,可以有效提升研發的“人效”。

在數字化創新的過程中,微服務架構可以有效拆解業務流程,提升服務的重用效率,因而成為了企業主流的應用開發架構。但在企業對應用層進行微服務改造的過程中,傳統一個應用對接一個資料庫的架構被拆散成幾十甚至上百個微服務,導致資料庫出現難管理、難運維的問題。研發團隊面對不同業務的需求時,往往需要選用不同的資料庫引擎。同時,各業務間又需要保持邏輯上ACID一致性。這樣互相沖突的需求,需要藉助應用程式邏輯來進行大量的事務一致性保障,導致大量消耗開發人員的設計精力。

基於引擎級多模技術,巨杉資料庫透過湖倉一體架構,可有效幫助企業增強資料複用能力,全方位提升管理及開發效率。具體而言,巨杉資料庫主要透過以下兩個方面的技術突破,幫助企業提升線上聯機交易場景的研發“人效”。

一方面,巨杉資料庫透過自有專利的序列時鐘協議(STP)實現了低至納秒級的時鐘呼叫延遲,並且擁有和傳統集中式資料庫同等的RR事務隔離級別。開發者可以放心地將事務一致性邏輯交由資料庫層進行處理,讓開發人員迴歸到純粹的業務設計中,提升企業研發效率,真正實現按需的資源擴充套件,讓企業可以更為輕鬆地控制TCO整體擁有成本,提升IT管理部門的投資回報率。

另一方面,巨杉資料庫藉助分散式技術架構下的引擎級多模技術能力(Multi-Model),構建了面向微服務架構的資料融合管理能力,能夠實現跨節點的事務一致。開發者可以跨越MySQL、MariaDB及PostgreSQL的引擎界限,透過“跨引擎事務一致性”,讓不同的研發團隊基於同一份資料進行業務處理,自由選擇適合業務的SQL語言,提升開發及管理效率。

高併發的融合聯機處理能力,助力非結構化資料治理,提升資料“能效”

傳統的資料流向,通常以業務系統(SQL)作為資料入口,並基於結構化資料來驅動應用的執行。因此,以往企業內容管理系統和影像管理系統所產生的非結構化資料,往往只作為歸檔資料,難以發揮增量價值,被定義為IT系統中的儲存成本“消耗大戶”。

企業在數字化轉型過程中,非結構化資料(如同:音影片、聲紋指紋、人臉識別等)已經進入到線上業務系統中,成為了海量資料的新入口。這些資料不但容量上遠超結構化資料,而且透過持續迭代的AI和機器學習處理,會不斷產生海量的標籤資料,對底層資料處理平臺提出了更高的實時聯機處理能力要求。

可以說,過去的非結構化資料就是個黑盒子,使用者完全不知道里面儲存的內容,所有的資訊描述都在業務系統中存放。而現在,我們則需要將黑盒子開啟,為裡面儲存的每一個物件賦予標籤、描述和內容,同時能夠基於這些資訊進行統一有效的管理、分類、檢索和查詢,實現非結構化資料治理,提升資料整體“能效”。

王濤表示,企業中的非結構化物件資料,正從“資源消耗中心”,向“資料價值中心”進行轉型。客戶對非結構化資料處理的要求正在不斷提升,促使資料庫需要對資料處理流程進行全新思考。

為此,SequoiaDB提供在同一平臺同時處理結構化、半結構化和非結構化資料的能力,打破了傳統模式中不同資料模型需要分開獨立建設的困局,簡化資料管理模型。在湖倉一體的架構下,研發人員可以在統一的資料平臺下,簡化資料呼叫流程;而運維人員更可以輕鬆地在統一平臺下管理跨中心的高可用容災,簡化運維複雜度。巨杉資料庫更提供了專用的物件儲存資料型別,支援分散式架構下橫向的並行寫入及讀取能力,相比傳統的外部儲存,可為客戶提供高達數十倍的讀寫效能。

跨多雲部署,為企業客戶雲平臺選型提供更大的靈活性

如今,越來越多企業開啟了“上雲之路”,雲端計算的重要性在業界毋庸置疑。企業的雲端計算落地往往會按企業的需求,選型不同能力的雲廠商,甚至可能會選擇多家產品共同建設,這就好比選擇不同的伺服器儲存廠商構建基礎平臺一樣。資料庫作為最重要的IT基礎設施之一,也同樣需要對不同雲廠商提供跨多雲的平臺級部署能力。

數字化轉型浪潮下,湖倉一體如何支撐企業走向資料智慧

巨杉資料庫早在2018年即開啟了打通跨多雲統一部署的研發,目前已經形成一套可以同時滿足裸機、私有云以及公有云環境部署的平臺架構。巨杉資料庫已經在多家銀行客戶啟動基於雲平臺的大規模生產環境落地,同時將在今年正式推出訂閱模式,進一步實現跨騰訊雲、華為雲、亞馬遜等公有云環境的資料庫雲服務。

資料庫選型,需要企業級商業化產品

隨著新一代資料庫產品陸續推向市場,企業數字化首先面臨產品選型的問題。企業在產品選型的過程中,從廠商的商業模式劃分,可供選擇的新一代分散式資料庫產品一般分為兩類:面向社群的開源技術產品和麵向企業的商業化產品。

王濤表示,開源產品和企業級商業化產品都是有效的產品經營模式,造成兩者目標受眾差異的原因,在於產品的初心不同。企業級商業化產品,從設計之初就是面向企業級整體需求,從行業長期技術趨勢出發進行規劃設計,而非單純面對終端使用者的短期個體需求,也因此更能滿足行業技術頂層設計的需求。

基於企業級商業化的資料庫產品,其優勢體現在企業級能力、服務和產品三個層面。

在企業級能力層面,企業級商業化產品以付費的企業客戶作為直接服務物件,能力需求直接來源於企業客戶的行業訴求。因此,企業級商業化產品相比面向粉絲玩家的開源發展模式,更具備行業通用性,也更聚焦於企業級長期發展的功能及監管需求。

在服務層面,基於企業級自主研發的產品廠商,能夠提供原始碼級別的支援服務。企業透過購買其產品及服務,可以獲得原廠商最直接的服務承諾和支援,不會受到第三方或技術社群的制約。

在產品層面,基於自研原生分散式資料庫架構而設計的產品,天生具備雲原生能力,可以實現資料庫核心與硬體、網路及雲IaaS層的分散式策略排程,可以更好地適應分散式與雲端計算架構的未來發展。

隨著企業數字化轉型的深入,企業對海量大資料的實時聯機處理(包括聯機交易和聯機分析)需求越來越迫切。一方面,面對這些全新的應用需求,企業級的商業化產品可從企業的核心訴求出發,穩健地滿足企業的應用需求。另一方面,面對業務場景帶來的挑戰,企業該如何應對底層的資料架構進行變革,湖倉一體無疑提供了明確的變革方向,可以有效的幫助企業提升“人效”與“能效”,幫助企業快速抓住機會,獲得行業優勢。

伴隨著全新的數字化業務逐漸滲透到傳統業務併成為核心場景,相信未來分散式資料庫技術以及基於湖倉一體的資料架構應用將迎來爆發。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69993021/viewspace-2772260/,如需轉載,請註明出處,否則將追究法律責任。

相關文章