星環科技打造自主可控的高效能資料庫,開啟國產化升級新篇章

星環科技發表於2022-05-10
星環科技打造自主可控的高效能資料庫,開啟國產化升級新篇章



星環科技自成立以來,一直致力於國產化資料庫的自主研發,打造了自主可控的高效能分散式分析型資料庫ArgoDB和分散式交易型資料庫KunDB。交易型資料庫KunDB具備較強的SQL相容性,同時具備高可用、高併發、線上擴縮容、資料強一致性等能力,適用於操作型業務、高併發業務等場景。多模型資料庫ArgoDB具備完整的SQL相容性,同時具備高擴充套件、高可靠、多模型、存算解耦等能力,一站式滿足資料倉儲、實時資料倉儲、資料集市、OLAP、聯邦計算等場景。

通過不斷的打磨和對業務場景不斷的落地實踐,ArgoDB和KunDB已成為具有完全自主智慧財產權的成熟的國產資料庫,能夠為更多的客戶提供高效能、高可靠、成熟的資料庫產品服務,幫助使用者應對智慧資料時代海量資料的分析與探索。

近日, 星環科技正式釋出了ArgoDB5.0和KunDB3.0,並將其結合打造了一體化實時AETP技術(分析增強型交易庫),在一個資料庫系統裡同時支撐交易與分析混合型業務場景,助力資料庫國產化升級


ArgoDB5.0:存算引擎雙升級,打造高效能湖倉集一體化多模型資料庫


星環科技打造自主可控的高效能資料庫,開啟國產化升級新篇章

Transwarp ArgoDB 是星環科技自主研發的面向資料分析型業務場景的國產化分散式多模資料庫,能夠一站式替代Hadoop+MPP混合架構,提供多模分析、實時資料處理、存算解耦、混合負載、資料聯邦、異構伺服器混合部署等先進技術能力,一站式滿足資料倉儲、實時資料倉儲、資料集市、OLAP、聯邦計算等各種需求。2019年8月,ArgoDB成為全球第四個通過TPC-DS基準測試並經過TPC官方審計的資料庫產品。

ArgoDB5.0打造了新一代向量化計算引擎和多模型儲存引擎,整體分析效能大幅度提升。ArgoDB5.0進一步加強了多模型資料的支援能力和處理能力,通過一個資料庫就可以滿足更多資料模型處理和不同模態資料關聯。同時,ArgoDB5.0引入DP-SQL能力,實現對資料的隱私保護,滿足資料釋出、流通、脫敏、查詢、交易等場景下的資料安全要求。在資料資產安全保障上,5.0版本繼續加強了資料容災備份能力,通過細粒度、高併發、高效率的容災備份能力,進一步提升資料安全保障能力。此外,ArgoDB 5.0進一步加強資料湖和資料倉儲/資料集市等業務面的技術革新,增強湖倉集融合能力,通過統一訪問介面、統一儲存、統一後設資料管理等能力,真正意義上為使用者提供湖倉集一體化的場景解決方案。


新一代向量化計算引擎和多模儲存引擎,分析效能是同類資料庫產品的2~10倍

ArgoDB 5.0在原高效的計算引擎之上,將計算運算元全向量化native改寫,使得高併發複雜分析在百毫秒內反饋結果,將優化器中引入資料的動態取樣,全面支援多種join的重寫。同時結合業務場景,優化場景化能力,重點在湖倉一體的SQL管理上進行了優化,並且新增隱私計算能力和資料動態脫敏能力,增強資料聯邦場景中SQL語句運算元下推能力等。

在儲存引擎方面,ArgoDB 5.0繼續深耕分散式儲存框架與列式儲存引擎的優化,在降低業務資源消耗的同時提升多模型能力和業務效能。相對於上一代批量掃描效能提升了10倍以上,同時降低業務SQL資源(IO等)的使用,提升系統穩定性和業務效率。對於實時數倉場景,資料延遲控制在毫秒級,並且支援高併發分析。在大叢集場景下,支援百萬級別的表和百萬級別的元資訊管理,穩定性進一步提升。

基於存算雙引擎的升級,ArgoDB 5.0在效能上有大幅度的提升,尤其是OLAP分析場景下的效能提升,無論是單表查詢還是多表關聯場景,ArgoDB都具備有明顯的效能優勢,整體上是同類資料庫產品的2-10倍,幫助使用者更快、更穩定地應對複雜多變的業務需求。


多模資料融合分析,更高效地滿足”一庫多用“場景

隨著業務資料量不斷增長的同時,資料結構也變得越來越靈活多樣,資料不再侷限於規整的結構化資料,半結構化、非結構化資料在資料域處理中的佔比逐年上升,因此對不同模態的資料進行智慧化資料處理的需求越來越迫切。

多模型資料庫ArgoDB繼3.2版本新增支援大物件資料型別Blob和Clob,用來儲存、查詢和處理圖片、電子文件、音訊、視訊等非結構化資料後,ArgoDB 5.0新增對半結構化的JSON/JSONB/XML資料型別的支援,滿足了更多資料模型處理場景和更多複雜業務需求。

同時,ArgoDB 5.0進一步加強了對多模態資料的處理能力,在優化器上進一步深耕,對不同模態資料基於代價/規則等自動判斷選擇合理高效模型,拆分、分發計算任務,讓資料處理更加快捷和高效。

在架構上,ArgoDB基於存算解耦,實現了多模資料庫的“四個統一”:

  • 統一的SQL編譯引擎,支援SQL 99/2003 標準語法,相容TD,Oracle,DB2等多種方言,對不同模式的資料提供統一介面,將多個操作訪問入口變為一個入口,將多種資料庫語言變為一種語言,降低開發和遷移成本,簡化使用者操作。
  • 統一的計算引擎,將多套計算引擎變為一套引擎,將多份計算資源變為一份資源,提供高效能的分析計算和執行效率,滿足跨模型資料複雜關聯分析場景。
  • 統一的儲存管理系統,同時支援分析型行列混合儲存、支援具有搜尋功能的文字儲存等多模異構儲存,並保證資料的強一致性,資料只需一次入庫,即可通過異構儲存的訪問能力支撐多樣化複雜分析場景,降低運維成本,將分散儲存管理變為統一儲存管理,極大簡化系統架構,減少開發運維成本。
  • 統一的星環雲原生作業系統,支援 ARM+X86的混合架構,使用者可以利舊硬體,大幅降低成本。

ArgoDB5.0通過統一的後設資料管理、統一的事務管理和完備的多模優化器支撐了對不同模態資料的統一讀取排程,實現多模態融合,滿足更多“一庫多用“場景。


創新型資料差分隱私,強化資料安全

資料處理與資料安全是不可分割的,如何對個人資料的有效保護是在資料處理、資料公開、資料釋出中不可繞開的一個話題。隱私保護是基於差分隱私的密碼學方法,在統計資料庫查詢時,旨在保證資料查詢的同時,最大程度減少識別個體資料的機會。

ArgoDB 5.0版本結合資料隱私安全的業務訴求,引入DP-SQL能力,實現對資料的隱私保護,滿足資料釋出、流通、脫敏、查詢、交易等場景下的資料安全要求。在互動式場景下,資料管理者可以按需對查詢請求資料集合新增必要的干擾(即:噪聲)後反饋給使用者;在非互動式場景下,資料管理者可以按需針對所有可能的查詢,在滿足一定條件下一次性發布相關查詢資料(即新增噪聲後的“淨化版”資料)。

ArgoDB5.0將隱私計算與資料庫技術相結合,支援複雜分析SQL自動優化,易於開發人員使用。同時將加密協議結合SQL優化技術,相較於python級別實現執行效率更優,支援更大資料量的隱私計算。


打破資料壁壘,增強湖倉集融合

隨著資料與業務的並行發展,對資料的融合分析處理逐漸成為資料庫技術發展趨勢。當資料倉儲與資料湖資料集市協同處理時,帶來的是資料孤島的打破,以及資料計算邊界的拓寬。

ArgoDB 5.0版本進一步加強資料湖和資料倉儲/資料集市等業務面的技術革新。在同一平臺中,避免資料移動,將原始的、加工清洗的、模型化的資料,共同儲存於一體化的“湖倉集”中,既能面向業務實現高併發、精準化、高效能的歷史資料、實時資料的查詢服務,又能承載分析報表、批處理、資料探勘等分析型資料集市業務,真正意義上為使用者提供湖倉集一體化的場景解決方案。

通過ArgoDB打造的湖倉集一體化方案,使用者可以基於統一訪問介面最大程度上降低資料湖、資料倉儲、資料集市業務過程中業務介面的調整,降低使用者開發成本,提高資料處理效率。統一的後設資料管理可以在精準的ACL控制下,實現按需展示湖倉集內的相關後設資料的統一查詢,提高資料管理效率。統一儲存管理,對使用者遮蔽不同資料來源的資料儲存,降低業務資料管理難度。此外,基於ArgoDB打造的湖倉集一體化方案可以無縫銜接AI技術,幫助業務挖掘更多資料價值。


KunDB3.0:高度相容Oracle語法和PL/SQL, 實現OLTP資料庫國產化升級


星環科技打造自主可控的高效能資料庫,開啟國產化升級新篇章

Transwarp KunDB是星環科技基於分散式技術自主研發的國產化的交易型資料庫,提供完整的關係型資料庫的能力,高度相容SQL,保證事務ACID。KunDB具有業內領先的事務處理效能,SQL相容性以及最新的分散式查詢優化技術,支援複雜查詢且效能是MySQL的10倍以上,充分滿足高併發、大資料量的交易型業務場景,能夠實現MySQL,Oracle等傳統主流資料庫的國產化替代。獨特的混合部署技術支援主流國產化CPU等自主可控的硬體平臺和OS部署,滿足國產化部署需求。此外,KunDB提供全鏈路高可用、一致性備份恢復等容災能力,以及完備的安全管理、資源管理能力,可以為不同業務場景保駕護航。

KunDB3.0高度相容Oracle物件與語法,基於創新的過程語言編譯技術,完整支援Oracle PL/SQL語法,大大降低企業國產化遷移成本。通過豐富查詢優化規則和運算元進一步增強查詢優化器,並結合全新的向量化執行引擎使得分析效能在TPCH基準測試中較MySQL最高優化80倍。在事務處理能力方面,相較於KunDB2.0採用的全域性事務管理器GTM方案,KunDB3.0採用基於TSO的全新分散式強一致事務處理框架,進一步提升分散式事務處理能力,事務處理上限達300萬TPS,較GTM方案提升5倍以上。同時KunDB3.0也對儲存層效能和分散式架構做了持續優化,單機TPCC提升了1倍,分散式TPCC提升了60%。在容災能力方面,KunDB3.0優化了跨機房容災架構,支援全鏈路高可用、一致性備份恢復等能力,故障時可恢復過去任意時間點,充分保障資料安全。此外,KunDB3.0採用了基於分析引擎增強分散式事務處理引擎技術(ATEP),大幅提高了KunDB的資料分析能力,通過一個系統就可以同時提供高效能AP和TP服務能力,滿足交易與分析混合型業務場景。

高度相容Oracle物件與語法,完整支援Oracle PL/SQL

KunDB3.0 對Oracle語法各個方面高度相容,成為業內領先的具備支撐Oracle業務遷移能力的國產資料庫。KunDB3.0高度相容Oracle語法與PL/SQL,支援VARCHAR2、NVARCHAR2等全部型別,在PL/SQL語法上,支援控制語句、集合、動態SQL、子程式、預定義包、錯誤處理等全部PL/SQL語法,解決了Oracle業務遷移到國產化資料庫的核心痛點,為其它相容性完善提供了基礎。在Oracle資料庫物件、DML、函式、系統檢視、內建包、驅動等方面,做到了常用功能的相容,滿足大部分業務的遷移需求,極大降低了企業業務遷移成本。

KunDB3.0採用創新的過程語言編譯技術及中間優化語言TIR,完整支援Oracle PL/SQL語法,並在4類技術場景實現創新和效能提升。

  • 為了支援多個資料庫方言,傳統直譯器方式導致重複工作量會很大。KunDB3.0通過統一的中間優化語言TIR,表達任意的過程式語義及SQL語義,支援multi pass編譯與LLVM IR組合,低偶合、低成本的擴充套件不同資料庫PL/SQL語法體系
  • 傳統技術將PL/SQL翻譯成函式執行方式,沒有控制流程式碼優化空間。KunDB3.0通過轉譯LLVM,將PL/SQL轉為底層語法,可以與llvm的 multi pass優化結合,增加程式碼優化規則,從而優化儲存過程的執行
  • 傳統翻譯成函式執行的方式,無法進一步實現編譯執行。KunDB3.0引入統一表示式處理引擎技術,SQL與PL/SQL可複用編譯優化,實現方式上比Oracle更加簡潔,同時節省了開發成本
  • 傳統的異常處理無法實現零開銷。KunDB3.0參考LLVM的landing pad技術,實現零開銷的異常處理系統。


全新的查詢優化器和向量化執行引擎,複雜分析效能提升10倍

KunDB從2.0到3.0的迭代中,為了更加友好的支援跨分片的複雜查詢分析,提升AP能力,KunDB基於火山模型重新設計了查詢優化器,面向分散式儲存豐富了查詢優化的規則,包括了分片下推、子查詢去關聯化等十多種查詢優化規則,相應的擴充套件和優化了block hash join、Index Lookup Join等二十多個運算元,TPCH 子查詢效能相比於KunDB2.0均有大幅度提升,最高提升了近20倍。

KunDB3.0使用了全新的向量化執行引擎,在記憶體中使用列儲存的方式對資料進行轉換儲存後再進行計算,相比於記憶體行式資料管理,在記憶體資源佔用、分析函式實現、表示式求值效能、壓縮支援上都更加具有優勢。另一方面,執行引擎基於多協程技術,採用了基於流水線的並行處理框架,支援並行的資料掃描、運算元間資料交換、運算元計算、結果集返回等全鏈路過程,對於資料可分拆執行的場景,效能有大幅提升。同樣的資料規模下以TPCH測試為參考,KunDB分析效能較MysQL有大幅度提升,22個Query最高效能提升可達到MySQL的近80倍。

基於TSO的全新分散式強一致事務處理,叢集事務處理能力提升1倍

在分散式事務處理上,KunDB3.0使用基於全域性時間戳的事務處理框架來代替2.0的全域性事務管理器GTM方案。分散式層引入了TSO伺服器分配時間戳,採用XA協議和時間戳優化2PC保證分散式原子性寫,分散式事務開銷降低50%。基於事務提交時間戳可做到副本全域性一致性讀,實現保證事務的讀寫分離。儲存層可基於當前時間戳和資料時間戳做全域性一致性讀判斷,不依賴全域性快照,效能更高,減輕中心化風險。KunDB3.0叢集的事務處理上限提升了6倍,達到300萬TPS,完全滿足頭部網際網路業務場景的效能需求。

此外,KunDB3.0也對儲存層效能和分散式架構做了持續優化。儲存層採用了面向記憶體的資料儲存與管理、無鎖記憶體索引技術、悲觀與樂觀結合的併發控制技術、並行查詢技術,實現了儲存層效能接近1倍的提升。結合分散式層在通訊鏈路優化為基於MySQL協議的通訊,放棄了高開銷的grpc通訊;後設資料儲存的改造為高吞吐的關係型儲存,以及減少元件、管理元件精簡為一個全域性服務,優化了分散式層的開銷。在4分片的拓撲下,TPCC效能較2.0提升了60%。


跨機房容災架構,任意時間點全域性一致性恢復

在容災方面,KunDB優化了跨機房容災架構,支援全鏈路高可用和全域性一致性恢復。計算引擎完全無狀態,擴充套件便捷,可實現多節點部署;儲存引擎支援主備/Paxos複製,支援故障時主備切換;後設資料服務也都是基於多數派協議支援故障時自動選主,實際部署時避免了單節點部署的風險。通過跨機房的副本資料強同步,保證了機房級故障時,恢復點目標RPO=0。

通過副本可讀技術,最大化利用每個角色提升系統吞吐,並且支援基於業務負載和元件健康狀態的路由變化,提升系統穩定性。

KunDB3.0支援物理備份與實時binlog備份,故障時可恢復過去任意時間點。新增的一致性備份恢復能力,基於時間戳資訊保障資料庫恢復到最新的一致性點,避免了分散式資料庫恢復後需要人為參與事務點對齊的難題。各分片獨立併發備份,每分鐘完成數GB資料備份,在高併發核心系統中,能夠有效降低備份對業務的影響。

保證全域性事務的一體化實時AETP,同時提供高效能交易與分析服務能力

中國信通院2021年資料發展研究報告中指出,企業通常維護不同資料庫來支援聯機事務處理(OLTP)與聯機分析處理(OLAP)任務,管理和維護成本高。基於創新的計算儲存框架的HTAP 資料庫,能夠基於同一套引擎同時支撐業務系統執行和分析決策場景,避免在傳統架構中,線上與離線資料庫之間大量的資料互動,成為未來資料庫發展的趨勢之一。

KunDB3.0採用了基於分析引擎增強分散式事務處理引擎技術(ATEP),大幅提高了KunDB的資料分析能力,通過一個系統就可以同時提供高效能AP和TP服務能力。

對外提供統一的SQL引擎作為統一入口,簡化使用者操作,資料在庫內即可自動同步、轉換,不需要繁瑣的ETL元件和ETL過程,資料無需出庫即可完成計算。同時提供統一資料型別和方言支援,將多種資料庫語言變為一種語言,大大降低開發和遷移成本。

針對不同程度的分析負載,通過全域性優化器自動識別SQL,利用不同的引擎進行處理,TP引擎和AP引擎根據工作負載做自動路由和自動查詢優化,如針對複雜加工邏輯,則使用AP引擎分散式計算能力直接讀取KunDB上的資料進行復雜計算;針對高併發明細檢索,則使用TP引擎提供服務。

使用行列混合儲存方案,列存提供給AP引擎支援高效能分析,同時列存作為TP庫的只讀副本,實時從行存同步事務最新資料庫,延遲低於10s,保證了資料分析的時效性和全域性一致性讀。

對於已經部署了ArgoDB或KunDB的使用者,可以直接升級到AETP資料庫,無需改造業務和資料庫的互動方式,實現快速平滑升級。

通過不斷的打磨和對業務場景不斷的落地實踐,星環科技關係型資料庫ArgoDB和KunDB已經在金融、政務、能源、醫療、交通等多個行業應用,成功替代Oracle、MySQL等傳統業務資料庫。未來,星環科技將繼續深耕資料庫領域,通過不斷的技術創新和應用創新,為使用者提供更完備功能,更高效能、更穩定可靠的國產化資料庫產品。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69994106/viewspace-2893247/,如需轉載,請註明出處,否則將追究法律責任。

相關文章