星環科技如何用資料庫打造第二增長曲線?

伺服器頻道發表於2022-12-21

2022年轉瞬即逝,又到了歲末年初,到了回顧與展望的時候。2022年,對於國內基礎軟體而言,可以說機遇大於挑戰。在信創浪潮之下,資本市場也迎來了開花結果,可以看到星環科技這樣的大資料基礎軟體供應商成功登陸科創板,填補了國內的空白。

根據星環科技招股書,很大一部分募集資金將會用到分散式關係型資料庫建設專案中。分散式資料庫一直以來都被視作國產資料庫換道超車的希望,近幾年中國分散式資料庫在技術和行業實踐方面都取得了突破。在剛剛結束的DTCC2022中國資料庫技術大會上,也可以看到分散式資料庫是被重點關注和討論的資料庫技術發展方向,如今金融、政企、能源等越來越多的行業應用了分散式資料庫。

日前,ITPUB&IT168採訪了星環科技聯合創始人劉汪根,一起聊了聊分散式資料庫發展的現狀和未來。

打造星環科技的第二增長曲線

星環科技作為大資料基礎軟體供應商,其創始團隊來自前英特爾Hadoop核心團隊,可以說成長於分散式技術體系,自帶分散式的技術基因。劉汪根告訴ITPUB&IT168,星環科技相信分散式資料庫將是國產資料庫換道超車的機會,未來會將上市募集來的很大一部分資金投入到分散式資料庫研發中,“公司把資料庫作為第二增長曲線。”

之所以如此篤信分散式資料庫是換道超車的機會,劉汪根給出了兩個關鍵因素,一是從使用者角度來看,隨著數字化的發展,海量的資料作為新的生產要素已經成為企業的新資產,需要更強大的IT基礎能力釋放資料要素價值,未來資料決策將代替人類的經驗決策,海量資料的處理和大規模的併發需求,對資料庫的併發度、效能、隔離性的要求越來越高,而分散式技術能夠帶來高併發度和高效能。二是,分散式技術在過去十年間已經被充分證明是技術發展趨勢,在分散式大趨勢下,包括資料庫、作業系統、中介軟體等傳統的軟體都在向分散式方向發展。

我們曾經寫過星環科技在資料庫層面的佈局,該公司的資料庫產品幾乎囊括資料庫領域的全部類別,關係型資料庫有ArgoDB、KunDB,圖資料庫有StellarDB,以及搜尋引擎Transwarp Scope,文件資料庫DocStore,時序資料庫Timelyre,時空資料庫Spacture,寬表資料庫Hyperbase,鍵值資料庫KeyByte等,覆蓋了十條資料庫賽道,其資料庫都是採用的分散式架構,且在每個領域都取得了不錯的成績。根據星環科技招股書,未來,該公司將繼續專注大資料及相關基礎軟體的研發,圍繞大資料、資料庫、雲端計算、智慧資料分析領域,堅持核心技術自主研發,為企業客戶提供覆蓋資料全生命週期的產品與服務。

在資料庫領域,雖然圖、時序、文件等細分領域不斷髮展,但是目前占主導地位的依然是關係型資料庫。根據IDC《2021年下半年中國關係型資料庫軟體市場跟蹤報告》顯示,2021下半年中國關係型資料庫軟體市場規模為15.8億美元,同比增長34.9%。IDC預測, 到2026年,中國關係型資料庫軟體市場規模將達到95.5億美元,未來5年市場年複合增長率(CAGR)為28.1%。

據悉,在關係型分散式資料庫方面,星環科技主要有三款產品,包括大資料技術體系下的Inceptor關係型分析引擎,以及自研分析型資料庫ArgoDB和交易型分散式資料庫KunDB。

星環科技於2013年成立,隨即釋出了大資料基礎平臺TDH2.0版本,並於次年推出Inceptor關係型分析引擎、Slipstream實時計算引擎,實現資料湖、實時計算兩大熱點功能。2015年隨著企業業務更為複雜多樣,對資料處理提出了更高的要求,星環科技開始自研新一代分析型資料庫,並於2018年推出分析型資料庫產品ArgoDB,2019年8月,ArgoDB成為全球第四個透過TPC-DS基準測試並經過TPC官方審計的資料庫產品,ArgoDB程式碼自主率(行數)超過了90%。據悉,在Clickhouse比較擅長的快速查詢和高併發檢索方面,以及GP所擅長的平行計算等方面,ArgoDB比Clickhouse和GP都有更好的效能表現。

劉汪根介紹,在分析型場景,Inceptor和ArgoDB各有側重,一般情況下,Inceptor主要用於構建資料湖,資料湖主要儲存海量的結構化、半結構化和非結構化資料,對資料容量和儲存有較高要求,企業可以疊加使用星環自研的分散式檔案系統TDFS,滿足資料湖的可擴充套件性、儲存的彈性以及成本需要。而ArgoDB自研儲存引擎、SQL引擎等可以滿足業務的低延時和高併發需求,能夠支援複雜業務處理,可以用來構建離線資料倉儲、實時資料倉儲、資料集市等資料分析系統。在星環科技服務的客戶中,尤其是大型集團企業其半結構化、非結構化資料較多,一般會先採用Inceptor構建資料湖,再用ArgoDB去構建數倉或資料集市。據悉,先建湖再建倉的方案有更好的普適性,兼顧了成本和效能。如果企業對資料庫的效能和業務實時性有較高的需求,也可以直接基於ArgoDB建設資料分析系統。目前,ArgoDB在金融、政企等關乎國計民生的關鍵行業都有廣泛的落地應用。

在交易型分散式資料庫方面,星環科技基於MySQL自研了KunDB,並於2019年釋出了KunDB 1.0,KunDB主要用於支援操作型業務場景(如ERP、OA、HIS等)和高併發場景(如消費者的手機APP應用、健康碼查詢等)的核心資料系統的構建。由於資料庫生態對交易資料庫的推廣非常重要,星環科技非常注重使用者應用能夠遷移到星環科技資料庫上的能力。KunDB選擇了首先相容MySQL協議,之後再增加對Oracle生態的支援,目前已經是國內少有的對Oracle PL/SQL有系統性支援的資料庫,能夠極大的方便使用者將應用從海外資料庫遷移到KunDB上。在儲存層,KunDB採用share-nothing分散式架構,自研了面向記憶體的資料庫儲存引擎TMemStore,創新地採用適合記憶體的資料管理模型和新型索引結構MassTree,配合MVTO併發控制策略等機制保證事務ACID,為高併發同時要求強一致的關鍵業務場景提供高速資料操作和事務效能。根據最新披露的來自中國信通院的測試報告,KunDB的單節點TPCC效能為188萬tpmC,達到業內一流水平,達到MySQL的4倍以上。此外,KunDB自研的計算引擎和SQL編譯器等可以實現高度相容MySQL、Oracle PL/SQL,能夠同時支援MySQL生態和Oracle生態,支援集中式部署和分散式部署,大幅降低國產化遷移和替代成本,並且與國內主流軟硬體信創廠商完成了相容適配互認證,滿足信創驗收要求。目前,KunDB已經在政務、醫療等領域落地應用,預計明年將重點向金融行業推廣。

值得一提的是,隨著HTAP混合負載的業務場景越來越多,如今HTAP逐漸成為資料庫產品的標配。星環科技採用KunDB + ArgoDB 的異構聯合應用方案支撐HTAP負載,憑藉其統一的 SQL 引擎架構優勢,在資料庫層做了深入融合。在資料層面,KunDB 與 ArgoDB 之間基於資料庫日誌實時資料同步,操作型業務在 KunDB 中產生的新資料將實時同步到 ArgoDB 中,保證兩個資料庫中的資料實時一致,當新的業務 SQL 提交到 Transwarp Quark(SQL 編譯器)後,Quark 內建的最佳化器可以根據業務特點選擇合適的資料庫來執行該業務SQL。

未來分散式資料庫發展的兩個關鍵

分散式資料庫的發展正如火如荼,劉汪根認為,分散式資料庫的發展經歷了兩個階段,第一階段,分散式資料庫解決泛網際網路行業的需求,泛網際網路行業的特點是併發量大,業務規模大,但是業務邏輯相對簡單,所以第一階段,分散式資料庫解決B2C帶來的高併發和擴充套件性問題,比如Google Spanner這一NewSQL資料庫解決了高併發的C端查詢和修改問題。第二個階段是解決企業應用領域的問題,不同於泛網際網路行業,企業應用領域涉及大量的存量業務應用,其業務可能由幾代開發者不斷迭代積累而成,本身業務設計更為複雜,需要進行資料庫的替換,當下國內分散式資料庫已經走到了第二個發展階段。

劉汪根強調,目前國內分散式資料庫一方面帶來了分散式架構的安全性、擴充套件性、靈活性等優勢,分散式資料庫核心層面的高併發能力和事務能力已經被驗證,但是分散式資料庫也帶來了分散式架構的複雜度。未來分散式資料庫能否大規模落地取決於兩個核心關鍵因素,一是面向廣大的開發者,分散式資料庫能不能支撐企業這些年積累下來的存量業務應用。二是面向運維者,分散式資料庫的運維體驗是否能和原來的單機集中式資料庫相似,或者沒有很大的變化。“透過在開發介面層、運維層這兩層的持續性創新,以及成熟度的積累,能夠逐步滿足企業大規模的存量業務考驗,分散式資料庫替代集中式資料庫的趨勢也就基本成立。現在大家還處在摸索的階段,可能還要三年左右才能夠逐步完成這樣一個證明工作。”

如今資料技術紛繁複雜,劉汪根認為,資料庫是承載資料技術的產品形態。產品形態的核心是有可複製性,可複製性的核心分為兩個方面,一是上面有生態,二是上面有應用。對資料庫而言,原來的應用都是圍繞資料庫打造,所以資料庫上面天生有豐富的生態,容易落地。

對於分散式資料庫而言,其生態和成熟度還需要進一步強化,需要更多真實場景打磨。劉汪根指出,分散式資料庫的替代市場非常重要,雖然未來增量市場的規模會更大,但是存量的替代市場是證明資料庫的成熟度和產品能力的市場,透過替代市場的成功,才能打磨好產品,積累品牌口碑。如此,才能更好地擴充增量市場。

展望2023年,星環科技的態度是“謹慎的樂觀。”信創浪潮為國產資料庫提供了時代機遇,海量資料爆發和降本增效的需求為分散式資料的發展帶來了大量的需求場景,資料庫作為發揮資料要素價值的IT基礎設施,在數字經濟時代變得更為重要,未來每個廠商每個團隊都需要戰戰兢兢如履薄冰地去探索。劉汪根強調,金融等企業領域會比較關注Oracle的相容性,這也是星環科技的重點研發方向,此外,分散式資料庫的效能、易用性、穩定性和安全性都需要不斷最佳化,創新無止境,星環科技將不斷努力打造自己的第二增長曲線。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31545803/viewspace-2928874/,如需轉載,請註明出處,否則將追究法律責任。

相關文章