成為國產大資料基礎軟體第一股的星環科技,未來發展空間幾何? | 愛分析調研

ifenxi發表於2022-10-24

成為國產大資料基礎軟體第一股的星環科技,未來發展空間幾何? | 愛分析調研

10月18日,星環科技正式登陸科創板,成為國產大資料基礎軟體第一股。這一事件不僅代表了星環科技這家公司取得的階段性成就,也標誌著在當前數字化轉型以及信建立設持續推進的背景下,國產大資料基礎軟體已駛入了發展的快車道。

關於星環科技,想必大資料業內的從業者都不陌生。其成立於2013年,核心團隊曾在英特爾負責大資料技術的研發,公司最初基於開源的Hadoop技術提供大資料平臺產品。但自2014年起,為突破大資料技術瓶頸和完善企業級產品功能,星環科技逐漸透過自主研發的大資料技術取代了開源技術,現已形成了包括一站式大資料基礎平臺TDH、分散式分析型資料庫ArgoDB及交易型資料庫KunDB、基於容器的智慧資料雲平臺TDC、大資料開發工具TDS、智慧分析工具Sophon等在內的多個大資料軟體產品系列。

星環科技為何能在國內大資料基礎軟體市場中脫穎而出?大資料基礎軟體技術和行業發展有哪些重要趨勢?國內市場廠商的關鍵競爭要素有哪些?星環科技和國內大資料基礎軟體市場未來前景如何?愛分析將透過本文對這些問題進行詳細探討。
 
01

大資料基礎軟體是數字化的關鍵基礎設施,市場空間廣闊


大資料基礎軟體,是指能夠對多種來源、多種型別的源資料進行採集、儲存、治理、建模、分析、挖掘,支撐上層資料應用的各類軟體工具的統稱,通常包括了資料庫、大資料平臺元件、資料開發與管理工具,資料科學與機器學習平臺等。


表1:大資料基礎軟體主要構成

成為國產大資料基礎軟體第一股的星環科技,未來發展空間幾何? | 愛分析調研

在數字化時代,大資料基礎軟體是數字化的關鍵基礎設施。首先,數字化的核心要義是要讓企業的業務由經驗依賴轉向由資料驅動,因此需要大資料基礎軟體來打通企業全鏈路的資料,並對資料進行加工處理,挖掘資料價值,從而支撐企業的數字化轉型;其次,隨著企業需要處理的資料規模急劇膨脹,資料型別更加豐富,以及資料應用場景越來越廣泛,大資料基礎軟體也需要緊跟市場發展趨勢,推出效能更高、功能更豐富、更易用的產品,滿足使用者更廣泛的需求的同時,也在數字化轉型中發揮更加重要的作用。


大資料基礎軟體的重要價值加上廣泛的需求,使其成為一個空間巨大且具備高成長潛力的市場。根據研究機構沙利文的資料,中國大資料軟體市場規模在最近五年保持高速增長,整體市場規模將從2019年的146億元,增長到2024年的492億元,複合增長率27.5%。


圖1:中國大資料市場規模(2019-2024E,億元) 

成為國產大資料基礎軟體第一股的星環科技,未來發展空間幾何? | 愛分析調研

02

市場參與者眾多,三大關鍵競爭要素決定未來市場格局


中國大資料基礎軟體市場的巨大空間,也吸引了國內外諸多廠商參與。


在國外廠商方面,以Oracle、IBM 和Teradata 等為代表的關係型資料庫廠商,和以Cloudera、MongoDB、Elastic 等為代表的大資料平臺或分散式資料庫廠商,憑藉其較領先的產品技術,以及早年進入中國市場的先發優勢,在中國市場已經獲得了一定的市場佔有率。


在國內廠商方面,重要的參與者除了以星環科技為代表的專業大資料軟體廠商以外,還包括以華為雲、阿里云為代表的公有云廠商,以及以新華三為代表的ICT廠商。


在這個參與者眾多、競爭激烈的大資料基礎軟體市場,以下三方面的競爭要素決定了各家廠商的競爭力和未來市場格局。


1、技術架構與場景適用能力


由於大資料的應用場景非常廣泛,並且還在不斷變得更加複雜多樣,這就要求大資料基礎軟體採用更先進的技術架構來滿足不同場景對於功能、效能、使用方式的不同需求。我們觀察到,資料庫和大資料平臺的技術架構有以下三點關鍵的演進趨勢:


1)從單模型到多模型資料統一處理


隨著各行業企業的結構化、半結構化和非結構化資料處理需求的快速增長,對不同模型資料的處理變成了企業的常態化需求。在以往的大資料解決方案中,企業會根據不同的應用場景和資料型別,分別部署不同型別的資料庫。


例如,大型銀行通常會部署十多種型別的資料庫系統,用Hive做大規模批處理,用Neo4j做圖分析,用MongoDB做文件處理,用Elastic做搜尋分析等,但這也會給企業在資料應用中帶來新的問題。首先,在做跨庫的聯合分析時,使用者需要跨多個系統,使用多種查詢語言,並做多次資料連線才能得到結果,整個操作流程非常複雜,對使用者的技能要求非常高,並且也難以保證資料的一致性和實效性;其次,多套系統同時部署的混合架構,要求企業針對每個系統單獨建設相應的開發和運維體系,適配不同的產品介面,學習成本和管理成本非常高。


針對這些挑戰,國內外一些領先廠商近年來開始探索多模資料統一處理技術,透過統一的SQL語言實現不同資料模型的查詢和操作,從而實現跨模型的聯合分析。


2)從集中式到分散式


隨著移動網際網路、物聯網、5G 等資訊通訊技術的不斷髮展,企業需要處理的資料量更大、型別更豐富、速度要求更快,傳統集中式架構的大資料軟體在擴充套件性、容錯性方面已無法適應這樣的變化。在擴充套件性方面,以銀行支付系統或城市的核酸檢測系統為例,在應對高峰期比平時多幾個數量級的資料處理需求時,採用傳統的集中式關係型資料庫會出現資料計算緩慢,甚至導致系統崩潰的情形。在容錯性方面,隨著資料成為企業越來越重要的資產,資料必須要滿足高可用,這就要求企業透過使用分散式資料庫實現資料的多幅本。


上述挑戰導致了大資料軟體從集中式架構到分散式架構的演進,即將資料分散在網路上多個透過高速網路互聯的節點上進行聯合計算。


3)從傳統獨立部署到雲原生


隨著企業資料應用需求的逐步增加,以及資料應用敏捷性要求不斷提升,傳統獨立部署的大資料平臺在使用和運維中諸多問題也不斷顯現,包括:


  • 傳統大資料平臺儲存和計算是耦合的,無法根據資料應用的需求,對儲存和計算資源進行分別擴充套件,增加了使用成本;
  • 傳統大資料平臺無法根據應用的需求給租戶獨立分配資源,同時共享資料儲存,也無法給租戶單獨的應用負載以及許可權體系來滿足租戶的自我管理;
  • 傳統大資料平臺在應對大量臨時性、輕量級的資料應用時,無法做到快速上線和靈活的定製化,並對大量的資料應用進行統一排程管理。


基於容器化的雲原生大資料平臺由於具備存算分離、敏捷彈性、安全隔離等優勢,成為了近年來資料庫和大資料平臺的一個重要技術方向。


2、國產化自研能力


由於大資料技術首先在美國等國家產生和發展,目前較成熟的主流大資料技術都被國外公司所掌握,並且這些公司對外提供相應的開源版本產品,導致國內大部分大資料基礎軟體廠商目前都是基於國外開源技術做商業版產品並提供相關服務,但這種模式存在的三點問題會讓國內廠商的國產化自研能力變得越來越重要。


首先,基於開源技術做發行版產品的技術總是落後一代,加上先進技術不會立即應用於產品,實際的產品整體上會落後更多。因此,只有透過自主研發建立自身的技術壁壘,打造自身產品的技術優勢,才能夠在激烈的市場中形成強有力的競爭力。同時,基於自研技術打造的產品,可以提供更加專業的原廠服務,為客戶帶來更加高效的技術支援。


其次,國外一些領先的大資料公司的實踐表明,在大資料基礎軟體領域,基於開源技術做發行版產品的商業模式更難獲得較高的財務收益。因為當開源專案足夠成熟好用時,很難向使用者收費,而當提供功能被簡化的免費版產品,並靠服務收費時,廠商又難以獲得較高利潤。知名大資料公司Cloudera前幾年發展一直處於頹勢也正是因為這個原因。同時,我們也看到越來越多的大資料產品開始向閉源的方向發展,如原先開源的MongoDB、Elastic近年來都推出了開源許可證,要求第三方在售賣其軟體時需要獲得其授權,並向其付費,Cloudera和Databricks目前也在開始推行這一模式。這進一步降低了廠商使用開源技術這一模式的利潤水平。


此外,在近年來美國持續升級對中國的技術出口管制措施的背景下,國內陸續出 臺了一系列政策,來推動國內的信創產業建設,尤其提到要重點培育一批包括資料庫等基礎軟體在內的重點企業。這一因素也導致了大批政府機構以及國有企業今後在採購基礎軟體時必須自主可控,從而倒逼國內基礎軟體廠商加強自研能力,走出一條獨立自主的道路。


3、商業化落地能力


商業化落地能力也是評估廠商競爭優勢的一項關鍵因素,因為良好的商業化能力能保障廠商持續獲得客戶與收益,不斷最佳化和迭代產品,獲得更好發展空間。而廠商商業化能力主要體現在以下兩個方面:


第一,廠商在特定行業的落地案例,尤其是行業標杆案例的落地情況。廠商行業落地案例數量多,且獲得很多行業標杆案例,不僅反映了其產品技術得到了該行業客戶的認可,也代表了其產品能力在大量應用場景中得到廣泛驗證。


第二,基於行業理解提供針對性的行業解決方案。不同行業企業由於其所需處理資料量、資料型別、分析場景存在差異,其對大資料軟體產品的功能、效能、成本等方面的要求也各有不同,加上國內企業對於很多應用場景的複雜需求。使得廠商需要針對特定行業積累更豐富的經驗,理解行業特點和企業需求,從而提升其在該行業中的市場份額。 


03

星環科技:領先的一站式多模型雲原生大資料平臺提供商


基於以上大資料基礎軟體市場的關鍵競爭要素,我們認為星環科技在自主原創、技術先進性、以及商業化落地能力方面均具備顯著優勢。


1、自主原創:真正的國產大資料平臺


星環科技的核心產品大資料基礎平臺TDH,以及分散式分析型資料庫ArgoDB及交易型資料庫KunDB等均已實現了真正的自主研發。以大資料基礎平臺TDH為例,其從底層的資源排程系統,到中間的分散式資料管理系統,分散式計算引擎,多種模型的資料儲存引擎,以及上層的編譯器均為自研,根據根據工信部電子第五研究所程式碼掃描測試報告,大資料平臺TDH 的1200萬行程式碼裡自研程式碼率超過70%,ArgoDB程式碼自主率超過90%。


2、技術架構先進:多模型、分散式、雲原生技術均有佈局


星環科技重構了大資料與分散式資料庫軟體棧,公司目前已經積累了31 項核心技術,主要體現在分散式技術、SQL編譯技術、資料庫技術、多模型資料統一處理技術、基於容器的資料雲技術以及大資料開發與智慧分析技術六個方面。以下我們對其多模型資料統一處理、分散式,以及雲原生技術進行重點分析。


1)多模型資料統一處理技術


目前常見的多模型資料庫或大資料平臺主要有四種實現路徑。第一種是為每一種新資料模型開發獨立完整的存算策略,其缺點是存算耦合,支援的模型越多,系統的開發量和複雜度就越高,消耗存算資源也較多;第二種是用單一儲存引擎支撐多個儲存模型,缺點是由於不同計算資料模型對於儲存的要求不同,單一儲存引擎無法隨之匹配適合的儲存策略,從而限制了多模型資料庫的效能;第三種是在多種獨立資料庫之上提供統一的使用者介面,對底層多個資料庫進行轉發,缺點是由於底層多個資料庫開發語言不一致,導致了實際開發時的高難度,排除故障的成本也較高。


圖2:四種多模資料庫/大資料平臺實現路徑 

成為國產大資料基礎軟體第一股的星環科技,未來發展空間幾何? | 愛分析調研

為了解決現有解決方案中存在的種種問題,星環科技於2020年在大資料基礎平臺TDH上採用了創新性的大資料技術架構,包括統一的SQL 介面、統一的計算引擎、異構的資料儲存模型、統一的資料管理系統和統一的資源管理系統。其中較關鍵的統一資料管理系統,實現了統一的資料分片、複製、存取和事務管理,使得平臺能夠支援更快捷地開發不同模型的儲存引擎,具備較好的模型擴充套件性。相比業界同行的單個資料庫或資料平臺,大資料平臺TDH支援的資料模型數量更多,目前一個平臺已能夠支援多達10種資料模型。


表2: 星環科技大資料基礎平臺TDH支援的模型列表以及主流同類產品舉例
成為國產大資料基礎軟體第一股的星環科技,未來發展空間幾何? | 愛分析調研

2)分散式技術


目前,分散式資料庫或大資料平臺的實現,主要有兩個技術難點需要廠商去解決最佳化。首先,分散式架構中資料很難保持強一致性,因為分散式叢集的規模越大,系統就越容易出現故障並導致副本的資料不一致的情況,這不僅制約了叢集的擴充套件性,也影響了資料應用的實現。其次,如上文所述,隨著大資料平臺往多模的方向發展,單個的分散式資料庫都是針對特定資料模型設計分散式管理技術,為了統一處理不同模型的資料,廠商還需要為大資料平臺開發統一的分散式儲存系統,以及統一的分散式計算引擎。


星環科技也針對分散式軟體架構設計了全新的大資料技術棧,實現了統一的分散式計算技術、分散式一致性技術、分散式儲存管理技術和分散式事務技術,使用統一融合的資料平臺架構取代了業界的混合架構。同時,星環科技產品從2015 年開始支援分散式事務技術,提供了強一致性和完整性的保障,打破了當時業界普遍認為大規模分散式系統只能實現最終一致性的認知,擴大了大資料技術在關鍵核心系統中的應用範圍。領先的技術也讓其產品在從 GB 到 PB 不同量級的資料處理上都具備很好的計算效能,其中,大資料基礎平臺TDH 是全球首個透過TPC-DS基準測試並經官方審計的產品,表明其基於分散式架構構建的基礎軟體在海量資料的計算和分析上達到業界先進水平。


3)雲原生技術


相較於國內外大部分同類廠商在2020年左右才開始採用雲原生技術,星環科技早在2015年開始做容器化研發,並於2017年5月即將大資料技術與容器雲技術有效結合,在大資料基礎平臺TDH中應用基於容器雲的資源管理技術,並推出基於容器的資源排程產品TCOS和資料雲平臺TDC。


透過對雲原生技術的採用,星環的大資料平臺產品能為使用者提供統一資源管理技術、多租戶隔離技術和統一的工作負載管理技術。統一的資源管理技術使得產品支援多種架構的晶片和作業系統,也支援國產CPU 與X86 架構的混合部署模式,讓客戶能逐步實現國產化的替代;多租戶隔離技術可以保障同時執行的服務之間能夠實現資源隔離,互不影響;統一的工作負載管理技術不僅可以管理包括資料庫、大資料平臺、機器學習平臺等分散式軟體,也可以管理業務應用。


3、商業化落地能力:在眾多國民經濟支柱行業廣泛滲透


截至目前,星環科技已累計有超過1,000 家終端使用者,分佈在金融、政府、能源、交通、製造等眾多國民經濟支柱領域,具備廣泛的客戶基礎,並在多個行業樹立了標杆客戶:金融行業包括中國銀行、浦發銀行、浙江農村商業聯合銀行等,政府領域包括上海市大資料中心等,能源行業包括中國石油、南方電網等,交通行業包括中國郵政集團、東方航空等,製造業包括湖南中煙等。 

04

未來展望


大資料基礎軟體市場市場空間廣闊,參與廠商眾多,但與國外市場相比,我們認為國內該市場依然還處於發展相對早期的階段,未來市場格局將會發生較大變化。


首先,大資料基礎軟體完全開源免費的時代將逐漸成為過去時,國內廠商在使用很多國外開源技術時將需要取得開源許可證併為其付費,屆時,具備自主技術的國內廠商不僅可以憑藉技術和成本優勢獲得更多的客戶,也可以成為公有云、ICT等廠商的合作付費物件。同時,國內信創政策提出的自主可控的要求下,將進一步使得具備自主技術的國內廠商獲得更多的市場份額。

其次,國內大資料軟體的使用者基礎尚未真正成熟。美國等國家的資訊化和數字化相比中國領先數十年,早已培育了一大批成熟的大資料軟體的終端使用者,根據巴克萊銀行的估算,全球目前已經有2750萬的資料分析師,根據全球最大的資料科學家社群Kaggle的資料,全球目前已經有超過300萬的資料科學家群體。而中國市場無論是發展階段,還是使用者基礎,相比國外市場還有很大差距。


正是因為有著領先的技術、成熟的商業模式,以及廣泛的使用者基礎,才使得國外市場出現了像Snowflake、Databricks這樣的市值或估值達到數百億美金的大資料軟體公司。


相信隨著國內市場環境的成熟,已經具備領先自主技術和市場先發優勢的星環科技可以在這個過程中不斷提升競爭力,獲得更高的市場份額和利潤水平,逐漸進入真正的成熟收穫期。 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69993021/viewspace-2919956/,如需轉載,請註明出處,否則將追究法律責任。

相關文章