DNSPod十問簡麗榮:國產資料庫的月亮與六便士

HashData發表於2023-02-27

在資訊科技發展日新月異的今天,國產資料庫也迎來了“黃金年代”。近日,HashData CEO簡麗榮接受騰訊雲企業中心《DNSPod十問》欄目專訪,分享了雲端計算時代國產資料庫的發展趨勢和技術創新。

本期嘉賓

簡麗榮 酷克資料聯合創始人兼CEO

簡麗榮,北京酷克資料科技有限公司聯合創始人兼CEO。2008年畢業於清華大學計算機系本科,2010年獲得香港科技大學碩士學位,畢業後曾先後在IBM中國研究院、雅虎北京研發中心和Pivotal中國研發中心從事分散式計算相關研發工作。簡麗榮是開源資料倉儲Greenplum Database的contributor和Apache HAWQ的創始committer,在雲端計算及資料庫領域長期保持著敏銳的洞察力和判斷力。

主持人

田超 騰訊雲企業中心總經理

田超,騰訊雲企業中心總經理、音影片應用平臺總經理,負責騰訊雲使用者增長、DNSPod業務以及企業應用相關產品。同時也是資深使用者增長專家,大資料技術專家,曾任應用寶增長平臺總經理,摩拜單車技術副總裁。長期致力於對企業數字化相關研究。

1

田超:你在創辦酷克資料(HashData)之前,曾在Pivotal從事最核心產品MPP資料庫Greenplum的開發工作,後續Pivotal開源了用於部署Greenplum的Hadoop分散式計算框架。這段工作經歷對你的創業有什麼幫助嗎?

簡麗榮:2010年從港科大畢業之後,我在IBM中國研究院從事雲端計算方面的研發工作。我們當時做了一個原型系統,就是把Hadoop變成PaaS服務,非常像後來AWS推出的EMR和騰訊雲推出的彈性MapReduce。

Hadoop是一款由Apache基金會所開發的支援資料密集型分散式應用程式的開源軟體框架,核心模組分為儲存和計算模組,前者被稱為Hadoop分散式檔案系統(HDFS),後者即MapReduce計算模型,主要解決海量資料儲存與計算的問題,是大資料技術中的基石。幾乎所有主流廠商都圍繞Hadoop開發工具、開源軟體、商業化工具和技術服務。

後來我又加入雅虎北京研發中心和Pivotal中國研發中心,從事Hadoop資料平臺和MPP資料庫的研發工作。在此期間,我先後發表了多篇國際會議期刊論文(包括SIGMOD和INFOCOM)和10多個國際專利,涉及無線網路、雲端計算、Hadoop和分散式資料庫這些話題。

我過往的主要工作經歷集中在雲端計算、Hadoop和MPP資料庫三個領域,這都為後來創業打下了很好的技術基礎。

酷克資料的核心產品HashData雲數倉正是將MPP資料庫超高的效能和完善的SQL能力、Hadoop為代表的大資料存算分離的哲學,以及雲端計算的彈性和擴充套件性結合起來,從而去大幅降低企業進行資料分析的門檻。

HashData自創立即具有云原生的基因,為使用者提供雲上一站式的資料分析平臺服務。

2

田超:資料庫是典型的投入高、週期長、難度大的基礎軟體,如果要從零開始自研,就需要做好前幾年零收入的準備。既然資料庫是一條不好走的路,那麼你當初創業的契機是什麼?

簡麗榮:HashData創始團隊的三位成員都是對資料庫和分散式計算有著濃厚興趣的年輕工程師。在創業之初,我們當時沒有考慮太多公司運營的問題,更多的是相信自己對未來技術的判斷。

我們認為,雲端計算會成為未來主流的IT設施,所有的基礎軟體包括大資料平臺、資料庫、資料倉儲都需要圍繞雲架構重新構建,進行雲原生改造。

只要順應這個行業趨勢,打造出足夠優秀的產品,那麼商業化的問題就會迎刃而解,公司這幾年的發展也驗證了我們當初的想法。

HashData數倉雲原生能力圈

3

田超:HashData現在主要佈局雲端資料倉儲,不過相信很多讀者都對這個概念理解不深,並且很多人認為,只要一款資料倉儲產品本身是分散式的,能部署在雲端執行,就是雲端資料倉儲。你能借這個機會給大家講解一下什麼才是真正的雲端資料倉儲嗎?雲原生資料庫與傳統資料庫對比有什麼主要差異?

簡麗榮:雲平臺提供了很多特性,包括面向服務的使用者體驗、幾乎無限的計算和儲存能力、彈性伸縮以及高價效比的儲存資源。

我們評估一款產品是否屬於真正的雲原生資料倉儲,不是簡單看它是否是分散式,而是看它是否能夠充分發揮雲平臺的這些優勢特性。

我給大家舉兩個簡單的例子,來解釋雲原生資料倉儲和傳統MPP資料庫的差異。

第一,即使現在,基於物件儲存,例如騰訊雲COS等產品,去構建完整支援ACID(原子性、一致性、隔離性與永續性)能力的資料倉儲產品仍並不多,大部分都只提供了能夠訪問物件儲存上面的資料或把資料解除安裝到物件儲存的能力,核心使用者資料的ACID能力還是要靠塊儲存來保證。這類產品即使放到雲上面部署,也沒辦法充分利用雲平臺高效能的儲存資源,導致價效比差很多。

第二,很多雲平臺透過容器化技術,已經能在一分鐘內建立多個新的計算節點。但傳統MPP資料庫的計算和儲存是緊耦合的,擴容時涉及到資料的重分佈,而資料倉儲裡的資料量一般比較多,完成一個資料重分佈要花幾個小時。即使在短時間內快速建立了100個新的計算節點,也需要在幾個小時之後才能夠參與到原來的叢集裡進行查詢分析。這種情況下雖然它具備擴容能力,但擴容的時間週期非常長,沒辦法把雲平臺快速擴容、彈性伸縮的優勢發揮出來。

HashData的雲原生實踐

4

田超:資料庫誕生於20世紀60年代中期的美國,縱觀國產資料庫發展歷程,與國外資料庫的誕生時間和成為國際主流資料庫的歷程相比,都處於相對落後的狀態,你認為是哪些因素拖了後腿?國產資料庫和國外主流資料庫的差距主要在哪裡?

簡麗榮:我認為這裡的差距不僅體現在資料庫上面,整個基礎軟硬體體系,包括晶片、作業系統、語言編譯器等等,其實都處於相對落後的狀態。

個人認為,這種現象更多是歷史原因造成的。在過去很長一段時間內,整個社會的資源都放到應用創新上面,比如移動支付等,以此滿足國民經濟快速增長的需求。這是可以理解的,但也致使我們在基礎軟體的投入不足,從而導致不管是人才培養、基礎軟體的商業模式成熟度,還是有競爭力的基礎軟體、企業數量,都跟海外有一定差距。

目前,國產資料庫與國外主流資料的差距,主要還是體現在產品的穩定性、易用性、功能的完善程度和效能的可預測性。此外,海外產品已經形成比較成熟的生態,這是需要國產資料庫花相當長一段時間才能慢慢構建起來的。

最近幾年,從國家政策層面和企業研發層面,都越來越重視基礎軟體的研發,投入也在不斷增大,相信我們與國外廠商的差距會逐步地縮小。

5

田超:很多行業使用者使用的傳統外企資料庫產品,包括IBM、Oracle、Teradata,並非誕生在雲時代,儘管他們的產品功能和效能都已經較為完善,但設計理念並沒有考慮太多雲端計算本身的特點。而現在新興的國產資料庫產品自創生起就圍繞雲端計算去構建,在擴充套件性、易用性、彈性乃至成本等方面都更有優勢。如果國產資料庫要追趕世界級資料庫,你認為雲端計算會是國產資料庫“彎道超車”的機會嗎?

簡麗榮:我更願意把雲端計算看成國產資料庫“換道超車”的機遇,大家換了一個賽道重新比賽。

當前是國產資料庫技術發展最好的時代,一方面雲端計算提供了一條全新的賽道,意味著整個市場格局會迎來重新洗牌的歷史機遇;另一方面一些大公司和開源的氛圍等也培養了大量的開發人才。

值得注意的是,中國龐大的人口基數、高速增長的GDP、海量的資料規模,都對資料庫的發展產生了很大的幫助,而且很多應用場景是海外產品從來沒碰到過的。比如微信龐大的線上使用者、阿里巴巴的雙11、春運期間的12306網站,這些系統後臺的資料庫壓力是海外主流資料庫無法想象的,同時也會加速國產資料庫的創新步伐,從而有機會超越海外的主流資料庫。

6

田超:HashData的分散式系統架構與美國代表性數倉公司Snowflake一樣,都創新性地實現了後設資料管理、計算和儲存的三者分離,為企業客戶提供更優效能、更低成本的資料分析服務。你們在實現的過程中遇到的最大難點是什麼?你認為HashData距離成為中國版的Snowflake還有多遠?

簡麗榮:我們在實踐過程中主要有兩個難點。

第一個難點是工程化的實現。後設資料管理、計算、儲存本來是緊耦合的,把三者分開之後會帶來很多效能的損耗,為此我們做了大量的工程手段,例如開發了一個非常高效的快取系統,即使計算和儲存分離,有時候會遠端訪問物件儲存,比如說像騰訊雲的COS,但資料庫核心感覺它就像訪問本地儲存一樣快。

第二個難點就是使用者體驗,這個的難度會比前面的工程實現要更大,因為涉及到整個思維方式的改變。我們要去思考SOA(面向服務的架構)的理念,重新把一個資料庫變成SaaS服務,讓使用者以資料為中心,而不是以資料庫為中心。這對於有網際網路從業背景的人來說很容易理解,但對我們這些做資料庫出身的人來說,轉變觀念是比較難的。

HashData產品架構:底層使用物件儲存,在業內率先實現了“存算分離”

與Snowflake對比的話,得益於中國龐大的人口基數,HashData管理著全球規模最大的資料倉儲叢集,包括千萬級的資料庫物件、超過100PB的資料量、支撐著數千個應用併發訪問、每天處理1億條複雜的結構查詢,Snowflake最大的客戶可能連我們的三分之一都不到。所以從核心的資料分析能力和擴充套件性方面來看,我們與Snowflake的差距已經不大,有些地方可能還超越它。

我們最大的差距一方面體現在使用者體驗和應用性方面,另一方面Snowflake只有一種商業模式——以SaaS的方式提供服務,因此在資料安全方面做得非常好,接下來我們也會花更多精力對這兩方面進行最佳化。

7

田超:HashData目前的企業客戶主要集中在金融行業,為包括監管部門、國有大型銀行、政策性銀行和股份制商業銀行在內的十餘家客戶提供服務,從信用卡、電子銀行到反洗錢、風控、對公信貸、監管報送等,支撐著數百個大資料分析應用。為什麼金融行業會對資料庫有如此大的需求?都說金融場景是“最難啃的骨頭”,那麼你們的資料庫是如何攻下金融行業這塊高地的?

簡麗榮:金融行業本質上做的就是資料的生意,每一筆業務、每一個決策背後都需要資料的支撐。比如說你刷了一筆信用卡消費,如何判斷是不是你本人刷的?是不是洗錢的一部分?明天去到銀行辦理貸款,能不能貸?能貸多少?因此HashData在進入商業化的時候,首先選擇金融行業。

HashData為國內十餘家金融客戶提供了穩定、高效的資料處理分析服務

我們的產品相對於傳統的MPP資料庫而言,實際上是在做下一代的雲原生產品,而金融行業的IT設施比較成熟,可以說走在其他行業的前頭,也更願意去創新,這樣的背景非常適合我們這種創新型的公司。

首先,HashData的產品能解決客戶的痛點,比如我們幫助多家國有大行解決高併發問題、擴充套件性問題、資料問題等,給使用者帶來實實在在的價值。

其次,HashData的核心團隊在創業之前服務過很多世界500強的客戶,包括通用電器、聯想、海爾等,我們成熟的技術知識團隊和服務體系可以很好地去服務金融行業客戶。

最後,我們有一個比較強大的產品研發團隊,能夠快速迭代,緊跟整個業界最新的發展趨勢,能夠滿足客戶對產品越來越高的要求。

8

田超:國產資料庫行業有“四朵金花”,分別是達夢資料、人大金倉、南大通用以及神舟通用,坐擁國內資料庫市場的大部分江山,其中達夢資料已經衝刺科創版IPO,估值500億。另一方面,雲廠商的自研資料庫崛起,例如騰訊雲TDSQL、阿里Oceanbase、華為opneGauss等,難免與獨立資料廠商一起搶蛋糕。HashData在與這些國內對手競爭時會有壓力嗎?你們的“護城河”在哪裡?

簡麗榮:這裡大家比較熟悉的友商產品主要集中在資料庫OLTP(聯機事物處理)領域,而我們更擅長的是資料倉儲OLAP(聯機分析處理),所以和他們在市場上碰到的機會不太多。

OLTP是傳統的關係型資料庫的主要應用,主要是基本的、日常的事務處理,例如銀行交易。OLAP是資料倉儲系統的主要應用,支援複雜的分析操作,側重決策支援,並且提供直觀易懂的查詢結果。

HashData的護城河主要體現在兩方面。

一方面,我們是國內最早實現像Snowflake那樣後設資料管理、計算和儲存三者分離的廠商之一,產品在業界也是最成熟的,甚至可以說是目前國內唯一能夠將這種架構的產品大規模落地的廠商,大量客戶的反饋會反哺加速我們產品本身的迭代。

另一方面,我們採取的是一種開放的策略。雖然我們的產品並不開源,但我們整個應用介面與最先進的開源資料庫是相容的,而且緊跟最新的版本,不斷吸收資料庫領域裡最新的功能特性,能夠消除客戶被廠商鎖定的顧慮。

9

田超:雖然中國是數字經濟和網際網路發展大國,但大多數網際網路企業都用開源或者不付費的資料庫。在這種情況下,HashData作為商用資料庫,你們如何進行大規模推廣來保證盈利?

簡麗榮:很多開源公司會先去找網際網路企業,而我們採取的策略會不太一樣。不同公司有不同的背景,決定了其商業模式和商業路徑會不大一樣。

HashData的核心團隊,不管是研發、銷售、市場端,主要都來自於外企,所以我們的商業化打法也比較像外企進入中國的模式。最開始的時候我們會集中精力主攻重要行業的頭部客戶,例如金融、能源、交通等行業。透過與這些要求最高的行業頭部客戶合作,來打磨產品和打造口碑。

這些行業的頭部客戶普遍擁有比較成熟的IT基礎設施,並且對國產化替代的需求非常高,他們帶來的大規模使用者可以深度使用我們的產品,提出一般使用者還未遇到但又非常合理的需求,對我們的產品迭代是非常有幫助的。

接下來,我們會開始透過合作伙伴去覆蓋腰部的客戶,最後再透過我們的公有云服務進一步覆蓋長尾客戶。

10

田超:DB-Engines資料顯示,截至2021年1月,開源資料庫的全球部署首次超過商業資料庫。開源資料庫可以讓技術迭代更快,並且透明特性更容易在出海過程中取得國際客戶的信任。但國內開源公司想從免費走到收費是非常困難的,面臨著別人在此基礎上二次開發拿去賣,反而最初的開源公司難盈利的窘境,即使是全球資料庫龍頭Snowflake也是閉源公司。你是怎麼看待開源與商業化之間的矛盾關係?

簡麗榮:我認為在整個基礎軟體領域裡,靠閉門造車去構建一個完全獨立的生態,這種創業成功的機率微乎其微。即便是Snowflake那樣建立了行業領導地位的龍頭公司,也在不斷地去擁抱開源開放,已經開始支援像Iceberg這種開放的表格式,所以我認為基礎軟體領域的大趨勢就是開源開放。

全球知名的資料庫流行度排行榜網站DB-Engines宣佈Snowflake成功衛冕,獲得了“2022年度資料庫”稱號。Snowflake於2020年上市成為美股史上規模最大的一項軟體公司IPO,當日收盤該公司市值突破了700億美元。

開源有時候不太容易做商業化,這時候我們需要回歸到商業的本質。使用者為什麼願意付費?因為你提供的產品可以幫助客戶解決用別人家產品解決不了的問題。使用者是在為產品解決的問題付費,而不是為產品本身付費。

如果商業化要取得成功,很大程度上取決於企業打造的商業化版本與開源化版本之間的差異是否明顯。

例如,Snowflake是閉源的,但產品足夠優秀,大家都願意買單。再例如另一個全球大資料行業裡最好的公司之一Databricks,他們透過Spark開源,將Spark發展成為行業大資料標準,同時在公有云上打造了基於Spark的雲服務,在安全性、使用者體驗方面比開源版本好很多,因此使用者可能不會為開源的Spark付錢,但會為這個雲服務付錢。

11

田超:資料庫是從底層基礎軟硬體出發保障關鍵資訊基礎設施安全的關鍵,為此國家推出了“信創”戰略,提出建立以國產CPU為基礎的閉環信創體系,也給資料庫產業提供了發展機遇。你認為“信創”要求下的資料庫都需要具備哪些特點?HashData如何支援國家的“信創”戰略?

簡麗榮:我認為資料庫要在“信創”環境下發展需要符合一些特定的要求:

第一點在於對國產晶片的支援。包括鯤鵬晶片、飛騰晶片、海光晶片等。

第二點在對國產作業系統的支援。比如像麒麟作業系統、統信作業系統、尤拉作業系統等。

第三點在於中介軟體的支援。資料庫本身並不能直接解決使用者的業務問題,還需要一些中介軟體的支援,比如像BI工具、資料匯流排、資料採集、資料加工等工具。

第四點在於資料安全。信創領域的資料加密並不是採用國際標準的演算法,而是國密的演算法。

HashData目前已與國產主流晶片、中介軟體、作業系統完成適配,構建自主可控的生態體系

基於此,我們做了一些相應工作,包括在2020年我們和華為的鯤鵬晶片實現了相容性驗證,後續也完成了與麒麟、統信作業系統的相容性驗證;與中介軟體廠家例如帆軟、永洪等,與儲存廠商杉巖、騰訊雲COS等,以及多個雲平臺都有驗證。2021年底,我們加入了國家信創工委會,全面參與國家信創標準的討論和制定,為信創產業長遠發展貢獻一臂之力。

12

田超:隨著AI、大資料、物聯網等新技術的發展,資料量暴漲,對資料庫的事務處理和事務分析能力提出了更高的要求。HashData如何應對這樣的新趨勢?你認為未來資料庫最有前景的發展方向是什麼?

簡麗榮:針對這個趨勢,HashData規劃了未來3-5年的產品研發方向。

首先,不管是資料量還是資料分析需求的暴增,背後都是對資料庫擴充套件效能力提出更高的要求,也就是資料庫要幾乎無限地去擴充,要容納足夠多的資料,支援足夠多的使用者同時訪問。為此我們正在做跨資料中心、跨雲的底層架構調整,也就是所謂的datacloud,讓使用者可以隨時隨地,只要連上網就能訪問資料,不用在做資料分析時擔心儲存能力和計算能力。

第二,隨著物聯網等新技術的發展,大家對資料實時性的要求越來越高。HashData在構建一些新的資料儲存層,類似於Snowflake去年推出的UniStore功能,去增強資料實時入庫的能力。

第三,我們會不斷去增強資料的分析能力。傳統的資料庫/資料倉儲的核心是專門針對關係型操作去最佳化的,我們想把它變成一個類似Spark這樣的通用計算平臺,透過一套系統支援以關係型操作為主的資料倉儲應用,去支援資料湖、以資料加工為主的資料工程、以AI機器學習為主的資料科學和資料應用等用例。

資料領域最大的發展方向就是資料融合。如今,資料被視為第五生產要素,國家也在積極推動構建一體化資料市場,讓資料在統一的平臺上安全、敏捷、方便地去流通、交易、關聯融合。

資料就像社交網站,具備一定的網路效應,把很多資料放在一起的時候,它產生的價值遠遠比單獨的資料產生的價值要大得多。一旦這個平臺構建完成,它將能夠影響整個社會的方方面面,不僅僅是金融行業,還有交通、物流、醫療等等。

除了資料以外,其他所有的生產要素都已經具備了可公開交易流通的平臺,我認為資料也需要這樣一個平臺,這是未來最大的發展機會,這個技術趨勢也順應國家產業政策方向,符合未來經濟發展的趨勢。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70019410/viewspace-2936970/,如需轉載,請註明出處,否則將追究法律責任。

相關文章