從產品到平臺 PingCAP的堅持與探索|魚論

魚論發表於2022-06-21
近年來發展勢頭強勁的國產資料庫在雲時代再次迎來了新一輪增長爆發,在技術更新迭代中,不論是鎖定分散式還是對“HTAP”“雲原生”的先一步探索,PingCAP作為新興國產資料庫廠商,在短短6年間其核心產品TiDB便躍居成為國內最受開發者歡迎的國產開源資料庫,這家獨角獸企業有著怎樣的故事和哪些獨到見解?我們就此專訪了 PingCAP CTO黃東旭 ,看看他怎麼說。


從產品到平臺 PingCAP的堅持與探索|魚論

PingCAP CTO 黃東旭


大趨勢下,分散式一定是必選項。


IDC預測,全球資料量總和預計將從2018年的33ZB增至2025年的175ZB。而國內資料體量在未來7年將實現複合增速30%以上的快速增長,並在2025年成為與歐洲、中東、非洲、亞太和美國等地區相比體量最大的區域,全球資料量即將迎來更大規模的爆發。在大體量資料場景下,傳統資料庫面臨新一輪的問題與挑戰,隨著摩爾定律的失效,以前靠升級硬體實現Scale Up的方式已經不行了。讓資料庫Scale Out變成新的考慮目標。當資料量達到一定量級時,採用分散式資料庫往往是必經之路。


2015年,以分散式強一致性事務、線上彈性水平擴充套件等為核心架構的TiDB上線,這一年恰逢我國首次提出“網際網路+”,中國資訊經濟開始進入高速發展階段,可以說TiDB是在合適的時機以第一款國產開源分散式關係型資料庫的先發優勢完成了起步。


有人用GitHub作類比,說市值75億的GitHub都不需要分散式,你的也不需要。對此黃東旭認為, 集中式資料庫和分散式資料庫並非替代關係 在不同場景中它們可滿足不同需求 如果企業技術偏好單機式資料庫並有強大的技術人員能負擔起大量分庫分表任務,或確認業務資料量不會特別大,傳統資料庫完全足夠。但在業務高併發量的場景中,分散式能夠幫助大多數企業降低技術門檻。不過在雲上,資料庫類別的邊界會越來越模糊。


例如,在雲服務上,看起來是MySQL的應用底層架構可能包含有高可用、副本、讀寫分離,雖然底層是分散式的系統但使用者使用感是單機MySQL體驗。 對於使用者而言不管是集中式還是分散式,遮蔽在雲服務之下後,區分的意義便弱化了。


除分散式外,PingCAP的另一關鍵詞是開源,也是TiDB的標誌性符號。


開源, 這個時代基礎軟體想要成功的唯一路徑。


對於開源和商業化的選擇,黃東旭認為,在當下,開源是必要選擇。從生態角度,開源的研發模式能夠迅速積累使用者;從技術角度,開源加速了產品的迭代速度。


從2015年開源至今,TiDB 專案在 GitHub 上已總計獲得超過 30000顆星,有超過2000家企業將其用於線上生產環境。


近年來,越來越多企業,包括很多傳統企業,開始積極擁抱開源,甚至參與開源。例如,平安銀行在應用TiDB時還加入了自己的理解進行了二次釋出,且已在內部大規模應用。神州數碼已經開始做TiDB的原始碼閱讀,並在TiDB上支援了PG協議。


以開源為始,TiDB快速積累使用者並驅動了更多社群開發者,產品也在不斷迭代中迎來了企業數字化轉型大潮,“海量、實時、線上”成為新的資料趨勢,能夠統一支援事務處理和工作負載分析的資料庫成為眾多企業的需求。


2014年Gartner的一份報告中使用混合事務分析處理(HTAP)一詞描述新型的應用程式框架,以打破OLTP和OLAP之間的隔閡,既可以應用於事務型資料庫場景,亦可以應用於分析型資料庫場景,實現實時業務決策。之後,HTAP成為熱點,被各大資料庫廠商不斷提及。


HTAP,需要滿足四個標準。


對於處在風口的HTAP,黃東旭認為從基礎架構來看,真正的HTAP需要同時滿足四個標準: 首先 ,HTAP必須支援100%的TP能力,要保障強一致、高併發和高可用; 第二 是要保證有列式儲存的AP能力; 第三 ,AP和TP間的資料必須是打通的; 第四 是保證兩部分資料同步的同時要互不干擾。


歷經四次迭代,TiDB從最初的主OLTP,輔以OLAP的單引擎版本,到藉助TiSpark外部引擎實現分析功能,再到擁有OLTP的主引擎+TiFlash分析引擎,直至在今年4月份釋出的TiDB 5.0版本,TiDB才正式成為一款具備完整 HTAP 能力的分散式資料庫,而MPP架構的加入也標誌著TiDB順利轉變成一個一棧式的資料服務平臺。


在不斷完善基礎架構的同時,PingCAP也開始向更廣闊的商業服務市場探索。


未來,雲原生將深刻改變資料庫開發。


雲服務靈活、彈性和分散式的天然優勢,讓資料庫和基礎軟體行業看到了商業曙光。據Gartner釋出的資料顯示,到2022年,75%的全球企業將在生產中使用雲原生的容器化應用。對於國內市場而言,在政策鼓勵雲端計算髮展和分散式改造背景下,在銀行、電力等部門資料庫國產化需求強烈等因素的影響下,國產資料庫廠商在雲時代將迎來黃金機遇期。


據介紹,PingCAP在兩年前便開始將整體戰略由DB轉向了DBaaS (Database-as-a-Service,資料庫即服務),TiDB在雲上的平臺化之路也讓黃東旭感觸頗多,“PingCAP在雲服務方面投入的人力和資源,可能甚至已經比資料庫核心還多,做一個完整的DBaaS服務,並不比從零開始做資料庫簡單”。


對於雲原生的未來趨勢,他也發表了自己的看法。“ 雲原生資料庫,它不應該是一個能被私有化部署的資料庫,在雲上更像是分工合作,在一個平臺上將資源利用最大化。對於設計者來說,過去資料庫所有東西都是要跑在一些同構的基礎上,但在雲上可以把整個資料庫不同的板塊全都切分開,服務更加精細,比如日誌的系統專門去呼叫雲上日誌的服務。再例如儲存系統,可以根據資料的冷熱,冷資料這一部分可以用雲提供的S3,熱資料可以用local LSD,這樣能夠極大地降低使用成本。未來,雲原生的這些能力會深刻改變資料庫開發模式。”


在資料庫行業既有的雲服務領域成功案例中,MongoDB和Snowflake是兩大典型代表。MongoDB依靠雲服務成功將資料庫商業化,其旗下的DBaaS產品 MongoDB Atlas基本上每年都保持著超過100%的年複合增長率,而主打雲原生的Snowflake更在上市之初便成為有史以來最大規模軟體IPO,一時風頭無兩。海外廠商熱火朝天,國內企業也正在蓄力待發。


近兩年,PingCAP創立的兩大開源專案TiKV鍵值資料庫和Chaos Mesh雲原生混沌工程在先後進入到雲原生基金會(CNCF)進行孵化後也取得了不錯的成果。其中, TiKV已成為“畢業專案”,而Chaos Mesh也順利進入了“沙箱專案”。基於這些專案的貢獻,PingCAP在2019-2020年CNCF年度貢獻度排名中位列中國企業第一,全球排名第六。


或許得益於三位創始人工程師出身,PingCAP自成立以來的每一次前行均與市場需求側保持一致步調,TiDB從第一代到最新的5.3版本,靠每年程式碼重寫率達50%的積累與打磨,讓產品在易用性、穩定性、可靠性得到了全面提升。如今,客戶遍佈海內外20多個國家和地區的PingCAP,像黃東旭曾說過的 “讓全世界的開發者享受到我們的服務” 願景一樣,在全球資料庫雲服務賽道或將大有可為,值得期待。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70018962/viewspace-2901937/,如需轉載,請註明出處,否則將追究法律責任。

相關文章