專訪 | 分散式HTAP資料庫會成為未來主流據庫嗎?

OceanBase資料庫發表於2021-08-04
近日,北京奧星貝斯科技有限公司 CTO 楊傳輝接受了CSDN -【大咖來了】欄目專訪,探討了從產品自身,到行業需求,再到資料庫的未來。


作為資料庫行業前沿的技術專家,楊傳輝對業內最關注的熱議話題進行了深度解析,對OceanBase開源社群建設規劃和佈局進行了全面解答,也對未來資料庫發展趨勢做了預測和展望。

據悉,【大咖來了】是CSDN特推出的高階人物對話欄目,以「對話技術大咖,講述程式設計師故事」為特色,覆蓋前沿技術、開源、技術創業等領域,每期邀請行業內極具代表性及影響力的大咖,深度挖掘話題價值,激發技術開發與創新應用等多維度的真知灼見。

以下為楊傳輝與CSDN 對話實錄:
 
業內資料庫的型別有哪些?特點分別是什麼?

楊傳輝:資料庫主要分成關係型資料庫和非關聯式資料庫兩個大類,其中非關係型資料庫包括鍵值資料庫、文件資料庫、圖資料庫、地理資訊資料庫等等,關係型資料庫可以分為OLTP事務型資料庫和OLAP分析型資料庫。OLTP事務型資料庫的優勢主要是能夠處理高併發,具備ACID的事務處理能力;OLAP分析型資料庫的優勢在於能夠處理複雜的一些查詢,具備大查詢的並行執行能力。

發展到今天,主流的一些OLTP資料庫:包括Oracle、SQL Server 都已經具備比較強的OLAP分析能力,有一個比較新的詞彙叫HTAP,它指的是又能處理OLAP、又能處理OLTP的資料庫。
 
近十年,資料消費習慣和資料架構發生了什麼樣的變化?

楊傳輝:之前在分享中經常提到一個觀點,應用是資料庫的第一推動力,最近十年主要發生了兩個特別大的變化:第一個變化,網際網路和移動網際網路的興起,使得資料庫的一些應用場景由封閉式場景變成開放式場景。比如說以前在取款機取款,我們有多少個取款機,就有多少個使用者;到了今天網際網路時代,人們在網上和線下購物、支付,特別雙11的時候,全國會有幾億人在同時做高併發的操作。第二個變化是,中國的資料庫使用者會追求自主創新,很多的企業需要有辦法能夠掌控資料庫。

從資料架構的角度來看,也產生了兩個變化:第一個變化,應用需求的推動,使得資料庫架構從集中式架構向雲原生跟分散式架構做轉型。透過分散式架構,有更多的普通的伺服器搭建成分散式的叢集,從而能夠滿足今天在網際網路、移動網際網路趨勢下的高併發和可擴充套件的需求;第二個變化,資料處理型別由簡單的結構化資料發展為更加豐富的一些多模的資料、非結構化資料的處理,湧現出文件資料庫、鍵值資料庫、圖資料庫等等更加豐富的資料庫型別。
 
中國資料庫使用者的“痛點”是什麼?有什麼樣的解決方案?

楊傳輝:對於中國的資料,有兩個痛點,首先從產品和技術的角度來看,中國資料庫面臨向雲的環境、向分散式架構轉型,痛點主要還是經典的集中式資料庫沒有辦法處理更大的資料量,沒有可擴充套件的能力。而且經典的資料庫因為依賴高階的硬體、伺服器、儲存,所以成本相對會比較高;

其次是在於中國的資料庫的自主創新能力,主要的解決方案有兩類:第一類是基於開源的資料庫做二次開發,第二類是從零開始完全自主研發,絕大部分公司會採用第一類方案,只有OceanBase選擇了第二類方案:從0-1完全自主研發。

那麼基於開源的方案,好處在於初始投入成本較低,因為有一個開源的資料庫為基礎,能夠快速的起步;而選擇自研的方案,越到後期,可控性越強,潛力會越大。OceanBase之所以選擇更難的方案,就是因為我們想做企業級的資料庫。
 
開源資料庫的優勢在於能夠處理比較簡單的查詢,但沒有辦法像企業級資料庫一樣具有豐富複雜的查詢能力,也不具有分散式的能力,要做好複雜查詢和分散式,我們認為一定要打破開源資料庫的核心,完全掌控核心,才能把這件事情做到極致,因此OceanBase選擇了從0-1完全自主研發的道路。

到今天回過頭來看,我們發現這個選擇十分正確,因為自從2017年在螞蟻集團實現了所有核心業務從Oracle切換為OceanBase之後,發現我們的能力已經超越了開源資料庫,而且隨著我們對資料庫的掌控能力越來越強,也在不斷地拉開與開源資料庫的差距。
 
HTAP正在興起,它會取代以Oracle為代表的關係型資料庫或者傳統資料倉儲麼?未來資料庫的發展方向是什麼?

楊傳輝:首先HTAP並不是一個新的概念,資料庫剛開始誕生的時候,並沒有區分哪些是OLTP,哪些是OLAP,今天我們看非常成功的商業資料庫,比如說Oracle或者SQL Server 都是又能處理OLTP,又能處理OLAP的,它們也可以被認為是HTAP的資料庫,當然,隨著雲跟分散式技術的引入,我們透過分散式架構,擴充了HTAP的邊界,經典的資料庫只能應用在集中式的場景,只能處理相對比較小規模的一些資料,不具有可擴充套件的能力。新一代的分散式資料庫能夠具備可擴充套件、更高併發、更彈性的能力,它一定是擴充了以前經典資料庫處理的邊界,能夠處理海量的資料。

未來是雲的時代,我認為下一代的資料庫,一定是採用分散式架構的新一代的HTAP資料庫,一方面這樣的資料庫,它的底層是原生分散式架構,能夠充分的享受到原生分散式的技術紅利,比如說具備可擴充套件的能力,具備高併發的能力,具有較高的價效比;

另一方面,下一代的資料庫一定需要站在經典資料庫巨人的肩膀上,充分地借鑑經典資料庫做的比較好的一些技術方案和設計理念,比如說借鑑經典資料庫的SQL相容性、事務處理能力等能力;借鑑怎麼去做精細化、怎麼去做儲存計算分離的技術方案等。只有站在經典資料庫巨人的肩膀之上,下一代再融入分散式的技術,才能做出真正的符合使用者需求的下一代分散式HTAP資料庫。

OceanBase開源社群建設有哪些規劃和佈局?

楊傳輝:我認為開發者應該選擇最有發展前景的開發專案,而OceanBase 註定會成為頂級的開源專案。

首先OceanBase的核心技術已經得到了非常廣泛的業內證明,OceanBase 在分散式領域的技術是全球領先的,得到了螞蟻集團應用場景的證明、也得到了來自金融、運營商和政府等各個行業的客戶的證明。OceanBase 非常穩定、成熟、可靠,當我們把這樣的一個企業級資料庫開源的時候,它是註定會成功的,而且OceanBase在第一天開源的時候,就是已經取得了2000多的Star ,在資料庫的開源專案中,應該也是全球最多的。
 
其次OceanBase會投入大量的精力去對開源社群做建設,使得我們的開源社群更加地popular ,只要我們的開發者隨著OceanBase 一起成長,我相信每個開發者一定能收穫技術以及經驗上的成長,現在OceanBase 的開源專案還處在早期,坦率的說這個階段加入OceanBase,會比較容易找到OceanBase的問題,能夠更容易地對OceanBase 做貢獻,從而成為OceanBase的contributor ,再而成為 committer ,OceanBase社群的治理模式借鑑了Apache開源專案的模式,有PMC的組織、contributor、committer等等,和一般的Apache開源專案比較相似。
 
一個開源社群能否運營得比較好,第一是在於開源的專案是不是有誠意,很明顯OceanBase是把螞蟻集團最為核心的技術在商業裡面應用得已經非常成熟,完完全全的核心開放,這是非常有誠意的一件事情,另外OceanBase 後續會把所有商業的一些修改都非常快的patch到開源的一個分支裡面來,OceanBase 公司本身也是OceanBase社群其中的一個參與者,當然也會是貢獻最大的一個參與者。

第二是針對使用者的運營計劃分為兩個部分:針對頭部客戶,會有十里春風的VIP計劃,這個階段加入OceanBase 開源專案的頭部使用者,會有專門的支援團隊和服務人員,對每一家使用者提供VIP的服務,需求能夠更快地反饋,來支援使用者將OceanBase用得更好;對於其他的使用者,會設有OceanBase論壇、微信群、釘釘群等服務模式來支援和解答大家的問題;

第三是針對開發者運營的計劃,會舉辦面向開發者、高校、資料庫的愛好者等的一些活動,比如每月一次meet up、每月一次的線上直播,以及在9月份也有一個專門面向資料庫的OceanBase 大賽。
 
您與《程式設計師》雜誌有哪些故事可以和我們分享?

楊傳輝:我在2002年上的大學,當時的技術雜誌比較少,當年每一期的《新程式設計師》雜誌都會仔細地閱讀。以前我主要關注偏技術分析、技術架構方面的文章,到現在這個時點,我更喜歡看一些更宏觀的內容,比如上一期《新程式設計師》雜誌裡陸奇寫的文章以及關於SaaS行業的內容。

以上為全部採訪內容,希望對大家有所啟發,也歡迎大家共同深度探討和交流。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69909943/viewspace-2785230/,如需轉載,請註明出處,否則將追究法律責任。

相關文章