專訪阿里雲蕭少聰、曹龍:一家雲廠商對入局資料庫做了哪些思考?

趙鈺瑩發表於2018-05-24

  曾經,一提起資料庫,似乎只有專業的資料庫廠商才足以研發。現在,這個邊界變得越來越模糊。在第九屆中國資料庫技術大會的現場,我們可以看到硬體廠商侃侃而談自己的資料庫產品,可以看到雲端計算廠商開始分享自己在資料庫領域的研發成果。

  作為一家廠商,資料庫顯然不是阿里雲的主業,但在其官網的產品列表中,資料庫產品在數量上具有絕對優勢,為什麼阿里雲如此重視資料庫的發展?商用產品和開源產品一大堆,阿里雲做資料庫的競爭力在哪?對於各大場合頻頻提起,多次被報導為資料庫領域新趨勢的HTAP,阿里雲怎麼看呢?

阿里雲:雲廠商入局資料庫做了哪些思考?
▲阿里雲資料庫高階產品專家 蕭少聰

  本文采訪嘉賓:蕭少聰(花名:鐵庵)阿里雲資料庫高階產品專家。主要負責RDS產品的發展規劃及產品演進。2011年獲得Postgres Plus Professional認證,同年以理事身份籌建PostgreSQL中國使用者會。

阿里雲:雲廠商入局資料庫做了哪些思考?
▲阿里雲高階技術專家、架構師 曹龍

  曹龍(花名:封神),阿里雲高階技術專家、架構師,專注在大資料分散式計算、資料庫及儲存領域,先後研發上萬臺Hadoop、ODPS叢集,先後負責阿里YARN、Spark及自主研發記憶體計算引擎,目前為廣大公有云使用者提供專業的雲HBase資料庫及計算服務。

  踏足資料庫領域,這家雲端計算廠商做了哪些思考?

  資料庫是一款使用者粘性非常高的產品,一旦核心業務資料落定,企業輕易不會嘗試更換。在這個可以說對後來者不太友好的圈子,阿里雲入局前是如何思考的呢?

  使用者需求驅動和技術沉澱應該是大多數廠商踏足資料庫領域的原因,這也同樣是阿里雲入局原因之一,只是在程度上有所不同。根據蕭少聰的介紹,作為一家雲端計算廠商,阿里雲長期服務於眾多不同型別的使用者,對使用者痛點挖掘更深。在新的時代背景下,現有產品無法滿足使用者新的應用需求,同時不能充分發揮新硬體的效能;當然,這個問題不僅使用者存在,阿里巴巴自身同樣存在。阿里所面對的龐大資料量和複雜的業務場景是很多廠商無法觸及的,這讓阿里內部很早就著手於資料庫的研發,目前提供的不少資料庫產品正是阿里多年技術能力對外輸出的表現。

  如果單憑這兩點,阿里雲確實有一定優勢,但並不足以構成核心競爭力。對企業和廠商而言,現在做資料庫的門檻並不像從前那麼高,資料庫領域的廠商也越來越多,核心競爭力只可能從差異性發展而來,人人都在做且會做的東西很難形成核心競爭力。

  曹龍表示,阿里雲做資料庫與第三方資料庫廠商最大的差異性在於雲,阿里雲強調雲資料庫,這就意味著共享,透過程式共享,讓企業享受更低成本,當然,前提是你的使用者足夠多;其次,阿里雲平臺的產品多樣性以及無縫對接能力同樣是很多廠商短時間內無法達到的,阿里雲平臺所承載的產品不僅僅只有云資料庫,各產品之間已形成良好打通,一個平臺足以解決多類場景問題。

  思考結束,阿里雲正式踏入資料庫領域,準確的說應該是踏入雲資料庫領域。

  開源商用,阿里雲如何和開源產品拉開距離?

  阿里雲不乏開源商用雲資料庫產品,蕭少聰和曹龍本人負責的RDS系列及雲HBase就是最好的示例。當然,不僅僅是阿里雲,不少資料庫廠商都會在開源基礎上進行修改。既然是在開源基礎上進行修改,企業不免思考這個事我自己能不能做?我是否有必要購買這款商用產品?

  企業要基於開源進行修改首要思考的就是技術和人才是否到位,人才問題暫且擱置一邊,如果你有足夠高的籌碼,人才問題比較好解決。我們先來討論技術問題,以阿里雲RDS和雲HBase為例,企業不妨看看阿里雲都做了哪些改進?

  首先是雲資料庫RDS PPAS版,這是阿里雲與EnterpriseDB公司合作基於PostgreSQL高度相容Oracle語法的資料庫服務。眾所周知,EnterpriseDB本身就是一家提供基於PostgreSQL企業級產品與服務廠商,基於EnterpriseDB的部分技術能力,阿里雲構建了自己的RDS PPAS版,蕭少聰坦言,PPAS與PostgreSQL的核心都是一樣的,PPAS只是多了Oracle相容性,可唯這一點便解決了很多企業的大難題。

  企業中不乏想從Oracle遷移到其它商用或開源解決方案的,雖然遷移工具很多,但很難保證百分百相容且應用程式完整遷移上雲。PPAS要解決的問題是不同架構和不同底層資料庫之間的遷移,將應用程式從Run Oracle完整遷移到Run PPAS。如果想更換其他開源解決方案,企業可以先從Oracle遷移到PPAS,整個過程語法改寫較少。熟悉了雲資料庫架構之後,企業可以另行選擇其他解決方案,PPAS在這個過程中更多扮演著橋樑的角色。 綜上,這些都讓PPAS與開源PostgreSQL、其他商用解決方案拉開距離。加之阿里雲提供全流程的ADAM(亞當)平臺,協助使用者進行遷移的:事前評估、過程管理、資料同步、保障性迴流、上線前效能對側、應用程式相容SQL發現等功能,使得使用者進行資料庫異構遷移過程更有保障。

  如果談起曹龍負責的雲資料庫HBase,這是一款基於Hadoop且百分百相容HBase協議的分散式資料庫。近些年,HBase在許多大型甚至超大型公司被廣泛應用,阿里巴巴內部就有很多場景應用了HBase,因此,效能最佳化從未停止。但是,追求效能的同時必然會損失其他特性,比如易用性、備份恢復等。阿里雲對於HBase的改進首先從核心及架構開始,對讀寫、延遲以及壓縮演算法等各方面進行了深度最佳化;其次,完善中小企業關心的易用性、備份恢復以及SQL入口......

  RDS產品系列不只有PPAS,阿里云云資料庫也不只有RDS和雲HBase。蕭少聰認為,今天所提到的資料庫,不僅僅是一個引擎,更是一整套管理體系,一個完整的雲解決方案,正是這樣的定位讓阿里雲的雲資料庫產品與開源產品真正拉開距離,就好比雖在同一起點卻是兩條跑道。

  HTAP到底是不是資料庫領域新趨勢? 阿里雲:是,但這不會是終局

  去年,我們就見過不少文章將HTAP列入未來資料庫領域發展趨勢之一,HTAP意味著可以透過一個資料庫系統同時滿足事務性需求和分析型需求,最具代表性的當屬谷歌的Spanner+F1論文,產生了一大批NewSQL系統。對比這兩年出現在資料庫技術大會上的議題,今年關於HTAP的議題明顯增多,這會是資料庫領域的一大趨勢嗎?

  對此,曹龍表示HTAP很難稱作資料庫領域的趨勢,如果算,可能也只是對少數公司而言。他表示,真正的大公司離線與線上分得很清楚,幾乎不會做HTAP,因為資料量實在太大。其次,如果要做,資料往往要打通,這裡所說的資料不僅僅是業務資料,而是整個集團的資料,這對於大公司而言很難實現,但如果某個業務團隊有需求,還是可以實現的。

  蕭少聰補充道,如果一家公司需要迅速將資料變現,在人力與物力不足的情況下,可以考慮採用HTAP的方式。同時,隨著硬體成本的逐年降低,這種方式可以在公司短期的發展內滿足訴求,但隨著公司資料量的擴大,我們也依然很難透過一個資料庫就解決所有問題。當資料量到達HTAP無法支撐時,透過獨立並專業的OLTP、OLAP、BigData資料庫系統,加上順暢的資料通道,實現業務流通分層計算,依然是現今最為成熟的方案。

  綜上,HTAP適用於部分體量的公司,可能是這類公司數量增多,也可能是業務部門對該技術的需求上升,導致了HTAP在資料庫領域的關注度升高。但當公司成長到一定規模,這種方式顯然不適用於業務發展,當前我們還沒有看到HTAP可以做到獨領風騷,但這一技術架構確實會是企業某一發展階段的最佳選擇。

  結語

  近年來,從大批硬體和雲端計算廠商湧入資料庫市場就可看出,資料庫市場存在大量發展機會並蘊藏巨大價值。本以為阿里雲做資料庫不過是想分一杯羹,但細算下來,筆者發現這家雲端計算廠商對使用者需求、企業痛點以及發展方向都做了不少思考,很擅長髮揮自己的優勢。當然,阿里雲確實有先天優勢,比如多年技術實力沉澱以及雲端計算業務積累的忠實使用者。但是,資料庫領域拼了這麼久,誰又說得清勝負呢?路程還遠,尚未到蓋棺定論之時,但阿里雲接下來在雲資料庫領域的一切行動還是值得期待的。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31077337/viewspace-2155066/,如需轉載,請註明出處,否則將追究法律責任。

相關文章