對話李飛飛:下一代企業級資料庫6大技術方向

魚論發表於2022-06-16

  在上月結束的DTCC2020,“百庫爭鳴”或許是參會者最大的感觸。據不完全統計,目前有名有姓的國產資料庫產品多達200種。

  百花齊放,百家爭鳴,這正是使用者所需要的。資料庫被國家列為“卡脖子”的35項關鍵技術之一。只有對資料庫基礎研究越重視,參與的企業越多,關注的人越多,才有可能誕生更好的資料庫軟體。

  下一個10年,資料庫發展趨勢是什麼?使用者需要什麼樣的資料庫?這可能是很多從業者都想知道的問題,而這些問題,在DTCC2020大會上就有答案。

  大會第一天,阿里巴巴集團副總裁,阿里雲智慧資料庫產品事業部負責人李飛飛就分享了他對資料庫領域的觀察,並指出了下一代企業級資料庫的6個關鍵技術方向。

  眾所周知,Gartner最新公佈的2020 年度全球雲資料庫魔力象限評估結果,國內有3家廠商進入,其中阿里雲更是挺進了第一陣營——領導者(LEADERS)象限。這意味著在雲資料庫這條賽道上,中國資料庫並沒有落後於人,並且真正走進世界一流。

  很多人或許沒留意到,今年Gartner將OPDBMS(Operational Database Management Systems)和DMSA(Data Management Solutions for Analytics)兩個本是分開領域合二為一,成為CDBMS(Cloud Database Management Systems)。

  為什麼Gartner要這樣做?因為Gartner認為“There is Only One Cloud Database DBMS Market”。這不僅意味著CDBMS魔力象限競爭更為激烈,含金量更高,也意味著一種趨勢,資料庫和資料倉儲是可以融合的。

  因此,阿里雲對下一代企業級資料庫關鍵技術的判斷還是極具參考價值的。

  但對於6種關鍵技術,外界其實還存在一些不同的聲音。比如,有一種聲音認為,HTAP只是一種場景需求,並非一種趨勢。分散式是未來嗎?軟硬體一體化是不是又回到了被鎖定的老路?

  為此,老魚在會後特意專訪李飛飛,就這些問題展開探討。

    以下為本次專訪對話內容精選:

  老魚:在您看來,過去的10年,中國資料庫技術發展呈現怎樣的趨勢?下一個10年會朝怎樣的方向發展?

  李飛飛:過去十年,資料庫領域最大的趨勢,我覺得是從傳統資料庫架構向雲原生架構演進的趨勢。

  雲廠商的崛起,是過去十年非常典型的特徵。沒有人會想到,突然有一天,亞馬遜也開始做資料庫了,並悄無聲息的就已達到了全球資料庫領先位置。我認為,這跟雲端計算新賽道帶來的機遇是密不可分的。

  雲端計算帶來的雲原生技術體系催生了雲原生資料庫和雲原生資料倉儲。像AWS Aurora,AWS Redshift, Snowflake, 阿里雲PolarDB、AnalyticDB(ADB)。我認為,都是新賽道帶來的全新發展機遇,這是一個非常典型且有著時代代表性的趨勢,向雲原生演進。

  另外一個大趨勢,是分散式技術的深度發展。過去十年,分散式技術從一個比較初級的形態發展到今天,有了今天的分散式資料庫和分散式資料倉儲。

  接下來的十年,有哪些趨勢?

  第一、雲原生和分散式會發生深度融合,架構上無縫融合,提供更好的彈性、高可用能力。

  第二、智慧化技術深度融合,在資料庫中,如何用AI和相關技術,去做到智慧化的運維管控,比如索引推薦,MySQL治理、異常檢測等。

  第三、資料庫大資料一體化,包括HTAP以及離線上一體化,在過去的十幾年裡,資料庫領域和大資料領域是分開的,一個做離線,一個做線上,相安無事。但從應用角度或客戶視角看,越來越多的客戶和應用需要最好是一套系統來解決資料從生產、處理、儲存、消費全鏈路的過程,客戶越來越希望減少資料移動和儲存成本,避免天天做資料同步。如果能夠實現離線上一體化或能夠實現HTAP事務分析一體化或離線計算線上查詢一體化,那這些問題都可以迎刃而解。這也是我認為,下個十年非常關鍵的趨勢。這也是為什麼Gartner將OPDBMS(Operational Database Management Systems)和DMSA(Data Management Solutions for Analytics)兩個本是分開領域合二為一背後的核心邏輯。

  第四、多模,除了結構化資料,怎麼去處理文字、圖片等非結構化和半結構化資料?用資料庫方法去融合處理這些資料。

  第五、軟硬體一體化,一定要關注硬體發展,比如:NVM、高速網路等新硬體對資料庫系統設計帶來的衝擊。

  第六、安全可信,這是個永恆的話題。不是最新趨勢,但會不斷演進。如何結合區塊鏈技術在資料庫系統裡提供不可篡改性,如何將加密技術做到資料庫裡對資料進行全程加密保護。

  老魚:關於HTAP還是頗有些爭議。有觀點認為,HTAP只是一種細分使用場景,還談不上不是未來資料庫的趨勢,並且不建議把OLTP和OLAP業務完全混合,認為在典型的OLTP處理場景就使用面向OLTP設計的資料庫,否則,既達不到OLAP的擴充套件性,又無法滿足OLTP的實時、高效能等要求。您怎麼看?

  李飛飛:中國有句古話,魚和熊掌不可兼得。如果,今天有人告訴使用者說“我今天做了個HTAP資料庫可以替換傳統的OLTP資料庫,也可以替換傳統的OLAP資料倉儲,傳統的OLTP、OLAP系統都沒有用了”,那是不可能的。

  如果使用者就是線上交易場景、高併發、讀寫衝突非常高,這種情況下還要做OLAP,做多表聚合查詢,是非常複雜的。此種情況下,和高併發事務放在一起,一定會有挑戰。

  那為什麼還要講HTAP,我認為並不是要徹底取代傳統OLTP或徹底取代傳統OLAP資料庫,HTAP有自己的市場。一些線上事務、線上交易的場景下,如果做一些不太複雜的分析,或者做複雜分析但隔離級別要求沒那麼高,對實時性要求也不那麼高,在這種場景下,能不能做到既做OLTP又做OLAP?那是有可能的。

  比如,在我們事務處理裡,都做三副本,三副本里可以做行列轉換,兩個副本可以是行存,第三個副本是列存,去讀列存副本,並保證高隔離機制高實時可見要求,在這種場景下是沒問題的。但如果做非常複雜,時效性要求非常高的分析計算,還是要專門的OLAP系統。

  另外,將離線和線上一體化,既能做線上互動式分析也能做離線ETL是剛需。這個過程中,既然要做實時增、刪、改、查又要做互動式分析和複雜離線計算(但是前提是在一定的隔離級別以下,比如RC),一定會產生HTAP場景,但這個HTAP和理想中的HTAP既能支援高隔離級別、高併發還能做複雜分析是兩個概念。

  我覺得,未來的場景一定是有複雜分析計算場景、資料庫大資料一體化場景,不管從那種角度, OLAP支援一定級別的OLTP, OLTP做得非常好還能兼顧一定的OLAP,這種場景是存在的。

  老魚:這幾年,分散式資料庫非常火,很多企業都在試水,有成功的,也有失敗的,有種說法,資料量不上一定規模,沒有超高峰值,沒有高併發的場景就沒必要用分散式資料庫,因為,很可能不能獲得什麼明顯優勢。您怎麼看?

  李飛飛:在今天的演講中,我旗幟鮮明的提到,不能為了分散式而分散式。今天分散式很火,有眾多原因。在美國市場,分散式OLTP資料庫商業化成功的案例並不多。以Oracle為例,並沒有將分散式作為最重要的主攻方向。

  這其中包括美國分散式資料庫鼻祖Google Spanner以及出來創業的CockRoachDB,商業化規模也有待進一步提升。分散式解決的核心問題是水平擴充問題,但有前提條件,你的業務邏輯和資料分佈方法是基本完美匹配的,這樣可以做到完美的並行分散式處理,這沒問題。但理想很美好,現實很骨幹,很多業務場景沒辦法做到完美,即使能做到,業務邏輯隨著時間會變化,資料分佈就可能會發生變化。

  還有一種可能,一份資料有多個不同的業務,就像電商場景,既有買家又有賣家,你這資料到底是按買家ID來做,還是按賣家ID來做。不同業務場景需求不一樣,無論是按哪個邏輯去做分庫,最終會導致跨庫分散式事務處理和分散式查詢。在今天的場景下,如果要保證高階別的ACID,高併發場景下如果業務邏輯和資料分佈不一致,一定會帶來大的讀寫衝突和事務處理成本,這是分散式資料庫無法完美解決的問題。

  我們不能為分散式而分散式,而是要看業務場景,什麼樣的業務場景需要分散式改造?比如業務邏輯相對成熟固定,資料分佈也比較穩定,不大可能發生突然的資料分佈變化,這種場景下做一個分散式設計,那沒問題,還可以提供完美水平擴充能力。如果不是這種場景,或者並非超高併發,大部分業務系統和應用其實並不需要分散式改造。

  傳統單機系統也有非常明顯“短板”,用雲原生能力對資源進行池化,實現資源解耦,可以對應用做透明集中式部署,能完美解決了這個場景。

  再往後怎麼辦,將分散式能力和雲原生能力結合起來,將兩者的優勢結合起來。我覺得這才是下一代系統應該去做的一些突破。

  老魚:您剛才提到的趨勢裡,有軟硬一體,以前我們經常吐槽友商一款產品軟硬一體帶來鎖定。現在又回到了軟硬一體的路上,這到底是進步還是倒退?

  李飛飛:軟硬一體,不能理解為軟硬一體繫結部署,如果是軟硬一體繫結部署就回到了以前那條老路上。雖然以前的產品有很多設計思想值得我們借鑑,實際上,有些產品先於雲廠商意識到資源池化、資源解偶的重要性,並早於雲廠商做了這些工作,但很可惜,是緊耦合的方式去做的,所以,市場的反應沒有那麼好。

  今天我講軟硬一體,並不是要去做這種軟硬體緊耦合在一起的部署,而是說,要去結合硬體的特點來設計和最佳化資料庫系統。尤其是能規模化部署的硬體,客戶並不需要為軟硬體一體化設計,因為這種硬體已經是通用硬體,這個非常關鍵。

  軟硬體一體化最佳化,是每家資料庫廠商都必須要做的,因為系統本質是安全、高效的使用有限的硬體資源,必須結合硬體的特點來最佳化和設計系統。但問題是,不能針對特定、特殊硬體去做緊耦合,這樣倒逼使用者去改造硬體,這個成本太大。但是對普適性硬體如果視而不見,不針對硬體特點去發展會落伍。

  總的來說,我想表達的軟硬體一體化的邏輯,是針對具備普適性、規模化鋪開的硬體,根據硬體不斷髮展的特性,快速敏銳捕捉新特性,在資料庫系統設計裡把硬體特性發揮出來。

  老魚:今年阿里雲首次進入Gartner全球領導力象限,您怎麼看待這次入選?阿里雲資料庫未來將如何去保持跟擴大自己的領導優勢?

  李飛飛:阿里雲只是中國資料庫的一個代表。今年不僅阿里雲進入全球領導者象限,我們看到,有2家友商也首次進入了魔力象限,我覺得,這是歷史性突破。

  阿里雲進入全球領導者象限,代表著中國資料庫行業整體水平已經達到世界領先行列。進入第一陣營了,這是非常值得驕傲和自豪的,也給我們後續的發展奠定了非常好的基礎。

  尤其是今年Gartner將大資料管理分析和傳統事務資料庫合二為一,在這個背景下取得這個成績,非常難能可貴。

  我們看到各大雲廠商以及Oracle、IBM等老牌和新貴Databricks、Snowflakes都在裡面。後續競爭,我相信每一年會越來越激烈,怎麼去保持?

  第一,從市場中來、回到市場中去,貼著客戶需求去發展,而不是自嗨。

  比如;今天我們看到,阿里雲在公共雲市場份額非常大,但也看到混合雲市場機會非常大,針對混合雲市場,如何去打造我們的產品和技術?這是新的挑戰。這種挑戰甚至可以說,美國雲廠商遇到的挑戰都沒有我們多。

  中國網際網路為什麼在某種程度上發展的比美國還要好?因為市場驅動、客戶驅動、應用驅動,中國有這麼多人口,有密集城市,所以中國的網際網路應用在某些程度發展的反而比美國好,因為它有驅動應用發展和創新的條件。在混合雲市場,中國也具備這樣的條件。

  美國IT數字化程度非常高,進入雲端計算之前,其數字化程度非常高。所以美國的企業對擁抱公有云相對中國市場是非常自然而然的事情。但中國市場不一樣,中國市場有中國市場的特點。

  傳統政企對公共雲的擁抱肯定沒有美國市場度高。所以,在中國混合雲市場在相當長一段時間裡會是一個核心賽道,這個市場上怎麼發力?技術產品怎麼設計?從市場需求出發,結合市場特點,做出一些差異化有特色的產品非常關鍵,這是第一點。

  第二點,既然是全球領導者,那麼,在全球市場上的表現就非常重要。阿里雲不僅做中國市場,也要走出國門。在今天的環境下,在歐美市場會有一些挑戰,但在東南亞市場,在歐美市場之外還有廣闊的市場空間等著我們去增長。

  這些市場,阿里雲要直面國外雲廠商的競爭,在與它們的PK中去贏得客戶。今年,阿里雲能進入全球領導者象限很關鍵的原因是,阿里雲有很多海外客戶,很多是從國外雲廠商遷移過來,這對Gartner而言,是非常重要的訊號,說明阿里雲做得更好,客戶用腳來投票,這是非常有說服力的。

  老魚:阿里雲資料庫產品線,今年相比去年有什麼變化?

  李飛飛:我們會進一步聚焦,OLTP核心產品是PolarDB及分散式版PolarDB-X。OLAP有兩個核心產品,分別是雲原生資料倉儲AnalyticDB和雲原生資料湖分析DLA。NoSQL領域也是兩個核心產品,雲原生多模資料庫Lindorm和雲原生記憶體資料庫Tair。

  還有託管產品RDS和NoSQL、和工具類產品。對託管產品,阿里雲更多是在管控平臺這一層投入,結合雲原生和智慧化的技術把託管的優勢發揮出來。比如自動化例項管理、高可用等。

  阿里雲的核心思路還是聚焦在主賽道上,在核心自研產品上加大投入,託管產品和生態夥伴達成很好的合作關係,發揮託管平臺優勢。比如MongoDB,以前我們還在MongoDB上投入研發,現在兵力都收縮回來,我們跟MongoDB簽了個協議,用它的最新版,不是挺好的嗎?從資料庫核心產品再到運維服務再到應用開發ISV,藉助和發展生態的力量是我們的核心戰略。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70018962/viewspace-2900978/,如需轉載,請註明出處,否則將追究法律責任。

相關文章