阿里巴巴副總裁李飛飛:如何看待資料庫的未來?

阿里技術發表於2020-02-28

在這個全國抗疫的特殊時刻,阿里CIO學院希望與更多企業的CIO、CTO、技術專家、程式設計師站在一起,因此舉辦攻“疫”技術公益培訓,分享技術在人類災難前能夠呈現的價值。在阿里CIO學院攻“疫”技術公益培訓的第一場直播中,達摩院資料庫首席科學家,阿里巴巴副總裁,ACM傑出科學家李飛飛(花名:飛刀)為大家帶來了企業級雲原生分散式資料庫系統的分享,以下內容由影片直播內容整理而成。


一、雲原生分散式資料庫系統的發展歷程

資料庫市場分析與預測

首先為大家將介紹整個資料庫市場分析與預測。根據Gartner公司的分析報告,2018年全球基礎軟體如虛擬化軟體、作業系統、儲存等的市場規模大約為2000億美金,其中資料庫佔20%,大約為461億美金。而中國的資料庫市場規模大概為161億人民幣,但這一數字實際上因為各種原因被遠遠低估了。2018年資料庫市場的增長率是18%,其中雲資料庫佔比達到了22.75%,而Gartner預測在未來的2到3年內雲資料庫的佔比可能會達到75%。在世界範圍內,雲資料庫的領袖毫無疑問當然是亞馬遜亞馬遜是最早在雲資料庫市場發力的廠商,也是目前做的最好的一家雲廠商。而在AWS做雲資料庫之前,這個市場處於“None-Player”的狀態,傳統資料庫市場的巨頭是Microsoft、IBM、Oracle,而AWS未能躋身其中。但云資料庫賽道為AWS帶來了發展的機遇,其發展速度非常快,它的雲原生資料庫Aurora在2018年就達到了3億美金的營收。

資料庫系統演進

資料庫已經發展了40年,可以說是一個傳統又古老的領域。回顧資料庫的發展歷史,1980年到1990年屬於商業起步階段,此時Oracle、IBM DB2、Sybase以及SQL Server和Informix等開始出現。

1990年至2000年,開源資料庫開始展露頭角,出現了PostgreSQL和MySQL等。與此同時,出現了一些分析型資料庫,因為之前出現的都是OLTP,而現在隨著大量資料的出現,需要對於這些資料進行分析,因此出現了OLAP,而為了避免讀寫衝突,就需要建立分析型資料庫系統,Teradata、Sybase IQ、Greenplum等就快速成長起來。

阿里巴巴副總裁李飛飛:如何看待資料庫的未來?


2000年到2010年期間,以谷歌為代表的網際網路公司逐漸推出了NoSQL資料庫。尤其是谷歌的GFS(Google File System)、Google Bigtable、Google MapReduce三大件。Google File System解決了分散式檔案系統問題,Google Bigtable解決了分散式KV(Key-Value)儲存的問題,Google MapReduce解決了在分散式檔案系統和分散式KV儲存上面如何做分散式計算和分析的問題。之所以產生了這三大件,是因為資料強一致性對系統的水平擴充以及海量資料爆發式增長的分析能力出現了斷層。因此就需要解決這個問題,把這種資料的強一致性需求弱化,換來能夠使用用分散式的叢集做水平擴充處理。谷歌三大件在業界誕生以後,很快的衍生了一個新的領域叫NoSQL(Not Only SQL),就是針對非結構化、半結構化的海量資料處理系統。現在也有很多很好的商業公司基於NoSQL發展,比如說文件資料(MongoDB)、快取(Redis)等大家平常應用開發都會用到的NoSQL系統

而在2010年以後,AWS Aurora、Redshift、Azure SQL Database、Google Spanner以及阿里雲的POLARDB和AnalyticDB等都發展起來了,它們的特點就是雲原生、一體化分散式、多模和HTAP的能力。

總結而言,資料庫的演進經歷了從結構化資料線上處理到海量資料分析,從SQL+OLAP的RDBMS到ETL+OLAP的Data Warehouse和Data Cube,再到今天異構多源的資料型別的發展歷程。

資料庫:雲上應用的關鍵一環

如今,上雲已經成為一種趨勢。而在上雲的過程中,資料庫則被認為是雲上非常重要的一環。因為雲最開始提供的是IaaS,而隨著各種智慧化應用的興起,資料庫就成為了從IaaS到智慧化應用連線的重要一環。

阿里巴巴副總裁李飛飛:如何看待資料庫的未來?


資料庫發展:業務視角

大家知道,資料庫可以分為幾類:

最經典的是傳統關係型OLTP資料庫,其主要用於事務處理的結構化資料庫,典型例子是銀行的轉賬記賬、淘寶下單、訂單以及商品庫存管理等。其面臨的核心挑戰是高併發、高可用以及高效能下的資料正確性和一致性。

其次是NoSQL資料庫及專用型資料庫,其主要用於儲存和處理非結構化或半結構化資料(如文件,圖,時序、時空,K-V),不強制資料的一致性,以此換來系統的水平擴充、吞吐能力的提升。

再次是分析型資料庫 (On-Line Analytic Processing, OLAP),其應用場景就是海量的資料、資料型別複雜以及分析條件複雜的情況,能夠支援深度智慧化分析。其面臨的挑戰主要是高效能、分析深度、與TP資料庫的聯動,以及與NoSQL資料庫的聯動。

除了資料的核心引擎之外,還有資料庫外圍的服務和管理類工具,比如資料傳輸、資料備份以及資料管理等。

最後就是資料庫的管控平臺,無論是私有云、專有云、混合雲還是自己的IDC機房內進行部署,總要有一套資料庫管控系統來管理資料庫例項的產生和消亡、例項的資源消費等,能夠以簡單的形式提供給DBA以及資料庫開發者。

阿里巴巴副總裁李飛飛:如何看待資料庫的未來?

相關文章