帶你來吃瓜!Andy Pavlo教授帶您一文回顧資料庫的2022年

StoneDB發表於2023-02-10

編輯/翻譯:宇亭

校對:王學姣、李浩

本文是由資料庫界知名專家 Andy Pavlo教授寫的2022年資料庫回顧文章,這個系列從去年開始,非常經典,也比較系統的整理了一下資料庫界的大事件(當然,主要還是以國外的居多),StoneDB團隊對本文進行了翻譯,小編在一些連結部分加了註釋,方便大家理解相關內容,更好地瞭解全球的資料庫動態,當然,由於篇幅所限,我們這篇只翻譯前三大節的主要內容,想了解更多,推薦您閱讀原文:

https://ottertune.com/blog/2022-databases-retrospective/❞

又一年過去了,我還活著。既然如此,那麼我們現在來對過去一年資料庫領域的變化進行回顧和反思是再好不過了。

隨著 DBMS 廠商之間的基準測試之爭逐漸平息,這一年的資料庫領域可以稱得上“安靜”二字了。(小編注:這裡來自 Andy 在去年的回顧文章裡講的資料庫評測大戰,分別是 Databricks vs. Snowflake、Rockset vs. Apache Druid vs. ClickHouse、ClickHouse vs. TimescaleDB,感興趣可以閱讀原文)

前年(2021 年)的回顧文章我寫得很開心,所以我很高興能與你們分享 2022 年裡發生的大事件以及我對它們的看法。

一、大額資料庫融資已經放緩

Big Database Funding Has Slowed Big Time

正如我去年討論的那樣,2021 年是資料庫融資的豐年。隨著投資者繼續尋找下一個 Snowflake,大量資金被投入到建立新的資料庫初創企業中。2022 一開始我們便目睹了多家公司完成大規模融資,似乎 2022 會是 2021 的翻版。這場投資盛宴始於今年 2 月份,Timescale 獲得 1.1 億美元的 C 輪融資,Voltron Data 獲得 1.1 億美元的種子輪+A輪融資,Dbt Labs 獲得 2.22 億美元的 D 輪融資。Starburst 在 3 月份宣佈了 2.5 億美元的 D 輪融資,以擴大其 Trino 產品的規模。5 月份,Imply 給他們的 Druid 商業版募集到了 1 億美元的 D 輪融資。DataStax 在 6 月份的 IPO 中獲得了 1.15 億美元的融資。最後,SingleStore 在 7 月份公佈獲得了 1.16 億美元的 F 輪融資,然後在 10 月份又將該輪融資規模擴大了 3000 萬美元。還有幾家較小的公司在 2022 上半年完成的 A 輪融資也同樣令人印象深刻:包括 Neon 為他們的 Serverless PostgreSQL 籌集到了 3000 萬美元;ReadySet 為他們的查詢快取層(Query Caching Layer)籌集了 2900 萬美元;Convex 為他們在 PostgreSQL 上構建的應用程式框架籌集了 2600 萬美元;QuestDB 為他們的時序資料庫籌集了 1500 萬美元。我們的 OtterTune 雖然沒有構建新的 DBMS 或相關基礎設施,但在 4 月份也籌集到了自己的 1200 萬美元 A 輪融資。

但到了 2022 年下半年,資料庫行業再無大規模融資發生。儘管有一些早期初創企業籌集到了較小規模的融資,但那些經驗更豐富的公司的融資規模沒有一個達到九位數(美元)。RisingWave 在 10 月份為他們的流處理引擎籌集了 3600 萬美元的 A 輪融資。Keebo 為他們的 Snowflake 查詢加速器籌集了 1050 萬美元的 A 輪融資。在 11月,我們看到了 MotherDuck 宣佈獲得了 4500 萬美元的種子+A 輪融資,用於將 DuckDB 的雲版本商業化,EdgeDB 也在 11 月宣佈了 1500 萬美元的 A 輪融資。最後,由 Morgan Hitchcock 兩兄弟成立的 SurrealDB 獲得了 600 萬美元的種子輪融資。我可能漏掉了其他一些融資資訊,但我本來也並沒有打算在這裡做一個詳盡的列表。

小編注:你不做,我來做,哈哈哈哈

除此之外,資料庫領域唯一值得注意的其他金融事件就是 MariaDB 在 12 月災難性的公開發行(透過 SPAC),其股票價格在第一個交易日就下跌了 40%。

與 2021 年相比,造成 2022 年的大規模融資輪數減少的原因有二。最明顯的原因是整個科技行業已經降溫,部分原因是對通貨膨脹、利率和加密經濟崩潰的擔憂。另一個原因是,在資金枯竭之前,所有有能力進行大規模融資的公司已經完成了資金的募集。例如,Starburst 在 2021 年籌集了 1 億美元的 C 輪融資後,於 2022 年籌集了 D 輪融資。在過去兩年裡進行了鉅額融資的資料庫公司需要儘快籌集更多資金,以保持增長的勢頭。也有其他人對這些公司獲得的驚人金額發表了評論。

壞訊息是,除非科技行業有所改善,大型機構投資者開始再次將資金投入市場,否則這些公司將陷入困境。市場無法維持如此多的資料庫獨立軟體供應商 (ISV)。這些估值 10 億美元的公司繼續發展下去的結局只會是兩個極端:IPO 或是破產。對於大多數公司來說,收購它們的成本太高了(除非風投機構願意大幅削減成本)。此外,進行大型併購的主要科技公司(如亞馬遜、谷歌、微軟)已經有了自己的雲資料庫產品。因此,目前還不清楚誰將收購這些資料庫初創企業。舉個例子,亞馬遜每年可以從 Redshift 身上每年賺數十億美元,它沒有任何必要花 20 億美元(ClickHouse 2021 年的估值)收購 ClickHouse。這個問題並非 OLAP 資料庫公司獨有的,OLTP 資料庫公司很快也將面臨同樣的問題。

我並不是唯一一個對資料庫初創企業的命運做出如此可怕預測的人。Gartner 分析師預測,到 2025 年,50% 的獨立 DBMS 供應商將倒閉。我的觀點肯定不是完全客觀的,但我認為能夠生存下來的公司將是那些致力於改進/增強現有 DBMS 而不是取代它們的公司(例如 dbt、ReadySet、Keebo 和 OtterTune)。

我無法評價 SPAC 的“快速上市”模式是好是壞,就像 MariaDB 所做的那樣。這類金融工具超出了我的專業領域(即資料庫)知識範疇。

二、區塊鏈資料庫仍然是一個愚蠢的想法

Blockchain Databases Are Still a Stupid Idea

市場上已經出現了各種各樣的狂熱觀點,宣稱 Web3 將如何徹底改變人們構建新應用的方式。我曾有一個學生衝出了我的課堂,就因為我教的是關係型資料庫而不是 Web3。 (小編注:眾所周知,Andy 在 CMU 教授資料庫,沒錯,就是最經典的 CMU 15-445 系列課程,這課每年都在上,就在 2022 Fall 的第一節課上,當 Andy 介紹資料庫的 Data Model 種類時,一位同學站起來問怎麼 PPT 上沒有寫區塊鏈,區塊鏈是未來,比其他的 Data Model 都要好,應該加上,Andy 說區塊鏈不是一個 Data Model,應該算 implementation,再說我這課是教資料庫的,也不是教區塊鏈/Web3 的,兩人激辯一番,最後那位同學說區塊鏈是最 diao 的,你不加上我很遺憾,你擱這兒純純浪費了大家的時間,然後當場衝出了教室,場面一度非常尷尬,這個操作也是令人二丈和尚摸不著頭腦,Web3 的狂熱粉絲在此給 Andy 留下了深刻印象)Web3 運動的核心原則是將狀態儲存在區塊鏈資料庫中。區塊鏈本質上是去中心化的日誌結構資料庫(即賬本),它使用默克爾樹(也稱雜湊樹)的一些變體和 BFT 共識協議來維護增量校驗和,以確定安裝到資料庫中的下一個更新。這些增量校驗和是區塊鏈確保資料庫日誌記錄不可變的方式:客戶端使用這些校驗和來驗證以前的資料庫更新沒有被篡改。

區塊鏈是對以前一系列想法的巧妙融合。但是,認為每個人都應該使用去中心化的賬本來構建他們的 OLTP 應用的想法是錯誤的。 (小編注:這裡 Andy 貼了個連結,內容是維基百科創始人 Jimmy Wales 在 Twitter 上的宣告:一個加密貨幣的大 V 說讓維基百科透過區塊鏈技術(用於儲存)和加密貨幣(用於激勵)運作,Jimmy 表示強烈反對,他認為資料已經存在資料庫裡了,有資料庫就夠了,區塊鏈技術很好,但可不是這樣用的,至於加密貨幣用於激勵——如果平臺支援人們存款,就無法吸引那些真正對主題感興趣而做出貢獻的專家和愛好者,取而代之的是人們相互競爭以獲取金錢利益為目的來建立和編輯內容,這嚴重違反了維基百科的平臺願景。當然了,Jimmy 個人其實也一直認為加密貨幣就是泡沫經濟,他多次公開表示不會支援在維基百科平臺上使用區塊鏈技術和加密貨幣)從資料庫的角度來看,除了加密貨幣之外,區塊鏈技術在任何實際用例上都不能提供比現有 DBMS 技術更好的功能。此外,任何聲稱區塊鏈在資料庫中提供了比現有 DBMS 更好的安全性和可審計性的說法都是錯誤的。

因此,如果加密貨幣是區塊鏈資料庫的最佳案例,那麼實際上當在 2022 年加密市場面臨崩潰時,這個最佳案例也沒提供什麼幫助,反倒是進一步阻礙了區塊鏈資料的未來。在這裡,我將忽略 FTX 的崩潰,因為它看起來是赤裸裸的欺詐,與資料庫沒有任何關係。但是我要指出的是,與所有其他加密交易所一樣,FTX 並沒有在區塊鏈資料庫上執行業務,而是使用的 PostgreSQL。其他與加密貨幣無關的區塊鏈資料庫用例,如交易和遊戲平臺,由於它們的不實用性或欺詐而逐漸失敗。

在評估一項技術時要遵循的一個規則是,一旦 IBM 為它做了電視廣告,它就不再是“新”技術了。這意味著,如果在 IBM 開始宣傳某樣東西時,還沒有令人信服的用例,那麼就永遠不會有。例如,IBM 在 2002 年的一個商業廣告中吹捧 Linux 是一個熱門的新事物,但那時已經有數以千計的公司將 Linux 作為他們的主要伺服器作業系統(包括 Google)。因此,當 IBM 在 2018 年推出區塊鏈商業廣告時,我知道這項技術不會超越加密貨幣,因為不存在去中心化區塊鏈可以解決而中心化 DBMS 無法解決的問題。IBM 今年宣佈關閉與航運巨頭馬士基(Maersk)合作的供應鏈 IT 基礎設施檢修專案(小編注:這裡引用的新聞標題是 Blockchain Fails to Gain Traction in the Enterprise)也就不足為奇了(這也是他們在商業廣告中大肆宣傳的事情)。

與由受信任的機構控制、只允許受信任的客戶端直接連線、精心編寫的事務性 DBMS 相比,區塊鏈的效率低得可怕。除了加密貨幣(見上文)或誘捕之類的非法活動外,幾乎所有現實世界的互動都是以這種方式工作的。我們需要信任他人才能擁有一個正常運轉的社會。例如,我授權託管 OtterTune 網站的公司收取我們的信用卡費用,而他們信任雲提供商託管他們的軟體。這些交易不需要區塊鏈資料庫。

從工作量證明(Proof-of-Work, PoW)切換到能耗更低的權益證明(Proof-of-Stake, PoS)共識機制確實提高了區塊鏈資料庫的效能 (小編注:這裡 Andy 舉了以太坊的例子:Ethereum switches to proof-of-stake consensus after completing The Merge)。但這隻會影響資料庫的吞吐量,區塊鏈事務延遲仍然以數十秒為單位測量。如果解決長延遲的方法是使用參與者更少的 PoS 區塊鏈,那麼應用程式還不如只使用 PostgreSQL,再對這些參與者進行身份驗證就好了。

大家可以看看 Tim Bray 寫的這篇很棒的文章 (小編注:Tim Bray 是前AWS副總裁兼資深工程師,是XML的發明者,不過20年因為不滿亞馬遜疫情期間對待員工的方式憤然辭職,現在回老東家谷歌了,這篇部落格主要是講 AWS 高層對區塊鏈的態度),他與AWS高層就區塊鏈是否有可行的落地用例進行了內部討論。請注意,他說AWS 在2016年就得出結論,區塊鏈資料庫是一個有問題的解決方案,比 IBM 推出他們的商業廣告早了兩年!儘管 AWS 最終在 2018 年釋出了它的 QLDB 服務,但它與區塊鏈不是一回事。QLDB 是一箇中心化的可驗證賬本,不使用 BFT 共識。客戶對 QLDB 的採用並不是很理想,特別是與亞馬遜非常成功的 Aurora 系列產品相比。

附註1:我最近參加了 SFO 會議的一個小組討論 (小編注:這裡是指 Andy 在22年10月參加了矽谷著名 VC 機構 Race Capital 組織的年度峰會,值得一提的是,Race曾投資了 FTX種子輪),SBF 也從巴哈馬飛來出席 ( 小編注:給不混幣圈的同學科普一下,SBF是人名縮寫,即 Sam Bankman-Fried,是 FTX 創始人兼執行長,2017 年開始涉足加密貨幣行業,僅用了4年時間累積了上百億美元的加密資產,並躋身福布斯全球富豪榜,不過,就在22年12月,SBF 被美國多個聯邦機構起訴透過 FTX 詐騙)。我當時留下來看了他的演講。當 SBF 上臺時,觀眾們欣喜若狂。不過我當時 Slack 上的聊天記錄顯示,我對 SBF 對主持人問題的 “yep” 回答印象並不深刻。

附註2: 在FTX崩潰的三週前,有人向 Dana Van Aken 和我指出,OtterTune 擁有的全職工程師數量與FTX在巴哈馬的團隊相同。這個人告訴我們,既然我們有相同數量的工程師,OtterTune 應該像 FTX 一樣更敏捷或者積極,現在應該已經有 10 億美元的 ARR 了。嘔吼~

三、值得關注的新資料庫系統

New Database Systems

今年有幾個主要的新資料庫被公佈。

  • Google AlloyDB

今年的重磅訊息是谷歌雲在5月宣佈了新的資料庫服務 AlloyDB(小編注:沒錯,就是那個主打 HTAP 的雲資料庫)。與構建在 Spanner 之上不同,AlloyDB是PostgreSQL的一個修改版本,它分離了計算層和儲存層,並直接在儲存中支援 WAL 記錄處理。

  • Snowflake Unistore

在6月,Snowflake 宣佈了他們新的 Unistore 引擎(小編注:沒錯,就是那個支援 HTAP 的引擎),它具有“hybrid tables”,以支援低延遲事務的DML操作。當查詢更新表時,更改會同步到 Snowflake 的列式儲存中。SingleStore(前MemSQL) 的一些人有點生氣(小編注:這裡說的是 SingleStore 的總裁Domenic Ravita,可見國外資料庫圈還是蠻喜歡互懟的),嘲諷 Snowflake 在 HTAP 領域只是有一些專利,但沒有任何實際成果。

  • MySQL Heatwave

在甲骨文意識到亞馬遜從MySQL上賺的錢比他們多之後,他們最終決定在2020年為MySQL建立自己的雲服務。但是他們並沒有做一個RDS的克隆,而是用一個叫 Heatwave 的記憶體向量化 OLAP 引擎擴充套件了 MySQL。(小編注:這個和StoneDB正在做的事兒一樣~)去年,Oracle 宣佈他們的 MySQL 服務也支援了自動資料庫最佳化(小編注:這裡是指MySQL HeatWave加入了ML的功能,實現了 Autopilot),但與 OtterTune 提供的不同。今年,Oracle 終於意識到他們不是領先的雲供應商,開始選擇在 AWS 上提供 MySQL Heatwave 的支援了。

  • Velox

2020年,Meta 開始為 PrestoDB 構建新的執行引擎 Velox。兩年後,他們宣佈了這個專案,並發表了一篇關於它的 VLDB 論文(小編注:論文為《Velox: Meta's Unified Execution Engine》)。Velox 不是一個完整的 DBMS:它沒有SQL解析器、catalog、最佳化器或網路支援。相反,它是一個具有記憶體池(memory pool)和儲存聯結器(storage connectors)的 C++ 可擴充套件執行引擎。我們可以使用 Velox 來構建一個完整的資料庫管理系統。

  • InfluxDB IOx

就像 Meta 研發 Velox 一樣,在過去兩年裡,Influx 團隊一直在開發他們的新 IOx 引擎。最終,他們在去年10月宣佈這個新引擎正式釋出 GA 版本。InfluxDB 基於 DataFusion 和 Apache Arrow 從頭構建了 IOx。值得慶幸的是,在我 2017 年警告過 Influx 的 CTO 使用 MMAP 是一個壞主意之後,他們在新系統中拋棄了 MMAP。

資料庫是我生命中第二重要的東西,所以我很高興看到去年的所有發展。

我對 AlloyDB 的看法是,它是一個簡潔的系統,包含了大量令人印象深刻的工程設計,但我覺得它並不新奇。AlloyDB 的架構類似於 Amazon Aurora 和 Neon,其中 DBMS 儲存有一個額外的計算層,可以獨立於計算節點處理 WAL 記錄。儘管谷歌雲已經有了一個可靠的資料庫組合(例如 Spanner 和 BigQuery ),但它覺得仍有必要構建 AlloyDB 來追趕亞馬遜和微軟。

值得關注的長期趨勢是 Velox、DataFusion 和 Polars 等框架的激增。再加上 Substrait 這樣的專案,這些查詢執行元件的商業化意味著所有OLAP資料庫在未來五年內將旗鼓相當。與其完全從頭開始構建一個新的資料庫,或者對現有系統進行硬分叉(例如 Firebolt 如何對 Clickhouse 進行分叉),我覺得還不如直接使用像 Velox 這樣的可擴充套件框架。這意味著每個資料庫都將具有與十年前 Snowflake 所特有的相同的向量化執行能力。由於在雲中,儲存層對每個人都是相同的(例如,Amazon 控制著 EBS/S3), 資料庫產品之間的關鍵區別將是難以量化的東西,如UI/UX和查詢最佳化。

來自 “ StoneDB翻譯 ”, 原文作者:StoneDB;原文連結:https://mp.weixin.qq.com/s/DPIZKV7ohl0ouB0tpVdeIA,如有侵權,請聯絡管理員刪除。

相關文章