2021 年資料庫報告:PostgreSQL 成開發者首選 | Benchmark 測試陷“混戰”

MissD發表於2022-02-16

剛剛過去的 2021 年底,不少技術領域都對過去一年取得的成果和下一年發展趨勢做了回顧。作為資料庫領域備受關注的開源專案,OtterTune 也在年底出爐了一份 “2021 年資料庫”回顧報告。

據該報告顯示,隨著開發者的習慣發生轉變,PostgreSQL 已憑藉高可靠性及功能豐富等優勢成了廣大開發者們的新應用首選。過去的一年裡,資料庫社群依舊熱衷“Benchmark 效能測試爭奪戰”,也引發了關於一場資料庫公司的投資募資大賽,一些老牌公司被收購或破產......總之,一系列令人瞠目結舌的變化,可謂非常“精彩”了。

下面是關於本次報告的主要部分,一起來看看吧!

PostgreSQL 主導地位“凸顯”

過去的一年裡,開發人員的傳統觀念發生了轉變:PostgreSQL 已成為他們首選的新應用程式。

據悉,早在 2010 年,PostgreSQL 開發團隊就轉向了更積極的釋出計劃,每年釋出一個新的主要版本(H/T Tomas Vondra)(當然,PostgreSQL 是開源的)。

相容性是 PostgreSQL 相比現在許多系統的一個顯著特點。這種相容性是通過支援 PostgreSQL 的 SQL 方言(DuckDB)、wire 協議(QuestDB、HyPer)或整個前端(Amazon Aurora、YugaByte、Yellowbrick)實現的。該優勢也吸引了不少大公司紛紛加入 —— 去年 10 月份,谷歌宣佈在 Cloud Paner 中增加了PostgreSQL 相容性;同樣在 10 月,亞馬遜宣佈了將 SQL Server 查詢轉換為 Aurora PostgreSQL 的 Babelfish 功能。

衡量資料庫受歡迎程度的一個指標,就是“DB-Engine rankings”資料庫引擎排行榜。儘管該排名並不完美,分數也有點主觀,但它仍然是前 10 名系統的合理近似值。

據 “DB-Engine rankings”資料庫引擎榜單顯示,截至 2021 年 12 月,PostgreSQL 排在最受開發者歡迎的資料庫(Oracle、MySQL 和 MSSQL 之後)第四名,在過去的一年中 PostgreSQL 進一步減少了與 MSSQL 的差距。

另一個要考慮的趨勢,就是 PostgreSQL 線上上社群中被提及的頻次(這為人們在資料庫中談論的內容提供了另一個訊號)。

據 PostgreSQL 創始人 Andy Pavlo 統計,(通過下載資料庫中的 2021 個註釋,並對 PostgreSQL 資料庫名稱的頻率進行統計,交叉引用了從資料庫資料庫中瞭解到的每個資料庫的列表,並對縮寫進行整理,如Postgres → PostgreSQL,Mongo→ MongoDB,ES→ Elasticsearch),然後計算出最受關注的 10 個 DBMS:

儘管這個排名並不科學(因為沒有對評論進行情緒分析),但它也清楚地表明,相較於其他資料庫,PostgreSQL 被人們提及的頻次要更多。經常有開發者發帖詢問新應用程式該使用什麼 DBMS ,社群成員對此的回答幾乎都是 PostgreSQL。

對此趨勢,Andy Pavlo 也發表了自己的觀點:

首先,關係型資料庫系統已經成為“初創網站”應用程式的首選,這是一件好事。這顯示了 Ted Codd (關係型資料庫之父)從 20 世紀 70 年代開始的關係型模型的持久力。其次,PostgreSQL 是一個很棒的資料庫系統。儘管它也有已知的問題和黑暗的角落,就像每個 DBMS 一樣。但是,有了如此多的關注和活力,PostgreSQL 會在未來幾年變得更好。

Benchmark 效能測試“大混戰”

報告顯示,2021 年裡不同的資料庫供應商之間對“Benchmark”測試結果沒有什麼好感。

想要證明自己的系統比競爭對手快的供應商可以追溯到 20 世紀 80 年代末。這就是為什麼 TPC 的成立是為了提供一個“無黨派”論壇來主持。但隨著 TPC 的影響和流行在過去十年中逐漸減弱,人們現在發現自己陷入了新一輪的資料庫“Benchmark”大混戰。

今年,圍繞 Benchmark 測試方面,主要有三場愈演愈烈的“街頭混戰”。

Databricks vs.Snowflake

此前,Databricks 宣佈,該公司的新 Photon SQL 引擎在 100TB TPC-DS 方面創造了新的世界紀錄。Snowflake 立刻回擊,稱他們的資料庫比這個快了 2 倍,且 Databricks 錯誤地執行了 Snowflake。Databricks 則反駁稱,他們的 SQL 引擎提供了優於 Snowflake 的執行和價效比。

Rockset vs.Apache Druid vs.ClickHouse

ClickHouse 之前也釋出訊息稱,與 Druid 和 Rockse 相比,他們的成本效率非常高。先別急:作為回應,Imply 對 Druid 的新版本進行了一系列測試,並宣告了勝利。隨後,Rockset 也加入了進來,稱其實時分析效能優於其他兩款。

ClickHouse vs.TimescaleDB

與此同時,Timescale 嗅到“血腥”,也立即“參戰”。他們給出了自己的 Benchmark 測試結果,並藉此機會指出了 ClickHouse 技術的弱點。此後,關於第三方 Benchmark 測試的討論成了 Hacker News 的熱點話題。

對此現象,Andy Pavlo 評論稱:在之前的 Benchmark 地盤爭奪戰中,資料庫社群“流了太多的血”。作為一個曾經也參與過這個遊戲的一員,自己因此上去了很多,所以現在可以肯定的說 —— 這不值得!由於雲資料庫管理系統有太多的活動部件和可調選項,因此通常很難確定效能差異的真正原因。真正的應用程式不僅僅是一個接一個地執行相同的查詢,接收、轉換和清理資料時的使用者體驗與原始效能資料一樣重要。正如此前自己發表的相關評論 “只有老年人關心 TPC 的官方資料”。

Big data:大資料,大投資

據相關資料顯示,自 2020 年下半年以來,價值至少 1 億美元的風險投資輪數量一直在穩步增長。光 2020 年,這些大型交易就有 327 宗(僅不到風投交易總量的一半)。截至 2021 年 1 月,有超過 100 家風險投資投資輪價值超過了 1 億美元。

2021 年裡,許多投資資金被投向了資料庫公司。在事務型資料庫領域,CockroachDB 以 160 萬美元領跑募資大賽,截止 2021 年 12 月該公司募資金額已高達 2.78 億美元。與此同時,Yugabyte 也完成了 1.88 億美元的 C 輪融資。作為 Vitess 的託管版本,PlanetScale 開啟了 2000 萬美元的 B 輪融資,而 DataStax 也在一輪風投中為其 Cassandra 業務募集到了 3760 萬美元。

儘管上面這些數量已經足夠讓人大開眼界了,但分析型資料庫市場比這更加火熱。2021 年 9 月,TileDB 完成了一輪未透露具體金額的融資引發業界關注,而Vectorized.io 也為其相容 Kafka 的流式平臺募集到了 1500 萬美元。StarTree 更是直接宣佈完成了一輪 2400 萬美元的商業化 Apache Pinot 專案融資。隨後,matviews-on-steroids DBMS Materialize 宣佈他們在 C 輪融資中募集到了 6000 萬美元,Imply 公司也為其基於 Apache Druid 的資料庫服務籌集到了 7000 萬美元,還有 SingleStore 公司在 2021 年募集到了 8000 萬美元,這讓他們離 IPO 更近了一步。

2021 年年初,Starburst Data 公司為其 Trino 系統(前身為 PrestoSQL)籌集了 1 億美元。另一家祕密成立的 DBMS 初創公司 —— Firebolt 則宣佈他們為其基於 ClickHouse 分支的新型雲資料籌集了 1.27 億美元。新公司 ClickHouse.Inc.也籌集了驚人的 2.5 億美元......

儘管如此,但以上募資都不及 Databricks ,其最大的資金來源是 2021 年 8 月籌集了 1.6 億美元,這也讓其他所有人驚掉了下巴。

對此,Andy 評論稱:我們正處在資料庫的黃金時代,有很多很好的選擇。投資者們正在尋找能夠成為“下一次雪花”般 IPO 的資料庫初創公司,而這些籌款金額比以前的資料庫初創公司要多(如 Snowflake 在推出 D 系列產品前,其售價還未超過 1 億美元。Starburst 在成立不到三年的時間內完成了一輪價值 1 億美元的融資......)現在有很多因素與資金有關,但如今有更多的資金投入。

In Memoriam:紀念 or “緬懷”

過去的一年裡,也有一些令人遺憾的事情,比如去年我們也“告別”了一些資料庫領域的朋友。

ServiceNow 收購 Swarm64

Swarm64 公司最初是一家 FPGA 加速器,用於在 PostgreSQL 上執行分析工作負載。隨後,該公司轉而成為使用擴充套件的 PostgreSQL 的純軟體加速器。但它們未能獲得後續發展動力,尤其是與其他資金充足的雲資料倉儲相比。在被 ServiceNow 收購之後,Swarm64 仍未有任何關於 Swarm64 產品的後續訊息。

Splice Machine 破產

Splice 正在推出一種混合(HTAP)DBMS,它結合了針對事務型任務的 HBase 和針對分析的 Spark SQL。然後,他們推動為操作/實時 ML 應用程式提供一個平臺。但由於專用 OLTP 和 OLAP 系統的主導地位,一體式混合系統未能在資料庫市場取得進展。

私募股權公司收購 Cloudera

過去的幾年裡,MapReduce 和 Hadoop 技術逐漸更不上潮流,Cloudera 在雲資料倉儲市場上也就沒有了同樣的吸引力。Impala 和 Kudu 的大多數原始工程團隊已經離開了公司,儘管這些專案仍在開發中,但併發布新版本。自 2018 年以來,該股已跌至低於其 IPO 價格。該公司的新投資者能否扭轉公司的頹勢還有待觀察。

“看到資料庫專案或公司倒閉,總是令人難過的事情,但這就是資料庫行業的本質”。Andy 表示,開源或有助於 DBMS 比建立它的公司更長壽,但並不總是如此。由於其複雜性,資料庫需要全職工作人員來修復缺陷並新增新功能。移動原始碼許可權和即將失效的 DBMS 控制到開源軟體基金會(如 Apache 基金會或 CNCF)並不意味著該專案將奇蹟般地復甦。預計明年會有更多的資料庫公司破產,這將會讓很多公司無法與主要的雲供應商和上述資金充足的初創公司競爭。

挑戰與機遇

後疫情時代對許多人來說,都會是一個比較艱難的時期,但有挑戰就會有機遇。

早在 2015 年,甲骨文聯合創始人 Larry Ellison 還是全球第五首富。但世事難料,2018 年這位億萬富翁就從排行榜上跌至第 10 位。

好在事情發生了轉機,在 2021 年 12 月,因為甲骨文的股票在過去的 20 年裡迎來了第二次大漲,公司業績比預期要好, Larry Ellison 一天就賺了 160 億美元,這讓他直接超越了谷歌 Larry Page 和 Sergey Brin,重回全球第五首富。

這個的故事,相信對於資料庫社群及所有人來說,無疑都是振奮人心且感人的。對於同樣將資料庫視為自己生命裡除家庭外最重要部分的 Andy 來說更是如此。

總之,資料庫是一個具有非凡韌性和創新能力的行業,我們共同期待 2022 年定會是個光明的一年。

檢視完整報告:https://ottertune.com/blog/20...

相關文章