陽振坤:從電動汽車看分散式資料庫的發展和崛起

OceanBase資料庫發表於2022-02-23
電動汽車與分散式資料庫,看似兩個風馬不相及的事物,其發展路徑卻極為雷同:兩者都在較早期被發明,但都沒有成為主流。

21 世紀初,受環境保護、溫室效應和能源短缺等因素影響,電動汽車再次進入人們的視野,其核心價值卻是自動駕駛,技術門檻非常高,需要具備十分複雜的實時系統。同樣是 21 世紀初,由於網際網路業務的高併發和海量資料等處理需求,分散式資料庫再次被提及,並掀起應用熱潮,但分散式資料庫的核心價值是單個系統同時進行聯機事務處理與聯機分析處理的能力(HTAP),同樣是高技術門檻,需要具備十分複雜的實時系統。

有需求便會有供給,市面上出現兩種新的產品:混合動力汽車與分庫分表資料庫。混合動力汽車看似兼備燃油汽車和電動汽車的優點,卻由於燃油發動機不能無級平滑調速而無法實現自動駕駛;分庫分表資料庫看似兼備集中式資料庫和分散式資料庫的優點,但因為分庫分表中介軟體把資料分拆到多個資料庫,所以無法實現 HTAP。

本文將對電動汽車與分散式資料庫的發展進行分析對照。


01  夾縫求生

1886 年 1 月 29 日,德國人卡爾·本茨(Karl Benz)申請了三輪汽車的專利(見圖1)[1],這一天被稱為現代汽車誕生日。同年,德國人哥德利普·戴姆勒(Gottlieb Daimler)製成世界上第一輛四輪汽車。

陽振坤:從電動汽車看分散式資料庫的發展和崛起

圖1:世界上第一個汽車專利證照,卡爾·本茨,1886年 

1963 年,美國通用電氣公司的查爾斯·巴赫曼(Charles Bachman)等人開發出網狀資料庫 IDS(Integrated Data Store,見圖2)[2],被認為是第一個資料庫。

陽振坤:從電動汽車看分散式資料庫的發展和崛起
圖2:資料的隨機存取,通用電氣公司,1962年

從 20 世紀初至今,一百多年的時間裡,燃油汽車都是汽車的絕對主流。事實上,電動汽車還先於燃油汽車誕生。法國發明家古斯塔夫·特魯維 (Gustave Trouvé) 於 1881 年發明了電動三輪汽車,並在巴黎市中心的瓦盧瓦街頭試車成功(見圖3)[3]。儘管如此,由於燃油以及發動機在功率體積比和功率重量比等方面的顯著優勢,燃油汽車成為汽車領域的首選。

陽振坤:從電動汽車看分散式資料庫的發展和崛起
圖3:世界第一輛電動汽車(1881年)   

類似地,從資料庫系統誕生的近六十年的時間裡,集中式資料庫是聯機事務處理(OLTP)的唯一選擇,儘管 1987 年出現 Ingres Star 分散式資料庫(見圖4)[4],但分散式事務的效能以及分散式系統的複雜性,使得分散式資料庫僅在近十年資料量非常大的聯機分析處理(OLAP)場景得到了一些應用。

陽振坤:從電動汽車看分散式資料庫的發展和崛起
 圖4:分散式資料庫 Ingres Star 系統架構

02  時來運轉

正所謂“誰無暴風勁雨時,守得雲開見月明”,形容電動汽車與分散式資料庫的生存轉機再合適不過。

21 世紀以來,人類面臨環境汙染、大氣溫室效應和能源短缺等的嚴峻挑戰,全球數以億計的燃油汽車,其汙染物排放、二氧化碳排放和能源消耗不計其數,促使人們尋求無汙染、零排放、低能耗的汽車。
得益於大容量蓄電池和快速充電技術的發展,電動汽車再次進入人類視野。然而,電池大約 260 千瓦時/立方米的能量密度依然遠低於汽油和柴油的8600和9600千瓦時/立方米的能量密度,通俗地講,汽車行駛需要能量,假設某個體積的電池包含的能量可以讓汽車行駛 260 公里,那麼同樣體積的汽油和柴油所包含的能量可以分別讓汽車行駛 8600 公里和 9600 公里,區別由此可見。而且,隨著環境溫度的降低,電池儲電量會顯著下降,這些因素導致電動汽車的續航里程不足,需要充電數小時的電池與幾分鐘就能加滿的油箱更是無法比擬。

因此,傳統汽車廠商更多地選擇製造混合動力汽車,即在燃油汽車上增加電池動力作為輔助,堵車或低速行駛時採用電池作為動力以節約能源並降低汙染物排放,正常行駛或高速行駛時則採用燃油作為動力。此外,一些新興汽車廠商如特斯拉等,則徹底摒棄燃油方案,開發了純粹以電池作為動力的電動汽車,也稱為純電動汽車。

與此同時,科技的進步與網際網路的普及,迫使越來越多的企業進行數字化轉型,在人與人更便捷的互聯互通、社會更加智慧化的背後,是對業務系統越來越頻繁的併發訪問、越來越龐大的資料處理量。集中式資料庫昂貴的成本及其儲存和計算極為有限的擴充套件能力都顯得捉襟見肘,企業不得不尋求價效比更好、儲存和計算擴充套件能力更強的資料庫。

分散式技術的發展和雲端計算的普及使分散式資料庫“浮出水面”。然而,受限於分散式資料庫更加複雜、故障定位更加困難、分散式事務效能有所降低、系統成熟度有所不足等因素,傳統資料庫廠商選擇“業務分庫分表+中介軟體”的解決方案,即基於集中式資料庫,對業務進行較大幅度的改造和拆解、拆分,使每個拆解、拆分後的部分適合於單個集中式資料庫,這就是分庫分表資料庫。

當然,也有一些新興資料庫廠商如 OceanBase 摒棄了基於集中式資料庫的解決方案,開發真正的分散式資料庫,也稱為原生分散式資料庫。值得一提的是,原生分散式資料庫實現了一體化 OLTP+OLAP,旨在一個系統中進行聯機事務處理與分析處理,但真正實現“一體化”的方案極其困難。     

在很多人看來,電動汽車就是汽車把發動機和燃油換成了電動機和電池:

  • 燃油汽車 = 發動機+燃油 + 底盤 + 車身 + 電氣裝置

  • 電動汽車 = 電動機+電池 + 底盤 + 車身 + 電氣裝置

倘若如此,傳統汽車廠商憑藉自身在大規模汽車生產、銷售和服務等方面的豐富經驗,在電動汽車領域獲得成功似乎不是什麼問題。

事實並非如此。首先,2020 年,電動汽車的王者玩家——特斯拉的市值超越了豐田,成為全球市值最高的汽車公司,緊接著在 2021 年,又超過了包括豐田汽車、大眾汽車、戴姆勒、通用汽車、法拉利和寶馬等在內的全球主要汽車公司市值的總和。再來看這一組資料:2021 年,特斯拉新車交付量突破 93 萬輛,營收 538.23 億美元,GAAP 淨利潤為 55.19 億美元;同期,豐田交付約 1,050 萬輛新車,淨利潤 211.7 億美元。

為什麼資本市場如此青睞特斯拉?為什麼投資者認為特斯拉有很大的成長空間?

顯然,特斯拉邁過了年產 20 萬輛車的生死線,並同時保持很高的毛利率和很快的增長速度,這是資本市場青睞特斯拉的前提條件。特斯拉的核心競爭力包括其電池管理等重要技術。當然,最根本的原因是特斯拉的自動駕駛系統:

  • 悠閒舒適是個人亙古不變的追求,自動駕駛能夠極大地降低汽車駕駛的勞動強度。

  • 降本增效是企業永無止境的追求,自動駕駛不僅節省了人力,還能夠顯著地提升汽車利用率(比如後半夜、高原地區等高風險駕駛環境以及其他不適合人工駕駛的場景),從而極大地降低汽車總體擁有成本。

  • 電動機可以無級平滑調速,這是自動駕駛的必要條件,發動機無法做到這一點,因此燃油汽車和包含發動機的混合動力汽車也就無法實現自動駕駛。

  • 自動駕駛系統是十分複雜的實時系統,需要長時間的、大量的實際場景打磨,門檻極高。這個極高的門檻,以及傳統車載軟體與自動駕駛系統的巨大差異,使傳統汽車廠商轉型到純電動汽車以及進行自動駕駛技術的積累,都面臨極大挑戰。

類似地,在很多人看來,分散式資料庫就是把資料庫的集中式的儲存和計算硬體換成了分散式的儲存和計算硬體:

  • 集中式資料庫系統 = 集中式儲存+計算硬體 + SQL 子系統 + 事務子系統 + 儲存子系統

  • 分散式資料庫系統 = 分散式儲存+計算硬體 + SQL 子系統 + 事務子系統 + 儲存子系統

倘若如此,傳統資料庫廠商憑藉自身在資料庫的研發、推廣和服務等方面的豐富經驗,在分散式資料庫領域獲得成功似乎不是什麼問題。
實際情況也並非如此:

  • 悠閒舒適是個人亙古不變的追求,原生分散式資料庫能夠用一個系統同時滿足使用者 OLTP 和 OLAP 的需求,即 HTAP,避免了資料在 OLTP 和 OLAP 兩個系統之間的複製、轉換和載入(ETL),極大地簡化了使用者的操作,還避免了 ETL 導致的資料一致性問題。

  • 降本增效是企業永無止境的追求,原生分散式資料庫一個系統、一份儲存,成本顯著低於 OLTP 和 OLAP 兩個系統的兩份儲存,不僅顯著降低使用者總體擁有成本,還避免了 ETL 導致的資料時效問題。

  • 分庫分表把業務及資料分拆到多個資料庫,因此分庫分表資料庫無法實現 HTAP。

  • 集中式資料庫聯機事務處理已經是開發困難且十分複雜的實時系統,分散式聯機事務處理的開發則更加複雜和困難,需要長時間的、大量的實際場景打磨,門檻極高。這個極高的門檻,以及傳統集中式資料庫與原生分散式資料庫在 SQL 最佳化器、事務處理和儲存架構等方面的顯著差異,使傳統資料庫廠商轉型到原生分散式資料庫並實現 HTAP 面臨很大的挑戰。

話雖如此,但不得不承認的是,特斯拉的自動駕駛系統還有待進一步成熟,一些人對自動駕駛的安全性和可靠性依然心存疑慮;原生分散式資料庫的 HTAP 功能還有待進一步成熟,一些人對 HTAP 是否能夠真正適用於生產系統依然心存疑慮。因此,使用體驗就成了最好的廣告。特斯拉因其長途續航、提速快以及自動駕駛的全新體驗等特性,收穫了眾多“特迷”。它也是全球唯一一家取得 NHTSA 五星碰撞安全等級的電動汽車品牌;原生分散式資料庫因其高可用、低成本、智慧運維、機器利用率高等特性,獲得銀行、證券、能源、電力、社保等眾多行業的信任,並被應用到了企業核心業務場景中。

03  開源開放

如果說上述內容是從社會發展與科技進步的宏觀環境對比電動汽車與分散式資料庫的成長軌跡,它們是如此的相似,那麼在微觀層面如某項產品的發展,電動汽車與分散式資料庫的發展軌道形狀也非常雷同,兩者都遵循著“從大到小”的發展策略與開源開放的心態。

從大到小

電動汽車以特斯拉為例,從跑車到高階型 SUV,再到緊湊型 SUV 與小轎車,從面向小眾到面向大眾;原生分散式資料庫的代表 OceanBase 從叢集版逐漸演變出單機版,從面向龐大業務到兼顧小型業務。

這背後的發展邏輯是什麼?

在一款汽車剛誕生時,沒有訂購量,更不會快速獲得利潤,因此,要做量產少、利潤大的產品,後期當成本得以控制時,再量產利潤空間小的產品。同樣對於資料庫來講,比如 OceanBase 首先在支付寶這樣海量資料的場景中落地,由於大業務不那麼在意成本、機器配置,使用大容量的硬碟就比較容易,利用高配置環境支撐業務,再逐步最佳化,達到即便使用小配置,也能支撐大業務的目標。

開源開放

2014年,特斯拉宣佈開放所有專利,在所有人懷疑其背後動機的時候,特斯拉已經認識到了自動駕駛是對汽車行業的顛覆性創新,即使其他企業擁有同樣的電動汽車製造能力,特斯拉也自信其能夠保證在電動汽車市場的領導地位。彼時人們對電動汽車的認可度還很低,特斯拉需要的是電動汽車產業崛起。

2021年,OceanBase 宣佈原始碼開源,與外界共享全球最領先的原生分散式資料庫的核心。同樣面對外界的質疑。OceanBase 堅定開源,一方面希望聚焦使用者價值,解決使用者的具體問題,另一方面期望與外界共建國產分散式資料庫的生態,從另一條賽道超越“IOE”。

二者對開源技術的態度,正如《矽谷鋼鐵俠》一書中所描述的那樣:“當馬斯克在2014年宣佈特斯拉將公開其所有專利時,分析師們試圖確定他是不是在作秀或者其中是否隱藏了不明動機或者圈套。但馬斯克的決定就是這麼坦率,他希望人們製造併購買電動車。馬斯克認為,人類的未來取決於此。如果公開特斯拉的專利意味著其他公司能夠更容易地製造出電動車,那麼這對人類來說是有利的,這些理念應該是免費的。憤世嫉俗的人一定會嘲笑他的觀點,但馬斯克已經計劃好這麼做,他在解釋自己的想法時是真誠的,而且極為真誠。”  


04  面向未來

今天,在汽車領域,純電動汽車得到了越來越高的認可:

  • 特斯拉 Model 3 標準車型,廠家標稱續航里程達到了 675km,超級充電樁 15 分鐘最大增加 279km 續航里程,續航里程和充電速度都在靠近燃油車。

  • 2021 年底,大眾汽車宣佈,2026 年純電動汽車佔比 25%,2030 年純電動汽車佔比 50%,2040 年純電動汽車接近 100%。

  • 2019 年,寶馬的研發總監還在怒懟純電動汽車:“歐洲不需要純電動汽車,而燃油汽車至少還能存在 30 年以上的時間”,然而,2021 年底,寶馬宣佈 2030 年純電動汽車至少佔比 50%。

  • 2021 年底,豐田汽車宣佈將在 2030 年前推出 30 款純電動汽車。

今天,在資料庫領域,原生分散式資料庫取得了很大的進步,越來越多 benchmark[5] 的榜首被原生分散式資料庫所佔據:

  • 國際事務處理效能委員會 TPC 的聯機事務處理 TPC-C 效能榜,其榜首位置被 OceanBase 原生分散式資料庫在 2020 年 5 月佔據,效能約 7.07 億 tpmC。

  • 國際事務處理效能委員會 TPC 的決策支援處理 TPC-DS 效能榜,10,000GB 榜首位置被 Alibaba Cloud AnalyticDB 原生分散式資料庫在 2020 年 6 月佔據,效能約 19M QphDS;100,000GB 榜首位置被 Databricks Photon Engine 原生分散式資料庫在2021年11月佔據,效能約 33M QphDS。

  • 國際事務處理效能委員會 TPC 的決策支援處理 TPC-H 效能榜,10,000GB、30,000GB 和 100,000GB 榜首位置均被 EXASOL 原生分散式資料庫在 2021 年 6 月佔據,效能大約都是 23M QphH。 

此外,原生分散式資料庫在行業內也得到了越來越高的認可和越來越廣泛的應用。2020 年 11 月,中國人民銀行正式釋出分散式資料庫金融行業標準,包括《分散式資料庫技術金融應用規範 技術架構》、《分散式資料庫技術金融應用規範 安全技術要求》和《分散式資料庫技術金融應用規範 災難恢復要求》這三部分,以指導金融行業的分散式資料庫實踐。近幾年,不僅網際網路行業大量採用原生分散式資料庫,越來越多的銀行、保險、證券、通訊、能源和社保等行業的企業和機構也採用了原生分散式資料庫。

自動駕駛是純電動車對汽車行業的顛覆式創新,純電動汽車是汽車發展的必然選擇;HTAP 是原生分散式資料庫對資料庫行業的顛覆式創新,原生分散式資料庫是資料庫發展的必然選擇。

*本文轉載自微信公眾號 CSDN(ID:CSDNnews)。


往期推薦:
“熱搜”中的分散式資料庫
2021 OceanBase 年度報告 | 用技術讓海量資料的管理和使用更簡單!
2022 OceanBase 技術徵文大賽正式開啟!快來釋放你的原力!
教程直播第8期|一文詳解 OceanBase 社群版生態工具 ODP & OCP


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69909943/viewspace-2857385/,如需轉載,請註明出處,否則將追究法律責任。

相關文章