Apache ShardingSphere 首篇論文被 ICDE 收錄,全球資料庫發展迎來新局面

SphereEx發表於2022-03-28


01 Apache ShardingSphere 論文被 ICDE 收錄

近日,由 Apache ShardingSphere 社群、SphereEx 以及重慶大學計算機系團隊共同撰寫的 “Apache ShardingSphere:A Holistic and Pluggable Platform for Data Sharding” 論文,被資料管理與資料庫國際頂級會議 ICDE 全文錄用,成為業界首篇關於資料分片的頂級會議論文。

ICDE(The International Conference on Data Engineering)是中國計算機協會(CCF)推薦的 A 類國際學術會議,是資料庫和資料探勘領域頂級學術會議之一,電氣與電子工程師協會(IEEE)的旗艦會議,和 SIGMOD、VLDB 並稱資料管理與資料庫領域的三大國際頂尖學術會議。

此次被收錄,代表 Apache ShardingSphere 所倡導 Database Plus 理念的工程化實踐,經過 5 年多的研發及生產驗證外,已經得到理論層面的驗證。其提出的基於資料庫之上的增強計算引擎,及內建的多層可插拔架構得到很好的印證。其研究成果獲全球頂會認可,也代表著 Apache ShardingSphere 在資料庫底層核心基礎性技術研究方面持續獲得了創新性突破。該論文印證了 關係型資料庫仍然是線上事務處理的主力,但缺乏可擴充套件性以及無法高效解決高併發問題,以及 NewSQL 資料庫會帶來額外學習成本的背景下,Apache ShardingSphere 作為一款資料庫中介軟體來連線和管理眾多已有的資料庫,已經成為一種十分友好且高效的方式。

02 驗證 Apache ShardingSphere 的科學發展路徑

Apache ShardingSphere 從誕生至今,已經走過了 6 年多時間。在旁觀者的視角看來,不論是專案本身或是開源社群,Apache ShardingSphere 都已經相當成功。

我們為什麼要完善現有的資料庫生態,而並非新建一款資料庫?

Apache ShardingSphere 旨在充分合理地在分散式的場景下利用關係型資料庫的計算和儲存能力,而並非實現一個全新的關係型資料庫。

時至今日,關係型資料庫作為支援完整事務的最優選擇,其仍然是線上事務處理的主力。但由於關係型資料庫在設計初期是針對單臺機器的,並沒有考慮到流量、資料過大時的場景,因此可擴充套件性欠佳並且無法高效解決高併發問題。在此背景下 NewSQL 應運而生,New 就意味著是從零開始開發的資料庫。雖然適合現在的應用場景,但其還沒有大量接受過真實生產環境的檢驗,並且還會為企業的維護人員帶來額外學習成本。

在此背景下,Apache ShardingSphere 也一步步從工具發展到生態,立足點越來越高,影響範圍越來越廣,這樣的系統打破了關係型資料庫架構的限制。目前,Apache ShardingSphere 已更新至 5.1.0 正式版。伴隨著此次更新,Apache ShardingSphere 也正式將產品定位轉向以 Database Plus 為核心的全新領域,旨在構建多模資料庫上層的標準和生態。 除在資料庫上層提供強大的增量能力之外,Database Plus 架構也為開發者和使用者開放了高度可擴充套件的資料庫生態,幫助使用者站在資料庫的上層視角,更多關注資料庫之間的協作。

Apache ShardingSphere 的多重特性

  • 可插拔

Apache ShardingSphere 專案採用微核心 + 三層可插拔模型,使核心、功能元件以及生態對接完全能夠靈活的方式進行插拔式擴充套件,開發者能夠像使用積木一樣定製屬於自己的獨特系統。在 Apache ShardingSphere 的框架下,所有功能均可通過積木化的形式組裝到 ShardingSphere 體系中,且可以疊加使用。而在開發者面向標準的 SPI 程式設計中,核心對增量功能是無感知的,所以 ShardingSphere 在實際的應用場景中可以靈活組合多個功能模組,為使用者提供無限的想象空間。

此外,Apache ShardingSphere 是基於 SPI(Service Provider Interface,一種 Java 語言中的服務發現機制)和多種設計模式設計的。因此,更多型別的資料庫、功能、分片演算法都能夠非常方便地加入、移除以及自由組合。

其中,作為研發 ShardingSphere 的起源訴求,資料分片一直以來都是 ShardingSphere 的重要特性之一。對於許多使用者來說,分片功能也是其使用 ShardingSphere 的初期原因之一。綜合來看, 對關係型資料庫進行資料分片操作,以水平資料分片的方式突破單臺機器儲存量的限制,是基於現有情況下更適合於企業的解決方案。

  • 高效能

論文中提到,重慶大學與 SphereEx 在 Sysbench 和 TPCC 這兩個測試環境下進行了多輪實驗,驗證了在相同的配置下 Apache ShardingSphere 的效能都優於大多數分片系統和新架構資料庫。詳細資料可參照下圖:


(Sysbench 測試結果)


(使用 TPCC 對不同分散式系統的比較)

03 結語

Apache ShardingSphere 目前已經在數百家海內外企業的生產環境中得到應用,涉及網際網路、遊戲、銀行、保險、證券、製造業、電信、新零售、政府等多個行業,已得到多個真實生產場景的驗證。

隨著本篇論文被 ICDE 收錄,也標誌著學術界對 Apache ShardingSphere 理念的認可,將會為資料庫行業發展、提升資料處理效能等方面提供新的解決思路,也為關係型資料庫應用分散式能力、可插拔架構的普及、資料庫上層生態的建設奠定了堅實的理論基礎。

通過本篇論文,希望 Apache ShardingSphere 在該領域下的探索可以啟發到其他資料庫領域的開發者與學者,共同繁榮資料庫生態,將資料庫打造為更加貼合業務場景的資料服務平臺而努力。

⏰ 論文原文後續將在公眾號及 ICDE 官方發出,歡迎大家關注。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70001955/viewspace-2884529/,如需轉載,請註明出處,否則將追究法律責任。

相關文章