引領雲數倉創新浪潮 HashData閃耀PostgreSQL中國技術大會

HashData發表於2023-03-07

3月3日-3月5日,第12屆PostgreSQL中國技術大會在杭州舉行。本次大會以“突破•進化•共贏——安全可靠,共建與機遇”為主題,以線上+線上結合的方式,邀請了PG領域眾多行業大咖、學術精英及技術專家,共同探討資料庫未來的發展動態、技術突破、實踐案例和生態合作等話題。

HashData作為國內領先的PG技術棧實踐者和重要的社群貢獻者,受邀參加本次大會。來自HashData的技術專家團隊,為觀眾呈現了雲數倉發展趨勢、向量化與並行化實踐等精彩演講。

圖:HashData聯合創始人馬濤


資料倉儲雲服務的再演進

強大的功能、友好的運維要求和豐富的生態使得PostgreSQL廣受歡迎。然而隨著雲端計算的快速興起,使用者對基於雲原生架構的資料倉儲需求引領了行業新一代技術棧的發展。

在《資料倉儲雲服務的再演進》的主題演講中,HashData聯合創始人馬濤從DWaaS(資料倉儲即服務)技術演進、架構升級等角度闡述了雲數倉未來技術發展趨勢。


在馬濤看來,與傳統數倉相比,雲數倉在搭建、使用、擴容、運維等成本方面有著顯著的優勢,“傳統數倉使用者完成擴容或者遷移,通常需要兩三週的時間”。


在這樣的背景下,DWaaS成為當下數倉領域的熱門話題。馬濤認為DWaaS應該具備配置和管理工作更簡單、迅速的載入和使用資料、完善的生態系統、支援多元化資料的處理、強一致的資料管理機制、多種計算任務需求等特性。同時,還能夠提供高可用系統和資料保護系統,按實際使用計費,滿足使用者對雲端計算彈性計費的預期。

基於過去服務眾多大型企業客戶所積累的豐富實踐經驗,HashData提出了雲端架構2.0的概念。與上一代雲原生架構相比,HashData雲端架構2.0在資源管理、查詢最佳化、容器化服務等方面實現了全方位提升。


濤認為,容器化服務已經成為公有云基礎設施。資料庫核心模組的容器化,能夠充分發揮容器化技術的優勢,更快地建立和啟動模組,從公司內部研發測試到客戶環境,都將會產生巨大的變革。 HashData雲端架構2.0將以容器化技術為基石,為客戶帶來更好的使用體驗。


在閘道器服務方面,HashData雲端架構2.0相容PostgreSQL二進位制協議,無縫與libpq/PostgreSQL JDBC等元件相容;支援更多安全配置的HashData企業認證授權服務;支援透過SQL語句管理整個雲服務;支援切換不同計算叢集,更加高效地利用硬體資源,更容易實現負載均衡。


在查詢最佳化服務/資源管理服務方面,HashData雲端架構2.0中查詢最佳化器和作業資源管理服務進一步實現無狀態化,提升這兩個模組在業務執行中的容錯度,減少故障引起的業務中斷和資源浪費。最佳化服務能夠按照實際資料儲存資訊、動態執行取樣,以及進行智慧查詢計劃快取;作業資源管理服務能夠實現全域性資源排程、全域性資源監控和作業排程。透過將模組拆分成獨立服務,有助於提高硬體的資源利用效率。


在計算服務方面,HashData雲端架構2.0支援計算叢集的自動啟動/自動停止功能、增強無狀態計算服務節點的可靠性、支援基於負載的自動擴縮容,引入了基於Arrow的向量化執行引擎,增強了物件儲存檔案的快取系統。


馬濤介紹,經過實際測試,原本客戶從註冊到實現資料庫可用需要數分鐘的時間,而基於HashData雲端架構2.0容器化平臺改造之後,整個的操作過程只需要大約10秒鐘即可完成。


“從使用者的實際使用需求出發,我們希望儘可能地降低使用者搭建和使用數倉的時間和成本”,馬濤說,HashData致力於降低資料分析的門檻,“讓使用者專注於核心資料分析上,而不是應對大量的配置以及管理工作。”

Cloudberry向量化與並行化實踐

在“國產信創及資料庫遷移”技術專場上,HashData核心工程師宋東曉分享了Cloudberry向量化與並行化實踐。

近年來,隨著海量資料的積累,資料分析的需求進一步提升。 PostgreSQL作為 一個有著悠久歷史的開源資料庫,其穩定性和靈活性得到廣泛認可,很多企業也選擇PG作為單機底層架構,來構建大型分散式系統。


傳統資料庫執行查詢計劃通常採用火山模型的方式,存在重複性執行多、反序列化代價高、資料區域性性差等缺陷。如今,隨著雲端計算技術的蓬勃發展,經典的SQL計算引擎逐漸成為資料庫系統的效能瓶頸,尤其是對於涉及到大量計算的OLAP場景。


於像HashData這樣採用雲架構的資料倉儲而言,向量化可以透過提升單節點的執行能力,使整個叢集的運算效能得到大幅度提升。
宋東曉介紹,HashData在實現向量化的過程中,採用了Apache軟體基金會開源專案Apache Arrow。Arrow定義了標準的方式來表示可有效處理的記憶體資料,同時支援多種流行的程式語言,包括 Java、C、C++ 和 Python等。

OLAP場景普遍採用列式儲存。列存資料的高壓縮比不僅節約了儲存空間,同時在向量化運算過程中也有著天然的效能優勢。


HashData即將釋出的Cloudberry產品,採用了向量化執行外掛,功能更獨立,工程管理更方便,實現在不影響PG功能的基礎上,加速資料分析效能。同時,Cloudberry全面整合了PG14.4核心,在資料庫層面做了多處最佳化,尤其在並行化處理能力方面實現了大幅提升。

宋東曉認為,向量化的關鍵在於儘可能地減少公共流程的呼叫次數,從而降低整體的函式呼叫,同時也可以更好地利用資料區域性性優勢來提升cache命中率,並且可以利用SIMD指令做進一步加速。


此外,Cloudberry基於Arrow和其子專案Gandiva實現了一個既可以支援普通列式運算也可以支援JIT式的表示式計算框架。


在並行化方面,Cloudberry借鑑了PG14.4核心中的共享記憶體技術,透過讓每一個執行器的運算節點在共享記憶體裡競爭資源來自動獲得負載平衡,從而實現啟動多個程式,成倍降低運算時間。


HashData融合了傳統資料庫和雲端計算技術優勢,相容PostgreSQL和Greenplum Database生態,生於雲上,長於雲上,助力企業在雲端計算時代下的數字化轉型。


憑藉領先的技術架構和豐富的實踐經驗,HashData目前已在金融、政務、能源、交通、網際網路等行業實現大規模商用部署。


來,HashData將持續專注於PG領域技術創新,積極擴充生態合作伙伴,為國產資料庫生態的繁榮與發展添磚加瓦。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70019410/viewspace-2938450/,如需轉載,請註明出處,否則將追究法律責任。

相關文章