HybridDBforPostgreSQL(Greenplum)有哪些核心擴充套件

康賢發表於2017-08-29

HybridDB for PostgreSQL 是基於 Greenplum Database 開源資料庫專案開發,由阿里雲資料庫核心團隊深度擴充套件及優化,到目前為止,我們已經增加了許多功能效能,許多功能走在了社群的前面。

OSS_EXT

OSS是阿里雲物件儲存產品,OSS_EXT功能打通了HybridDB for PostgreSQL和OSS資料通道,極大地方便使用者將資料並行從OSS匯入或匯出到OSS,降低了上雲門檻,並支援通過gzip進行OSS外部表檔案壓縮,大量節省儲存空間及成本。我們測試的一個匯入效能結果: 157G資料,16個節點,510秒匯入完成,平均每個節點20M/s,節點數越多,匯入越快 詳細使用連結

列存優化

Greenplum的列儲存功能不僅可以節約表儲存空間,而且基於一列或比較少的列計算時效能很好。當然也有不足,當含有條件查詢時,如果不使用索引每次都會全表掃描,使用索引又會降低匯入效能以及索引查詢消耗大量IO。HybridDB for PostgreSQL列存優化的實現使列儲存功能優勢更加突出,主要優化在列儲存資料中收集min、max元資訊,並在查詢中使用元資訊過濾大量的資料塊,沒有索引的缺點,卻能達到索引的效能,大部分場景可以用來替代索引。

Sortkey

Sortkey(排序鍵)可以讓使用者將資料按照順序儲存在磁碟檔案中,排序鍵主要有兩大優勢,(1) 加速列存優化,收集的min、max元資訊很少重疊,過濾性很好 (2) 對於含有order by和group by等需要排序的SQL可以避免再次排序,直接從磁碟中讀取出來就是滿足條件的有序資料。合理的使用分割槽鍵和排序鍵對於效能提升是非常有效的。HybridDB for PostgreSQL排序鍵

JSONB(即將推出)

json型別幾乎已成為網際網路及物聯網的基礎資料型別,越來越多的應用對json型別依賴,HybridDB for PostgreSQL除了支援json型別和json操作符外,即將推出jsonb功能,直接相容PG 10.0 jsonb功能,豐富的操作符及函式,效能高於json。

Hyperloglog

HyperLogLog為網際網路廣告分析及有類似預估分析計算需求的行業提供解決方案,以便於快速預估 PV、UV 等業務指標。HybridDB for PostgreSQL深度融合Hyperloglog功能,兩段式聚合實現,使Hyperloglog在使用者的OLAP系統分析中發揮其強大的功能。詳細使用連結

Library

對於複雜的分析系統,一條或者幾條SQL難以滿足使用者的需求,Greenplum原生支援plpgsql實現UDF(使用者自定義函式),使用者可以可以通過plpgsql儲存過程實現複雜的SQL邏輯,然而對於學java或者python的程式猿簡直要命,plpgsql太難寫了。。怎麼辦?HybridDB for PostgreSQL支援Java UDF,使用者只需要把本地實現的jar包通過create library命令就可以匯入到HybridDB中,import一下就可以享用了。Library詳細使用連結
JAVA UDF詳細使用連結

其他

MADLIB,POSTGIS,穩定性增強、BUG修復等,歡迎使用HybridDB for PostgreSQL


相關文章