專訪偶數科技常雷:三代資料倉儲的演進

tianxiaoxu發表於2018-05-07

據相關機構預測全球大資料市場規模將在2020年達到千億美金,而資料倉儲作為資料生態系統中的重要一員,其市場規模現在已近兩三百億美金。如今,隨著大資料和人工智慧的發展,資料倉儲迎來新的挑戰和發展機遇。

  2017年10月19日-21日,在京舉辦的第九屆系統架構師大會邀請到了偶數科技創始人兼CEO常雷為我們解讀資料倉儲的演進以及新一代資料倉儲的發展。

專訪偶數科技常雷:三代資料倉儲的演進
偶數科技創始人兼CEO 常雷

  三代資料倉儲的演進

  資料倉儲最早可以追溯到20世紀80年代末期,IBM研究人員Barry Devlin和Paul Murphy為解決企業整合的問題,創造性的提出了“資料倉儲”這一術語。而其真正在企業中得到大規模應用則是始於 1992年Bill Inmon出版的《Building the Data Warehouse》,該書不僅為資料倉儲建設定義了非常具體的原則,還提出了很多建設性意見。

  從首次提出到發展至今,常雷認為資料倉儲大概可以分為三個階段,第一階段是採用共享架構的傳統資料倉儲,這類數倉主要是面向傳統的BI分析,可擴充套件性較差,大概是十幾個節點;第二階段是無共享架構的MPP,這類數倉主要是面向有複雜需求的傳統BI分析,典型的代表有Teradata、Vertica、Greenplum等等;前兩個階段的資料倉儲架構都存在缺乏彈性、不易調整、難以實現秒級擴容等問題,而新一代資料倉儲克服了這些困難,實現了彈性伸縮和靈活配置。

  新一代資料倉儲主要是面向大資料和人工智慧,支援工業標準的X86伺服器,可擴充套件到上千個節點。如果再進一步細分的話,新一代資料倉儲可分為SQL on Hadoop、SQL on Object Store和Hybrid。

專訪偶數科技常雷:三代資料倉儲的演進

  新一代資料倉儲:Oushu Database 3.0

  Oushu Database 3.0是由偶數科技在今年9月21日推出的新一代企業級分析型資料倉儲引擎,是Apache HAWQ的企業增強版本,其最核心的技術是對執行器進行了全新改進,充分利用了新硬體的特性;支援ORC外部儲存格式,外部儲存效能可提升10-50倍;支援新一代可插拔儲存框架,新增一個外部資料來源,只需編寫幾個函式。

  “光說不練假把式”,下面我們就來和最新版本的SparkSQL 2.2來做一個對比:

專訪偶數科技常雷:三代資料倉儲的演進

專訪偶數科技常雷:三代資料倉儲的演進

Count不同資料型別的列

專訪偶數科技常雷:三代資料倉儲的演進

SUM/AVG不同資料型別的列

專訪偶數科技常雷:三代資料倉儲的演進

Group by表示式

專訪偶數科技常雷:三代資料倉儲的演進

Group by不同資料型別的列, 取其SUM和AVG

  綜合各種SQL語句執行情況來看,Oushu Database的效能相比SparkSQL要快20倍左右。據常雷介紹Oushu Database可以支援PB級資料,在工業、稅務、金融和電力領域均有應用,未來會逐步開源出來。

  不懼強敵,中國資料庫蓬勃發展的時代已然來臨

  資料庫領域一直是大廠林立,但是初創企業也並不是沒有立足之地。《創新者的窘境》中曾描述過巨頭企業做的是延續性創新,對現有價值網路的維護和加強,而初創企業做的是破壞性創新,從低毛利市場出發逐步顛覆現有的巨頭企業。常雷十分認同這一觀點,創業公司打敗巨頭企業是不可逆的趨勢,關鍵是哪個創業公司會成功。

  創業是件很苦逼的事情,曾任EMC高階研究員,EMC/Pivotal研發部總監的常雷為什麼會選擇離開EMC自己創業呢?對此,他表示主要是出於兩方面的考慮,一是國內資料庫領域的大環境已經不同於一二十年前了,基礎軟體蓬勃發展的時代已經來臨,二是因為大公司中有很多好的idea,但是由於部門眾多,流程複雜等等現實原因想要真正落地卻很難,所以綜合考慮獨立創業可能會做得更好,市場會更大。

  “我們要做世界上最快的資料倉儲!”在採訪中,常雷擲地有聲地向筆者表達了自己的目標。據常雷透露,Oushu Database 4.0也將很快和大家見面,該版本允許跨資料中心部署,全面支援分析系統和核心繫統高可用的特性。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31137683/viewspace-2154037/,如需轉載,請註明出處,否則將追究法律責任。

相關文章