專訪偶數科技常雷：三代資料倉儲的演進

tianxiaoxu發表於2018-05-07

原文網址 : http://blog.itpub.net/31137683/viewspace-2154037/

據相關機構預測全球大資料市場規模將在2020年達到千億美金，而資料倉儲作為資料生態系統中的重要一員，其市場規模現在已近兩三百億美金。如今，隨著大資料和人工智慧的發展，資料倉儲迎來新的挑戰和發展機遇。

　　2017年10月19日-21日，在京舉辦的第九屆系統架構師大會邀請到了偶數科技創始人兼CEO常雷為我們解讀資料倉儲的演進以及新一代資料倉儲的發展。

▲偶數科技創始人兼CEO 常雷

　　三代資料倉儲的演進

　　資料倉儲最早可以追溯到20世紀80年代末期，IBM研究人員Barry Devlin和Paul Murphy為解決企業整合的問題，創造性的提出了“資料倉儲”這一術語。而其真正在企業中得到大規模應用則是始於 1992年Bill Inmon出版的《Building the Data Warehouse》，該書不僅為資料倉儲建設定義了非常具體的原則，還提出了很多建設性意見。

　　從首次提出到發展至今，常雷認為資料倉儲大概可以分為三個階段，第一階段是採用共享架構的傳統資料倉儲，這類數倉主要是面向傳統的BI分析，可擴充套件性較差，大概是十幾個節點;第二階段是無共享架構的MPP，這類數倉主要是面向有複雜需求的傳統BI分析，典型的代表有Teradata、Vertica、Greenplum等等;前兩個階段的資料倉儲架構都存在缺乏彈性、不易調整、難以實現秒級擴容等問題，而新一代資料倉儲克服了這些困難，實現了彈性伸縮和靈活配置。

　　新一代資料倉儲主要是面向大資料和人工智慧，支援工業標準的X86伺服器，可擴充套件到上千個節點。如果再進一步細分的話，新一代資料倉儲可分為SQL on Hadoop、SQL on Object Store和Hybrid。

專訪偶數科技常雷：三代資料倉儲的演進

　　新一代資料倉儲：Oushu Database 3.0

　　Oushu Database 3.0是由偶數科技在今年9月21日推出的新一代企業級分析型資料倉儲引擎，是Apache HAWQ的企業增強版本，其最核心的技術是對執行器進行了全新改進，充分利用了新硬體的特性;支援ORC外部儲存格式，外部儲存效能可提升10-50倍;支援新一代可插拔儲存框架，新增一個外部資料來源，只需編寫幾個函式。

　　“光說不練假把式”，下面我們就來和最新版本的SparkSQL 2.2來做一個對比：

專訪偶數科技常雷：三代資料倉儲的演進

▲Count不同資料型別的列

專訪偶數科技常雷：三代資料倉儲的演進

▲SUM/AVG不同資料型別的列

專訪偶數科技常雷：三代資料倉儲的演進

▲Group by表示式

專訪偶數科技常雷：三代資料倉儲的演進

▲Group by不同資料型別的列, 取其SUM和AVG

　　綜合各種SQL語句執行情況來看，Oushu Database的效能相比SparkSQL要快20倍左右。據常雷介紹Oushu Database可以支援PB級資料，在工業、稅務、金融和電力領域均有應用，未來會逐步開源出來。

　　不懼強敵，中國資料庫蓬勃發展的時代已然來臨

　　資料庫領域一直是大廠林立，但是初創企業也並不是沒有立足之地。《創新者的窘境》中曾描述過巨頭企業做的是延續性創新，對現有價值網路的維護和加強，而初創企業做的是破壞性創新，從低毛利市場出發逐步顛覆現有的巨頭企業。常雷十分認同這一觀點，創業公司打敗巨頭企業是不可逆的趨勢，關鍵是哪個創業公司會成功。

　　創業是件很苦逼的事情，曾任EMC高階研究員，EMC/Pivotal研發部總監的常雷為什麼會選擇離開EMC自己創業呢?對此，他表示主要是出於兩方面的考慮，一是國內資料庫領域的大環境已經不同於一二十年前了，基礎軟體蓬勃發展的時代已經來臨，二是因為大公司中有很多好的idea，但是由於部門眾多，流程複雜等等現實原因想要真正落地卻很難，所以綜合考慮獨立創業可能會做得更好，市場會更大。

　　“我們要做世界上最快的資料倉儲!”在採訪中，常雷擲地有聲地向筆者表達了自己的目標。據常雷透露，Oushu Database 4.0也將很快和大家見面，該版本允許跨資料中心部署，全面支援分析系統和核心繫統高可用的特性。

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/31137683/viewspace-2154037/，如需轉載，請註明出處，否則將追究法律責任。

【墨天輪專訪第五期】偶數科技常雷：創新改變世界，深耕雲資料倉儲
2021-09-26
對話偶數科技常雷：如何開啟實時湖倉一體時代？
2023-11-28
ABP 資料訪問 - IRepository 倉儲
2020-10-29
[數倉]資料倉儲設計方案
2019-06-11
資料倉儲(6)數倉分層設計
2022-04-14
資料倉儲(7)數倉規範設計
2022-04-20
資料儲存技術的演進趨勢研判
2022-10-08
資料倉儲(5)數倉Kimball與Inmon架構的對比
2022-03-31
架構
快狗叫車實時數倉演進之路
2023-02-08
為什麼說湖倉是實時數倉的重要演進方向？
2023-12-12
網易數帆資料治理演進
2022-11-24
資料庫倉庫系列：(一)什麼是資料倉儲，為什麼要資料倉儲
2020-12-12
資料庫
專訪科傑科技CEO於洋：湖倉一體資料底座，企業構建資料能力的“最優解” | 愛分析訪談
2022-09-29
離線實時一體化數倉與湖倉一體—雲原生大資料平臺的持續演進
2021-12-01
大資料
DTCC專訪：南大通用GBase雲上邏輯資料倉儲助力行業數字化轉型升級
2021-11-25
行業
利用Data Vault對資料倉儲進行建模（二）
2020-08-01
ETL資料倉儲的使用方式
2024-02-26
資料倉儲 - ER模型
2023-05-15
模型
資料倉儲與大資料的區別
2024-08-09
大資料
關於資料湖、資料倉儲的想法
2024-06-06
【clickhouse專欄】資料庫、資料倉儲之間的區別與聯絡
2022-06-06
資料庫
數倉血緣關係資料的儲存與讀寫
2022-05-26
資料倉儲(8)數倉事實表和維度表技術
2022-04-20
OceanBase 首席架構師：關聯式資料庫到三代分散式資料庫，我親歷的資料庫演進史
2021-04-22
架構資料庫分散式
資料倉儲應該用什麼方案——資料倉儲實施方案概述
2024-05-30
如何規劃一個高效的BI資料倉儲專案JI
2022-03-21
資料湖和中央資料倉儲的設計
2023-12-06
加快構建資料倉儲甘肅銀行數字化轉型提速推進
2023-05-06
什麼是資料倉儲
2023-05-17
什麼是資料倉儲？
2019-07-29
資料倉儲經驗概念
2022-05-23
資料倉儲建模方法論
2020-12-08
都強調實時性，偶數科技實時湖倉一體有啥不同?
2022-08-08
資料治理：資料整合架構的演進
2022-07-04
架構
淺談資料倉儲和大資料
2018-06-21
大資料
資料湖會取代資料倉儲嗎?
2022-11-09
談談資料湖和資料倉儲
2022-11-29
資料湖 vs 資料倉儲 vs 資料庫
2022-01-16
資料庫

專訪偶數科技常雷：三代資料倉儲的演進

相關文章