專訪偶數科技常雷:三代資料倉儲的演進
據相關機構預測全球大資料市場規模將在2020年達到千億美金,而資料倉儲作為資料生態系統中的重要一員,其市場規模現在已近兩三百億美金。如今,隨著大資料和人工智慧的發展,資料倉儲迎來新的挑戰和發展機遇。
2017年10月19日-21日,在京舉辦的第九屆系統架構師大會邀請到了偶數科技創始人兼CEO常雷為我們解讀資料倉儲的演進以及新一代資料倉儲的發展。
三代資料倉儲的演進
資料倉儲最早可以追溯到20世紀80年代末期,IBM研究人員Barry Devlin和Paul Murphy為解決企業整合的問題,創造性的提出了“資料倉儲”這一術語。而其真正在企業中得到大規模應用則是始於 1992年Bill Inmon出版的《Building the Data Warehouse》,該書不僅為資料倉儲建設定義了非常具體的原則,還提出了很多建設性意見。
從首次提出到發展至今,常雷認為資料倉儲大概可以分為三個階段,第一階段是採用共享架構的傳統資料倉儲,這類數倉主要是面向傳統的BI分析,可擴充套件性較差,大概是十幾個節點;第二階段是無共享架構的MPP,這類數倉主要是面向有複雜需求的傳統BI分析,典型的代表有Teradata、Vertica、Greenplum等等;前兩個階段的資料倉儲架構都存在缺乏彈性、不易調整、難以實現秒級擴容等問題,而新一代資料倉儲克服了這些困難,實現了彈性伸縮和靈活配置。
新一代資料倉儲主要是面向大資料和人工智慧,支援工業標準的X86伺服器,可擴充套件到上千個節點。如果再進一步細分的話,新一代資料倉儲可分為SQL on Hadoop、SQL on Object Store和Hybrid。
新一代資料倉儲:Oushu Database 3.0
Oushu Database 3.0是由偶數科技在今年9月21日推出的新一代企業級分析型資料倉儲引擎,是Apache HAWQ的企業增強版本,其最核心的技術是對執行器進行了全新改進,充分利用了新硬體的特性;支援ORC外部儲存格式,外部儲存效能可提升10-50倍;支援新一代可插拔儲存框架,新增一個外部資料來源,只需編寫幾個函式。
“光說不練假把式”,下面我們就來和最新版本的SparkSQL 2.2來做一個對比:
綜合各種SQL語句執行情況來看,Oushu Database的效能相比SparkSQL要快20倍左右。據常雷介紹Oushu Database可以支援PB級資料,在工業、稅務、金融和電力領域均有應用,未來會逐步開源出來。
不懼強敵,中國資料庫蓬勃發展的時代已然來臨
資料庫領域一直是大廠林立,但是初創企業也並不是沒有立足之地。《創新者的窘境》中曾描述過巨頭企業做的是延續性創新,對現有價值網路的維護和加強,而初創企業做的是破壞性創新,從低毛利市場出發逐步顛覆現有的巨頭企業。常雷十分認同這一觀點,創業公司打敗巨頭企業是不可逆的趨勢,關鍵是哪個創業公司會成功。
創業是件很苦逼的事情,曾任EMC高階研究員,EMC/Pivotal研發部總監的常雷為什麼會選擇離開EMC自己創業呢?對此,他表示主要是出於兩方面的考慮,一是國內資料庫領域的大環境已經不同於一二十年前了,基礎軟體蓬勃發展的時代已經來臨,二是因為大公司中有很多好的idea,但是由於部門眾多,流程複雜等等現實原因想要真正落地卻很難,所以綜合考慮獨立創業可能會做得更好,市場會更大。
“我們要做世界上最快的資料倉儲!”在採訪中,常雷擲地有聲地向筆者表達了自己的目標。據常雷透露,Oushu Database 4.0也將很快和大家見面,該版本允許跨資料中心部署,全面支援分析系統和核心繫統高可用的特性。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31137683/viewspace-2154037/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 【墨天輪專訪第五期】偶數科技常雷:創新改變世界,深耕雲資料倉儲
- 對話偶數科技常雷:如何開啟實時湖倉一體時代?
- ABP 資料訪問 - IRepository 倉儲
- [數倉]資料倉儲設計方案
- 資料倉儲(6)數倉分層設計
- 資料倉儲(7)數倉規範設計
- 資料儲存技術的演進趨勢研判
- 資料倉儲(5)數倉Kimball與Inmon架構的對比架構
- 快狗叫車實時數倉演進之路
- 為什麼說湖倉是實時數倉的重要演進方向?
- 網易數帆資料治理演進
- 資料庫倉庫系列:(一)什麼是資料倉儲,為什麼要資料倉儲資料庫
- 專訪科傑科技CEO於洋:湖倉一體資料底座,企業構建資料能力的“最優解” | 愛分析訪談
- 離線實時一體化數倉與湖倉一體—雲原生大資料平臺的持續演進大資料
- DTCC專訪:南大通用GBase雲上邏輯資料倉儲助力行業數字化轉型升級行業
- 利用Data Vault對資料倉儲進行建模(二)
- ETL資料倉儲的使用方式
- 資料倉儲 - ER模型模型
- 資料倉儲與大資料的區別大資料
- 關於資料湖、資料倉儲的想法
- 【clickhouse專欄】資料庫、資料倉儲之間的區別與聯絡資料庫
- 數倉血緣關係資料的儲存與讀寫
- 資料倉儲(8)數倉事實表和維度表技術
- OceanBase 首席架構師:關聯式資料庫到三代分散式資料庫,我親歷的資料庫演進史架構資料庫分散式
- 資料倉儲應該用什麼方案——資料倉儲實施方案概述
- 如何規劃一個高效的BI資料倉儲專案JI
- 資料湖和中央資料倉儲的設計
- 什麼是資料倉儲
- 什麼是資料倉儲?
- 資料倉儲經驗概念
- 資料倉儲建模方法論
- 加快構建資料倉儲 甘肅銀行數字化轉型提速推進
- 都強調實時性,偶數科技實時湖倉一體有啥不同?
- 資料治理:資料整合架構的演進架構
- 淺談資料倉儲和大資料大資料
- 資料湖會取代資料倉儲嗎?
- 談談資料湖和資料倉儲
- 資料湖 vs 資料倉儲 vs 資料庫資料庫