對話偶數科技常雷:如何開啟實時湖倉一體時代?
企業業務越來越複雜多元,對資料處理能力的需求越來越高,當下實時分析場景越來越多。資料技術日新月異,紛繁複雜,利用合適的資料技術打造自己的實時分析能力非常重要。
本期,我們有幸邀請到偶數科技創始人&CEO常雷博士,他指出現在資料湖和數倉的融合已是大勢所趨,有迫切的需求,當下已經到了實時湖倉一體時代。他分享了實時湖倉的發展、建設路徑和方法論。
(偶數科技創始人&CEO常雷博士)
此外,常雷也指出,這是技術創業最好的時代,也存在挑戰。技術發展多年,現在突變的技術沒有以前那麼多。在突破力越來越少的情況下,大家都在做一些存量的競爭,這時候從商業層面其實蠻困難的,還是要從技術上做一些突破,來打破這樣一個格局。他強調要堅持創新,不進則退。“客戶的視角是解決問題帶來價值。技術人的角度,可能是你看我啥都能做,我技術很牛,這個視角是不可取的。要結合需求來看,別總拿個錘子找釘子,要根據釘子來造錘子。”
01追問:我們為什麼需要實時湖倉?
ITPUB:常雷博士,很高興能採訪到您,請您簡單做個自我介紹。
常雷:我之前是北大博士資料庫方向畢業,畢業之後就加入EMC,曾任EMC高階研究員、EMC/Pivotal研發部總監。
2010年EMC收購Greenplum,我在EMC帶領研究團隊做資料庫核心的研發工作,結合Greenplum開發了新的產品HAWQ,HAWQ和GP早期是閉源產品,在2015年我們就把這兩個產品全部開源了,HAWQ後面成為了Apache的頂級專案。
看到了雲時代的機遇,2016年年,我帶著團隊出來創立了偶數科技,當時我們定位是想做新一代雲原生的分析型資料庫,慢慢地演進成現在的實時湖倉,就是把結構化資料、非結構化資料、半結構化資料,所有的資料都能夠融合起來處理,架構上做雲原生存算分離,把資料湖和數倉融合形成新一代資料平臺。
ITPUB:打造新一代雲原生分析型資料庫,是不是對標Snowflake?
常雷:其實我們對標國外的Snowflake和Databricks兩家公司,Snowflake做雲原生數倉起家,是分析型資料倉儲。Databricks是做Spark,早期定位是機器學習,後面做Lakehouse(湖倉一體)。這兩家公司,前者是從資料庫角度出發,後者是Hadoop生態,從資料湖出發,現在都往湖倉一體融合發展,我們其實正好是兩個都對標。GP是一個分析型資料庫,HAWQ源於GP,是SQL on Hadoop引擎,是Hadoop生態,我們從HAWQ出發,做雲原生存算分離,演變到OushuDB,又以OushuDB為基礎,打造了Skylab實時湖倉資料平臺。
以前都是有湖有倉,現在湖的能力比如說事務一致性、效能等等都在增強。倉之前只能做結構化資料,現在慢慢把流處理各方面的東西都給融進來。
我們已經擴大產品棧,有一套完整的產品矩陣,能為企業提供非常完整的資料分析產品棧,具有整體的資料分析的解決方案能力,像是一個航空母艦一樣。
ITPUB:公司官網的介紹是開啟實時湖倉一體時代,您看到的是怎樣的一個時代?
常雷:資料庫經過好幾代的發展,其實脈絡比較清晰,最早期是交易資料庫,像Oracle、DB2,交易資料庫其實變化沒有那麼大,就是傳統集中式到分散式的變化。
分析型資料庫的架構變化比較大,這是需求場景變化使然,分析庫從早期只能做一些統計報表,到後來資料量大了之後要處理大量的資料,再到做BI。後來大資料時代,有各種不同型別的資料出來,資料量也很大,資料處理變得複雜,出現了Hadoop大資料平臺。最近這幾年,雲端計算興起,湖和倉向著融合演進,變成了雲原生湖倉一體。
湖倉一體概念是美國先提的,英文是Lakehouse,湖倉一體只是說把湖和倉融合起來,減少了資料的孤島。以前湖和倉是分開的,在湖和倉裡面都要存資料,造成資料冗餘,不是一份資料,使得開發成本、維護成本等提高,湖倉一體確實解決了一些問題,降低了客戶的運營成本。
我們覺得只說湖倉一體還不夠,從應用的場景來看,在分析方面,以前的T +1已經不能滿足很多實時場景需求,T+0實時場景越來越多,我們不僅要做湖倉一體,而且要針對實時場景,做一個新的技術架構,所以說我們提實時湖倉一體的時代,不僅強調技術架構,而是技術、應用場景的支援和融合。
市場上也有實時“數”倉的概念,和實時“湖”倉雖然差一個字,但是差別蠻大的。實時數倉處理結構化資料,實時湖倉是一個產品矩陣,實時湖倉包含了實時數倉,範圍更大一些,會把企業各種各樣的資料都管理起來。
ITPUB:實時數倉、實時湖倉核心就是實時性的需求,您覺得是如何發生的?
常雷:現在越來越多的實時場景出現,就是比如說實時大屏、實時報表、實時指標、實時推薦、反欺詐、風控、IoT場景等,比如說一個使用者在瀏覽商品,他要收到一些實時的推薦。
從業務場景的需求來看,傳統的T+1已經支撐不了這種需求,大家對實時的需求已經很迫切了。
客戶的IT能力越強,投入越大,業務做得越好,越講究實時性。有些傳統的企業技術方面做的比較弱一些,覺得現在好像不需要,業務這樣還挺好,但實際上是數字化轉型沒有做好,業務提升空間還很大。
ITPUB:也許企業真的沒有需要?
常雷:他不是沒需要,而是他沒想到他有需要,別人都已經做了,他就是跟隨者。任何一個新場景、新業務或者新技術的發展,都會有一些創新的先行者,跟隨者也挺多,跟隨者其實是佔大部分,創新者只佔一小部分。
實時湖倉案例,我們做了很多頭部客戶,基本上每個行業的頭部都有。我覺得技術隨著業務場景在變化,往往是先有業務場景才有技術,有時候有了技術之後,會開拓一些以前不能做的業務場景。實時湖倉好像是需求和技術在齊頭並進。一個是有需求,另外技術也在發展,走到了實時湖倉一體這樣的一個時代。
ITPUB:具備哪些特性才能是真正的實時湖倉?
常雷:根據湖倉一體平臺的本質,我們總結出了湖倉一體的六大特徵——ANCHOR,其中6個字母分別代表:All Disparate Data(多源異構資料)、Native on Cloud(雲原生)、Consistency(資料一致性)、High Concurrency(超高併發)、One Data in Open Format(一份開放格式資料)、Realtime(實時T+0)。ANCHOR 的中文意思是“錨”,利用ANCHOR六大特性很容易判斷出某一系統設計是否真正滿足湖倉一體,“錨”定湖倉一體。
ITPUB:在實時性方面,有很多技術和概念,實時數倉、實時湖倉、流批一體、HTAP資料庫等,您覺得企業需要的是什麼?偶數為什麼會專門提實時湖倉?
常雷:這些概念其實都有一些自己的應用場景,比如HTAP的場景也有一些。在交易庫裡面,有時候要做一點小的分析查詢,可能在分析場景裡面有一點交易型場景,也能做。從現在的業務現狀來看,大家說資料庫的時候,場景基本都是分開建,銀行TP和AP還是分著的,是完全不同的部門團隊在做。
一般場景都是有側重的,這個場景偏重於分析,那個場景偏重於交易,然後選用不同的產品,我們其實是偏重於分析型場景,也支援一些交易。有些資料庫是偏交易型的資料庫,也支援一點分析。但企業真的要採購分析平臺的時候,沒有人去找交易庫,同樣,如果選型交易庫,也不會有人去選一個分析庫,我覺得在實際專案中區分得很清楚的。
偶數為什麼挑選實時湖倉,我覺得湖和倉融合是必須的,是未來所有人都要做的,並不是錦上添花的一個東西。分析場景將來都會走向實時湖倉平臺,現在企業都在想著降本增效,實時湖倉能帶來很大的價值。
ITPUB:關於實時場景,很多在談線上、離線、近線,怎麼理解實時?
常雷:Gartner有個關於實時的定義,梳理得蠻清楚的。按照分析的時效可以分為戰略決策、戰術分析、業務運營和自動化處理,時效和分析頻率越來越高。戰略決策,比如企業收購、海外擴張,通常要做幾個月到半年的分析;戰術分析,比如細分市場的定價策略,通常要用幾周到一個月的時間來分析;自動化處理,比如信用卡自動審批、股票的量化交易,通常是毫秒級,在一秒鐘內完成;而業務運營夾在中間,從1秒鐘到幾天,跨度很大。
所以在業務運營場景中,就需要對實時有更加明確的要求。Gartner認為15分鐘內的算是實時和準實時範疇,根據我們的觀察和實踐,10秒鐘以內才能算是強實時,10秒到15分鐘的區間可以認為是準實時的。很多企業正在將傳統的T+1報表升級為分鐘級的準實時報表,在我看來,接下來完全可以做成強實時的互動式分析。
偶數做實時湖倉,是從離線到線上,從準實時到強實時,全部覆蓋,我們提出叫做全實時,也是按需實時的理念,全實時透過Omega技術架構來支援。
ITPUB:不同的企業對實時湖倉的需求有哪些共性和差異?
常雷:同一個行業基本上共性是比較強的,對產品的需求基本上都類似。但對創新型的需求,不同規模的企業差別比較大,大型企業的業務場景相對複雜,技術創新能力比較強,像稍微大型的銀行在創新方面比中小銀行要強很多,新的實時場景往往是他們在率先嚐試,然後中小銀行才會跟進。
02實踐:企業如何構建實時湖倉?
ITPUB:企業是如何構建實時湖倉的?
常雷:根據現狀的一些不同,企業會採取不同的方式來構建,大致分為三類。
第一類,以前資訊化做得比較弱,可能分析場景基本上沒做,或者他覺得以前的太落後了,只做了一個傳統的 ODS ,新的大資料平臺也沒上,這往往採取新建模式。
第二類,以前的IT基礎棧比較全,可能有湖,也有倉,還有資料集市。基於現有的IT建設,向實時湖倉升級換代。比如你的儲存是HDFS,我可以利用你的原有儲存,使用我們的計算層,加上偶數的一些實時儲存,使得架構向實時湖倉轉型。
第三類,以前有傳統的數倉,但沒有Hadoop大資料平臺,這種情況可以把數倉先升級成雲原生存算分離的架構,先把OushuDB用起來。其他新應用場景再引入新的元件,慢慢形成實時湖倉平臺。
所以基本上是三條路徑,新建、從湖轉型實時湖倉,或從數倉轉型到實時湖倉。
我們遇到新建的比較多一些,新建一個平臺,硬體還可以重用,應用場景逐步遷移,並不是新建完之後一下全部遷移。對客戶來說,新建相對比較簡單,因為新建不會涉及重大歷史包袱。如果此前有大量業務在跑,改造相對來說耗時較長,需要幾個月或者半年的時間,我們儘量讓企業在短期內看到價值,增加他的信心。
ITPUB:能否分享一些專案建設的方法論?
常雷:結合偶數在資料平臺專案建設的長期探索和經驗總結,提煉出了偶數湖倉一體建設方法論。這個方法論主要包括規劃(Planning)、實施(Implementation)、運營(Operation)三個子過程,三者先後銜接並形成閉環;戰略(Strategy)是一個或有子過程,一般適用新建湖倉資料平臺場景,或者特殊建設背景下行業客戶的特別要求。
偶數湖倉一體方法論邏輯檢視
偶數湖倉一體建設方法論,既能相容傳統資料倉儲的實施方法,又能規避過往資料湖落地過程中的一些弊端;既考慮眾多企業已建資料平臺多年的現實情況,又吸收近年資料相關技術快速變化演進的前瞻趨勢。
ITPUB:企業在構建實時湖倉的時候,你覺得有哪些需要注意的地方?
常雷:在湖倉一體正式立項之前,我們建議客戶從行業實施經驗、專案實施週期、平臺總體成本三個要素來考慮湖倉一體的專案規劃,進行總體設計、分步實施。通俗講,就是團隊要找好,產品要選好,專案要實施好。偶數的方法論還給出了在立項階段的幾點避坑建議,以及專案實施過程中的重要抓手,大家可以關注我們即將釋出的關於湖倉一體建設方法的書。
03展望:AIGC時代的實時資料技術以及技術創業
ITPUB:AIGC時代,大模型等AI技術對資料技術帶來了哪些影響?
常雷:我覺得大模型的興起對我們是一個重大利好。因為大模型降低了大家使用資料的門檻,可以用自然語言使用資料,而以前使用資料往往需要學習複雜的產品和查詢語法。
AIGC使得資料棧變得更加簡單易用了,比如可以自動生成SQL,將來設計模型、資料治理也可以自動,用自然語言驅動。所以大模型對行業影響很大,只不過現在這種垂直場景還沒有非常好的落地。
大模型現在屬於一個比較前沿的探索階段,基本上還是做一些比較通用的基礎場景,針對一些垂直場景,還有很長的路要走,任重道遠。
ITPUB:很多人就說現在是一個對技術創業者來說比較好的一個時代,作為一個技術創業者,您如何迎接挑戰,把握機遇?
常雷:現在對技術創業者確實是最好的時代,你真的想把一個事情做深做透做好,沒有技術創新很困難。但是技術創業者也有侷限,通常對業務邏輯和需求等方面瞭解要少一點,也是個挑戰。
技術已經發展這麼多年,現在突破性的技術沒有以前那麼多。在突破越來越少的情況下,如果大家都做存量的競爭,這從商業層面其實還是蠻困難的,所以還是要從技術上做一些突破,來打破這樣的格局,技術創業還是很重要的。
例如,在三年之前我們講實時湖倉的時候,大家還在猶豫觀望,現在基本上已經形成共識了。我們希望這些企業用好實時湖倉,真正實現業務的降本增效。
ITPUB:現在市場有那麼多類似的產品,怎麼看行業的競爭?
常雷:這就和當年的百團、千團大戰一樣。一個新的技術出來之後,一定會有一批公司來做,這是很正常的,市場競爭一定越來越激烈。但是否能笑到最後,那就看戰略、技術、產品,誰做得最好。
其實資料技術的發展是非常快的,現在大概每過10-15 年左右就會有新一代平臺出現,很多廠商一不小心可能就落後了,可能就被淘汰了。
所以你永遠要把握住自己的創新,永遠不要把創新放下,別以為產品比較穩定了,就覺得可以滿足需求了,不需要創新了。不做創新就會被淘汰,只不過有的行業可能對創新的要求更高一些,變化更快一些,有的行業創新稍微慢一點,但仍然需要把握住機遇和創新。交易庫稍微簡單一點,它發展慢一點,但做大資料相關的發展變化就尤為明顯,真的是日新月異,我經歷了過去三代平臺,現在已經發展到第四代雲原生存算分離了。
創業是不進則退。我們一直在創新演變,剛開始我們做雲原生資料倉儲,是分析型資料庫,現在我們變成實時湖倉,以分析型資料庫為核心,形成了一套產品矩陣,這幾年我們一直在不斷迭代前行。
ITPUB:現在都在講融合,資料技術的大融合,像以前的按鍵手機、MP3、照相機全融合成一個智慧手機一樣。
常雷:Oracle很早就已經講融合了,Oracle對各種資料場景都支援,比如圖資料,時序資料等等,所以融合不是個新概念。
現在到處都在提融合,我覺得有些部分融合是可以的。但所有東西都融合在一起一定是有問題的,讓一個人幹所有的事情,什麼事情都可以幹,但是乾的肯定不是所有事情都是最好的,要有側重點。
企業的訴求是你解決了什麼問題,到底帶來多少價值,比如有實時場景的問題要解決。比如湖和倉,為什麼要融合到一起?你要說清楚價值,然後再討論融不融合。客戶的視角是解決問題帶來價值。技術人的角度,可能是你看我啥都能做,我技術很牛,這個視角是不可取的。
要結合需求來看,別總拿個錘子找釘子,要根據釘子來造錘子。
ITPUB:對於從業者而言,您能不能給他們一些建議,如何跟上技術迭代的節奏?
常雷:針對從業者,我覺得新的技術要緊跟,大的趨勢要緊跟,國內新的趨勢是新一代資料庫產品、是實時湖倉,千萬不要故步自封。現在知識和技術更新迭代的速度很快,一定要注意武裝好自己。比如說我們現在推出一些課程,我覺得像這種新技術的培訓分享,傳統的DBA應該去學習,等到以後別人都掌握了,那你就很危險。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69925873/viewspace-2997553/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 都強調實時性,偶數科技實時湖倉一體有啥不同?
- 專訪偶數科技常雷:三代資料倉儲的演進
- 農業銀行湖倉一體實時數倉建設探索實踐
- 企業如何借實時湖倉贏在“資料制勝”時代?
- 重新思考 | 實時數倉、湖倉一體、流批一體,它們都在說什麼
- 離線實時一體化數倉與湖倉一體—雲原生大資料平臺的持續演進大資料
- 通用資料湖倉一體架構正當時架構
- 為什麼說湖倉是實時數倉的重要演進方向?
- 如何構建準實時數倉?
- 基於 Paimon 的袋鼠雲實時湖倉入湖實戰剖析AI
- 直播預約丨《實時湖倉實踐五講》第四講:實時湖倉架構與技術選型架構
- 直播預約丨《實時湖倉實踐五講》第三講:實時湖倉在袋鼠雲的落地實踐之路
- 直播預約丨《實時湖倉實踐五講》第五講:實時湖倉領域的最/佳實踐解析
- 位元組跳動資料湖在實時數倉中的實踐
- 直播預約丨《實時湖倉實踐五講》第二講:實時湖倉功能架構設計與落地實戰架構
- 網易基於 Iceberg 的實時湖倉一體系統構建經驗
- 由紛爭到融合,實時數倉演繹“戰國時代”
- 【墨天輪專訪第五期】偶數科技常雷:創新改變世界,深耕雲資料倉儲
- 從離線到實時資料生產,網易湖倉一體設計與實踐
- HDC2021鬆湖對話召開 共話萬物智聯時代下的鴻蒙生態新商業鴻蒙
- 滴普科技馮森 FastData DLink 實時湖倉引擎架構設計與落地實踐AST架構
- 滴普科技馮森:FastData DLink實時湖倉引擎架構設計與落地實踐AST架構
- 快手實時數倉保障體系研發實踐
- 實時數倉-持續更新
- 實時數倉:Kappa架構APP架構
- Clickhouse實時數倉建設
- 破解湖+倉混合架構頑疾,星環科技推出自主可控雲原生湖倉一體平臺架構
- 流批一體的近實時數倉的思考與設計
- 分鐘級實時資料分析的背後——實時湖倉產品解決方案
- 如何輕鬆應對偶發異常
- 實時數倉混沌演練實踐
- 如何面對後Hadoop時代?Hadoop
- 開啟應用微觀時代 | 容器時代的數字化轉型方法論
- 體素超材料,開啟一個百變機器人時代?機器人
- 阿里云云原生實時數倉升級釋出,助力企業快速構建一站式實時數倉阿里
- 用Rust 實現的現代化實時開源資料倉儲Rust
- Doris和Flink在實時數倉實踐
- 資料倉儲、資料湖與湖倉一體的區別與聯絡