DataPipeline的資料融合之道
2020年12月21日~12月23日,由IT168旗下ITPUB企業社群平臺主辦的第十一屆中國資料庫技術大會(DTCC2020)在北京隆重召開。會議期間,數見科技DataPipeline合夥人&CPO陳雷接受了IT168小編的採訪,以下是採訪實錄:
▲數見科技DataPipeline合夥人&CPO 陳雷
IT168:很高興有機會採訪到您,請您介紹一下自己,所在公司及主打產品?
陳雷:畢業之後去了方正,然後IBM 11年,創業4年,一直從事資料領域的產品研發,系統交付工作。業務經驗主要集中在金融、通訊、能源等資訊化領先行業,現在所在的公司DatePipeline是一家年輕的中國本土企業,我們致力於成為中國的世界級資料中介軟體廠商,產品也叫DataPipeline,是一款資料整合領域的下一代中介軟體產品,功能覆蓋了實時資料採集、異構資料融合、實時資料處理等資料整合領域的主要場景。
IT168:您是何時進入這個行業的?這其中有沒有特別的原因或者契機?
陳雷:中介軟體行業可能和網際網路行業還不太一樣,還是有一定門檻的,我相信從事軟體行業的人大部分都和我一樣,沒有什麼特別偶然的原因或者契機,就是從小喜歡計算機,根據興趣選擇了專業然後一路走過來,如果一定要說原因的話,我覺得可能是我們國家近幾十年資訊科技的高速發展為我們提供了一展拳腳的空間,沒有讓我們放棄自己的興趣,這也是一個很幸福的事。
IT168:國內的市場格局是怎樣的?都有哪些玩家?數見科技處於怎樣的位置?
陳雷:主要分為三大類,第一類是傳統的外企,比如IBM、Oracle、Informatica等,有很成熟的產品和服務體系,但面對中國市場的新技術要求的應對稍顯緩慢,比如Informatica今年宣佈解散了中國公司,IBM和Oracle對國內正在逐步興起的資料庫都無法提供支援;
第二類是雲廠商,特別是公有云廠商,在大規模資料管理和應用上有非常深入的探索和實踐,比如OceanBase,也代表了未來的發展方向,但在資料整合這個領域還沒有特別有力的產品,而且在面向重點行業企業資訊化建設服務這一塊還是有很多的工作要做;
第三類是一些有技術實力的行業整合商也在做相關領域的工作,但大部分都是在專案實施過程中基於開源專案慢慢積累,從商業產品角度來說適應性還有待驗證;
數見科技從成立之初就堅持專業化、產品化發展的道路,堅持技術驅動,深耕企業服務,準確地講在產品的適應性上已經超過了傳統外企,但在產品成熟度上還有很多工作要做,我們現在也廣泛的和雲廠商與行業整合商合作,共同為企業客戶提供更好的服務。
IT168:據您所知,資料融合市場的規模大概是多少?
陳雷:資料中介軟體的上下游市場正在快速增長,倒逼資料融合需求不斷增長,可以說中介軟體和資料庫及資料應用市場在同一量級,2018年全球市場320億美元,預計到2022年,資料融合市場大概在120億美元以上,符合增長率14%,資料融合是中介軟體增長最快的細分市場
IT168:對於企業來講,在搭建資料管理平臺過程中都會面臨哪些挑戰和問題?
陳雷:這個內容就比較多了,講最重要的三個挑戰吧。
第一、各類資料管理技術差異越來越大,全面、準確的實時資料獲取困難。隨著資料技術的不斷髮展,針對某些具體場景的特性在不斷被增強,使得各類資料技術的差異性進一步擴大,但被納入其中的資料本身不應該因技術棧不同而阻礙其價值釋放。
交易系統、賬務系統、管理系統、分析系統、主資料、資料倉儲與大資料平臺採用的資料庫管理技術都不盡相同,資料交換困難重重;資料價值不斷凸顯,業務創新需要資料支撐,但大量資料沒有納入主資料管理系統,資料倉儲與大資料平臺又無法滿足時效性要求;
資料時效性要求越來越高,批次資料交換無法滿足需求,但針對不同資料庫的增量資料實時採集需要大量的技術儲備與研發成本;增量識別欄位等方式無法獲取準確完整的增量資料,經常為實時資料應用造成障礙,也提升了實時資料的使用成本;
不同資料庫管理技術在例項、庫、模式、表等資料物件上,欄位型別、精度、標度等語義模式上都有區別;對上游的結構變化感知與應對都需要針對不同資料庫技術區別對待;傳輸過程中的一致性、衝突、特定型別的資料處理也需要區別對待。
第二、如何快速響應實時資料需求,把握機會快速建立競爭優勢。業務需要更高的敏捷性來應對外部環境的變化,這需要整個數字化組織可以體系化的進行多速、敏捷的業務場景支撐,以及對突發業務活動有更多的可見性,以確保可以利用新出現的機會並快速建立競爭優勢。
端到端實時資料鏈路的構建,往往是以月為單位交付的,甚至更多;新的資料需求需要大量的程式碼開發,交付週期也是以周為單位計算的;數十種資料庫技術,多家供應商,十幾個支援電話,感覺自己也是是整合商;
實時資料處理技術棧門檻較高,人員流失率較高,剛剛用順手的供應商總是換人;資料組的要求無法透過DBA的稽核,應用研發對系統運維要求怨聲載道;資源使用與研發人員水平緊密相關,無法準確評估,遇到關鍵業務需求時捉襟見肘。
第三、實時資料鏈路兼具業務運營與管理支撐要求,穩定性與容錯性問題重重。從客戶行為分析到非交易類的觸客業務到事件營銷再到風控評分,實時資料鏈路逐漸成為業務運營的重要支撐,但作為打通各業務系統資料通道的中間層,受到的上下游的各類制約,對穩定性的影響尤其嚴重。
上下游節點的業務連續性和服務級別均高於實時資料鏈路,實時資料鏈路需要遵循上下游節點的認證、加密、許可權、日誌等管理機制;上游資料物件結構變化與資料物件的處理機制對實時資料鏈路影響巨大,例如結構變化採用rename方式;
實時資料流量不僅僅需要參考業務交易量,與上游系統的資料處理方式有很大的關係,經常出現一個語句百萬行增量的情況;隨著企業多中心及多雲戰略的執行,部署在不同網域或雲環境的系統配置,網路連通性乃至專線供應商與頻寬都對穩定性有影響;
對計劃、非計劃的網路不可用,上下游系統維護,物理刪除等非規操作及偶發的錯誤資料及主鍵衝突資料沒有相應的容錯性策略配置;出現系統故障時,無法保證各個元件的高可用,系統恢復困難,特別是實時資料鏈路的資料完整性與資料一致性很難恢復;
IT168:在過去一年中,數見科技在產品功能、技術研發,有哪些創新和突破?在過去的一年裡,我們針對產品進行了一次較為徹底的改造,主要體現在幾個方面。
陳雷:第一、進一步加強了基於日誌的增量資料獲取技術(Log-based change data capture),可以為各類資料平臺和應用提供實時、準確的資料變化,從而使得客戶可以根據最新資料進行運營管理與決策制定。
第二、對資料節點註冊、資料鏈路配置、資料任務構建、系統資源分配等各個環節進行分層管理,在有效地滿足系統運維管理需求的前提下,提升實時資料獲取與管理在各個環節的配合效率。
在資料節點、資料鏈路、融合任務及系統資源四個基本邏輯概念中,使用者只需要透過二至三項簡單配置就可以定義出可以執行的融合任務,系統提供基於最佳實踐的預設選項,實時資料需求的研發交付時間從2周減少為5分鐘。
第三、為應對複雜的實時資料場景需求,系統提供限制配置與策略配置兩大類十餘種高階配置。使用者可以透過這些配置對下游進行限制與管理,也可以透過這些配置來統一調整下游的執行範圍與策略應用範圍。
同時,最佳化了系統整體的分散式引擎,實現了元件級高可用。從產品配置到系統部署兩個方面保障實時資料鏈路的穩定高容錯。
IT168:近年來,您觀察到的資料融合市場發生了哪些變化,有哪些發展趨勢,數見科技如何契合這些趨勢?
陳雷:第一、市場競爭和使用者行為的巨大變化。使用者互動時間越來越短,演算法精度要求越來越高;流量維度越來越多,不再侷限於線上,必須適配場景來爭奪注意力;已經沒有確定的價值錨點,企業必須不斷加快自身進化速度。
第二、轉變運營模式要求多速IT的支撐。以客戶為中心的獨立產品運營模式,企業逐漸成為公共服務平臺;各個運營部門對資料的時效性、準確性、全面性要求都不相同;對作為基礎公共服務的資料平臺來說,不變的是對需求的快速響應;
第三、資料需求響應從研發向配置轉變。資料支撐與應用開發、系統運維的協調問題必須解決;在保障資料資源可控的前提下,為資料應用提供更多的自主性與敏捷性;系統資源管理與系統的部署擴充套件必須靈活方便且平滑穩定;
IT168:在國際上是否有類似數見科技資料融合的產品?相比之下有哪些差異化?國外的產品相比國內來講有哪些借鑑意義?
陳雷:IBM的InfoSphere Data Replication、DataStage和Streams、Oracle的Golden Gate和Informatica的PowerExchange和PowerCenter。和這類國外產品相比,DataPipeline有以下幾點區別:
第一、從功能性上來講,IBM和Oracle對各自的資料庫的支援毋庸置疑是最好的,但對新興的資料庫特別是國內正在廣泛使用的資料庫的支援力度就低了很多,DataPipeline透過自主研發和生態上下游的合作,不僅支援傳統的Oracle等關係型資料庫,也支援GaussDB、TiDB、巨杉等新興資料庫的實時資料採集。
第二、從部署架構和售賣方式上來講,傳統資料採集和資料處理工作是採用成對部署、成對售賣的方式,對客戶進行高可用部署、系統擴容都不十分友好,而DataPipeline是分散式叢集部署,在系統資源允許的情況下不限制使用者註冊資料節點,採用容器化部署方式,支援Kubernetes,支援動態擴縮容。
IT168:數見科技在做資料融合的過程中,有沒有什麼讓您印象深刻的故事?比如第一個客戶是怎麼來的?比如研發過程中如何解決一個比較大的難題。
陳雷:應該說印象深刻的事情實在是太多,客戶上線的喜悅,排除故障的辛勞,攻克技術難關的成就感,和每個創業者都會經歷的壓力,但這些其實也都很平常,這些就是一個技術人員的日常。用兩句短句總結一下。
凡是過往,皆為序章,十餘年沐雨櫛風,百萬裡地北天南,也平常!
念念不忘,必有迴響,再十年篳路藍縷,獻心力自強安邦,正起航!
IT168:您此前是否參加過中國資料庫技術大會?有哪些地方令您印象深刻?您如何看待DTCC大會?
陳雷:我在IBM中國實驗室的產品交付部門主要負責的就是資料相關的部分,包括DB2、Informix、Netezza在內的產品都是透過我們交付給中國的客戶,我在這裡可以說都是同行和朋友,我最大的感受是除了老朋友、老對手也有非常多的新面孔和新產品,為能夠從事這個蓬勃發展的行業感到高興,為能夠參加這個欣欣向榮的頂級盛會感到榮幸,作為一個行業老兵,也對DTCC能夠為中國乃至世界資料庫領域一直堅持做出如此貢獻表示感謝。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31545813/viewspace-2750977/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- DataPipeline CPO 陳雷:實時資料融合之法,便捷可管理API
- 實時資料融合之道:博觀約取,價值驅動
- 最新2.7版本丨DataPipeline資料融合產品最新版本釋出API
- DataPipeline在大資料平臺的資料流實踐API大資料
- DataPipeline實時資料融合產品入駐青雲雲市場,催化企業資料價值釋放API
- 攜手世界環境服務巨頭!DataPipeline助力其亞洲區業務資料實時融合API
- DataPipeline CTO陳肅:構建批流一體資料融合平臺的一致性語義保證API
- 巨集昆酒店集團攜手DataPipeline打造實時資料融合平臺,酒店業精益管理的新祕訣API
- 超融合之道:亞信安慧AntDB 8.0版本引領資料庫創新資料庫
- 點燃 “智慧引擎”| 車聯網融合的安全之道
- 把握融合之道 推進價值創造
- 2020年淨利暴漲1288%,遨森電商攜手DataPipeline構建實時資料融合體系跑出加速度!API
- Spring Boot 高效資料聚合之道Spring Boot
- 位置不可用資料夾?的破解之道!
- 【安全告警資料分析之道:一】資料透視篇
- DataPipeline:讓資料生產力的歷史程式,再前進一步API
- DataPipeline可以幫企業資料整合解決哪些核心難題?API
- 雙向賦能:AI與資料庫的修行之道AI資料庫
- 資料倉儲的效能問題及解決之道
- 資料夾拒絕訪問的原因與破解之道
- 打造實時資料整合平臺——DataPipeline基於Kafka Connect的應用實踐APIKafka
- 資料融合平臺,專注服務及資料整合
- DataPipeline與海量資料完成產品互認證,助推資料管理信創生態新程式API
- 2019融資租賃行業的大資料解決方案之道行業大資料
- 讀資料工程之道:設計和構建健壯的資料系統26資料建模
- 從雲洩露事件談雲資料庫的攻防之道事件資料庫
- 杉巖資料:工業視覺的智慧儲存之道視覺
- DataPipeline「自定義」資料來源,解決複雜請求邏輯外部資料獲取難題API
- 讀資料工程之道:設計和構建健壯的資料系統24獲取資料的方式
- 讀資料工程之道:設計和構建健壯的資料系統02資料工程師工程師
- 讀資料工程之道:設計和構建健壯的資料系統01資料工程概述
- 讀資料工程之道:設計和構建健壯的資料系統21資料獲取
- 讀資料工程之道:設計和構建健壯的資料系統07資料架構的原則架構
- 資料技術大融合,HSTAP資料庫有多少想象空間?資料庫
- 百度時序資料庫——儲存的省錢之道資料庫
- 新一代資料架構的效能與成本平衡之道架構
- 乾貨!DataPipeline2021資料管理與創新大會全篇劃重點API
- 資料採集與融合術作業三