DataPipeline的資料融合之道

網路通訊頻道發表於2021-01-19

2020年12月21日~12月23日,由IT168旗下ITPUB企業社群平臺主辦的第十一屆中國資料庫技術大會(DTCC2020)在北京隆重召開。會議期間,數見科技DataPipeline合夥人&CPO陳雷接受了IT168小編的採訪,以下是採訪實錄:

▲數見科技DataPipeline合夥人&CPO 陳雷

IT168:很高興有機會採訪到您,請您介紹一下自己,所在公司及主打產品?

陳雷:畢業之後去了方正,然後IBM 11年,創業4年,一直從事資料領域的產品研發,系統交付工作。業務經驗主要集中在金融、通訊、能源等資訊化領先行業,現在所在的公司DatePipeline是一家年輕的中國本土企業,我們致力於成為中國的世界級資料中介軟體廠商,產品也叫DataPipeline,是一款資料整合領域的下一代中介軟體產品,功能覆蓋了實時資料採集、異構資料融合、實時資料處理等資料整合領域的主要場景。

IT168:您是何時進入這個行業的?這其中有沒有特別的原因或者契機?

陳雷:中介軟體行業可能和網際網路行業還不太一樣,還是有一定門檻的,我相信從事軟體行業的人大部分都和我一樣,沒有什麼特別偶然的原因或者契機,就是從小喜歡計算機,根據興趣選擇了專業然後一路走過來,如果一定要說原因的話,我覺得可能是我們國家近幾十年資訊科技的高速發展為我們提供了一展拳腳的空間,沒有讓我們放棄自己的興趣,這也是一個很幸福的事。

IT168:國內的市場格局是怎樣的?都有哪些玩家?數見科技處於怎樣的位置?

陳雷:主要分為三大類,第一類是傳統的外企,比如IBM、Oracle、Informatica等,有很成熟的產品和服務體系,但面對中國市場的新技術要求的應對稍顯緩慢,比如Informatica今年宣佈解散了中國公司,IBM和Oracle對國內正在逐步興起的資料庫都無法提供支援;

第二類是雲廠商,特別是公有云廠商,在大規模資料管理和應用上有非常深入的探索和實踐,比如OceanBase,也代表了未來的發展方向,但在資料整合這個領域還沒有特別有力的產品,而且在面向重點行業企業資訊化建設服務這一塊還是有很多的工作要做;

第三類是一些有技術實力的行業整合商也在做相關領域的工作,但大部分都是在專案實施過程中基於開源專案慢慢積累,從商業產品角度來說適應性還有待驗證;

數見科技從成立之初就堅持專業化、產品化發展的道路,堅持技術驅動,深耕企業服務,準確地講在產品的適應性上已經超過了傳統外企,但在產品成熟度上還有很多工作要做,我們現在也廣泛的和雲廠商與行業整合商合作,共同為企業客戶提供更好的服務。

IT168:據您所知,資料融合市場的規模大概是多少?

陳雷:資料中介軟體的上下游市場正在快速增長,倒逼資料融合需求不斷增長,可以說中介軟體和資料庫及資料應用市場在同一量級,2018年全球市場320億美元,預計到2022年,資料融合市場大概在120億美元以上,符合增長率14%,資料融合是中介軟體增長最快的細分市場

IT168:對於企業來講,在搭建資料管理平臺過程中都會面臨哪些挑戰和問題?

陳雷:這個內容就比較多了,講最重要的三個挑戰吧。

第一、各類資料管理技術差異越來越大,全面、準確的實時資料獲取困難。隨著資料技術的不斷髮展,針對某些具體場景的特性在不斷被增強,使得各類資料技術的差異性進一步擴大,但被納入其中的資料本身不應該因技術棧不同而阻礙其價值釋放。

交易系統、賬務系統、管理系統、分析系統、主資料、資料倉儲與大資料平臺採用的資料庫管理技術都不盡相同,資料交換困難重重;資料價值不斷凸顯,業務創新需要資料支撐,但大量資料沒有納入主資料管理系統,資料倉儲與大資料平臺又無法滿足時效性要求;

資料時效性要求越來越高,批次資料交換無法滿足需求,但針對不同資料庫的增量資料實時採集需要大量的技術儲備與研發成本;增量識別欄位等方式無法獲取準確完整的增量資料,經常為實時資料應用造成障礙,也提升了實時資料的使用成本;

不同資料庫管理技術在例項、庫、模式、表等資料物件上,欄位型別、精度、標度等語義模式上都有區別;對上游的結構變化感知與應對都需要針對不同資料庫技術區別對待;傳輸過程中的一致性、衝突、特定型別的資料處理也需要區別對待。

第二、如何快速響應實時資料需求,把握機會快速建立競爭優勢。業務需要更高的敏捷性來應對外部環境的變化,這需要整個數字化組織可以體系化的進行多速、敏捷的業務場景支撐,以及對突發業務活動有更多的可見性,以確保可以利用新出現的機會並快速建立競爭優勢。

端到端實時資料鏈路的構建,往往是以月為單位交付的,甚至更多;新的資料需求需要大量的程式碼開發,交付週期也是以周為單位計算的;數十種資料庫技術,多家供應商,十幾個支援電話,感覺自己也是是整合商;

實時資料處理技術棧門檻較高,人員流失率較高,剛剛用順手的供應商總是換人;資料組的要求無法透過DBA的稽核,應用研發對系統運維要求怨聲載道;資源使用與研發人員水平緊密相關,無法準確評估,遇到關鍵業務需求時捉襟見肘。

第三、實時資料鏈路兼具業務運營與管理支撐要求,穩定性與容錯性問題重重。從客戶行為分析到非交易類的觸客業務到事件營銷再到風控評分,實時資料鏈路逐漸成為業務運營的重要支撐,但作為打通各業務系統資料通道的中間層,受到的上下游的各類制約,對穩定性的影響尤其嚴重。

上下游節點的業務連續性和服務級別均高於實時資料鏈路,實時資料鏈路需要遵循上下游節點的認證、加密、許可權、日誌等管理機制;上游資料物件結構變化與資料物件的處理機制對實時資料鏈路影響巨大,例如結構變化採用rename方式;

實時資料流量不僅僅需要參考業務交易量,與上游系統的資料處理方式有很大的關係,經常出現一個語句百萬行增量的情況;隨著企業多中心及多雲戰略的執行,部署在不同網域或雲環境的系統配置,網路連通性乃至專線供應商與頻寬都對穩定性有影響;

對計劃、非計劃的網路不可用,上下游系統維護,物理刪除等非規操作及偶發的錯誤資料及主鍵衝突資料沒有相應的容錯性策略配置;出現系統故障時,無法保證各個元件的高可用,系統恢復困難,特別是實時資料鏈路的資料完整性與資料一致性很難恢復;

IT168:在過去一年中,數見科技在產品功能、技術研發,有哪些創新和突破?在過去的一年裡,我們針對產品進行了一次較為徹底的改造,主要體現在幾個方面。

陳雷:第一、進一步加強了基於日誌的增量資料獲取技術(Log-based change data capture),可以為各類資料平臺和應用提供實時、準確的資料變化,從而使得客戶可以根據最新資料進行運營管理與決策制定。

第二、對資料節點註冊、資料鏈路配置、資料任務構建、系統資源分配等各個環節進行分層管理,在有效地滿足系統運維管理需求的前提下,提升實時資料獲取與管理在各個環節的配合效率。

在資料節點、資料鏈路、融合任務及系統資源四個基本邏輯概念中,使用者只需要透過二至三項簡單配置就可以定義出可以執行的融合任務,系統提供基於最佳實踐的預設選項,實時資料需求的研發交付時間從2周減少為5分鐘。

第三、為應對複雜的實時資料場景需求,系統提供限制配置與策略配置兩大類十餘種高階配置。使用者可以透過這些配置對下游進行限制與管理,也可以透過這些配置來統一調整下游的執行範圍與策略應用範圍。

同時,最佳化了系統整體的分散式引擎,實現了元件級高可用。從產品配置到系統部署兩個方面保障實時資料鏈路的穩定高容錯。

IT168:近年來,您觀察到的資料融合市場發生了哪些變化,有哪些發展趨勢,數見科技如何契合這些趨勢?

陳雷:第一、市場競爭和使用者行為的巨大變化。使用者互動時間越來越短,演算法精度要求越來越高;流量維度越來越多,不再侷限於線上,必須適配場景來爭奪注意力;已經沒有確定的價值錨點,企業必須不斷加快自身進化速度。

第二、轉變運營模式要求多速IT的支撐。以客戶為中心的獨立產品運營模式,企業逐漸成為公共服務平臺;各個運營部門對資料的時效性、準確性、全面性要求都不相同;對作為基礎公共服務的資料平臺來說,不變的是對需求的快速響應;

第三、資料需求響應從研發向配置轉變。資料支撐與應用開發、系統運維的協調問題必須解決;在保障資料資源可控的前提下,為資料應用提供更多的自主性與敏捷性;系統資源管理與系統的部署擴充套件必須靈活方便且平滑穩定;

IT168:在國際上是否有類似數見科技資料融合的產品?相比之下有哪些差異化?國外的產品相比國內來講有哪些借鑑意義?

陳雷:IBM的InfoSphere Data Replication、DataStage和Streams、Oracle的Golden Gate和Informatica的PowerExchange和PowerCenter。和這類國外產品相比,DataPipeline有以下幾點區別:

第一、從功能性上來講,IBM和Oracle對各自的資料庫的支援毋庸置疑是最好的,但對新興的資料庫特別是國內正在廣泛使用的資料庫的支援力度就低了很多,DataPipeline透過自主研發和生態上下游的合作,不僅支援傳統的Oracle等關係型資料庫,也支援GaussDB、TiDB、巨杉等新興資料庫的實時資料採集。

第二、從部署架構和售賣方式上來講,傳統資料採集和資料處理工作是採用成對部署、成對售賣的方式,對客戶進行高可用部署、系統擴容都不十分友好,而DataPipeline是分散式叢集部署,在系統資源允許的情況下不限制使用者註冊資料節點,採用容器化部署方式,支援Kubernetes,支援動態擴縮容。

IT168:數見科技在做資料融合的過程中,有沒有什麼讓您印象深刻的故事?比如第一個客戶是怎麼來的?比如研發過程中如何解決一個比較大的難題。

陳雷:應該說印象深刻的事情實在是太多,客戶上線的喜悅,排除故障的辛勞,攻克技術難關的成就感,和每個創業者都會經歷的壓力,但這些其實也都很平常,這些就是一個技術人員的日常。用兩句短句總結一下。

凡是過往,皆為序章,十餘年沐雨櫛風,百萬裡地北天南,也平常!

念念不忘,必有迴響,再十年篳路藍縷,獻心力自強安邦,正起航!

IT168:您此前是否參加過中國資料庫技術大會?有哪些地方令您印象深刻?您如何看待DTCC大會?

陳雷:我在IBM中國實驗室的產品交付部門主要負責的就是資料相關的部分,包括DB2、Informix、Netezza在內的產品都是透過我們交付給中國的客戶,我在這裡可以說都是同行和朋友,我最大的感受是除了老朋友、老對手也有非常多的新面孔和新產品,為能夠從事這個蓬勃發展的行業感到高興,為能夠參加這個欣欣向榮的頂級盛會感到榮幸,作為一個行業老兵,也對DTCC能夠為中國乃至世界資料庫領域一直堅持做出如此貢獻表示感謝。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31545813/viewspace-2750977/,如需轉載,請註明出處,否則將追究法律責任。

相關文章