DataPipeline:讓資料生產力的歷史程式,再前進一步

DataPipeline發表於2022-06-02

明論資本對話DataPipeline:讓資料生產力的歷史程式,再前進一步。

當下,資料所引發的生產要素變革,正在重塑著我們的需求、生產、供應和消費,改變著社會的組織執行方式。對於企業來講,其競爭的本質是在“外部環境、生產環境、供應鏈協同等”複雜且不確定性強的市場環境下資源配置效率的競爭。 資料,作為企業資源的具體表現形式和重要載體,其管理效能的高低直接決定了企業的生存能力。

隨著資料技術的更新迭代和市場需求的快速升級,資料管理在內外部作用下逐漸被賦予新的責任。在技術側,資料來源的架構在變得繁多和複雜,資料應用也逐漸變得更加垂直和場景化,這也倒逼了現代資料架構飛速發展。在業務側,其被要求回答:如何快速感知市場變化、識別潛在客戶需求,如何增強決策準確性、實時性,如何構建能變革業務的資料驅動的應用等。資料管理,已經從一項技術管理工作升級為系統工程。 DataOps這樣的新型資料管理方法,恰逢其時地走到臺前,彌補抽象的“採、存、管、用”發力不足的問題。

一千個人眼中有一千種對資料管理的“想象”。今天,我們邀請到DataPipeline的創始人兼CEO陳誠,走近DataPipeline,看這家專注於下一代資料基礎設施的公司是如何幫助企業實現基於DataOps理念的“全鏈路”資料管理。

行業革新,資料管理識變應變求變

“面對不確定性新常態,對於各行各業的企業管理者來說,如何高效地利用手頭的資料,實時、精確地感知和洞察業務變化,更好地提高企業的運營效率、尋找業務的增長點是每個企業都需要面對的必修課。

——DataPipeline創始人兼CEO陳誠”

 

明論:在大資料行業飛速發展的今天,資料管理的重要性是各行業管理者的共識。從您的觀察來看,在過去的 20 年時間裡,資料管理發生了什麼變化?

陳誠:隨著新的業務形態不斷出現,各行業的客戶行為也發生著日新月異的變化,例如服務的場景化社交化、營銷渠道的線上線下一體化等,這對傳統的經營模式帶來了巨大的挑戰。企業的推廣獲客成本、營銷流量成本和簽單成本越來越高,流量精準度和轉化率不足,利潤慢慢地被吞噬。如何高效地利用手頭的資料,實時、精確地洞察業務變化,更好地提高企業的運營效率, 尋找在“感知、決策、執行”上的新發力點是每個企業都需要面對的必修課。

同時,大量行業都非數字原生,其經歷了漫長的業務電子化和經營線上化的資訊化及數字化過程,且均圍繞其各個業務板塊的業務流程進行,資料逐漸滲透至企業設計、生產、管理、服務和運營等的全流程。這天然地導致資料來源多樣, 資料結構複雜,系統之間相互割裂,資料難以互聯互通,資料孤島大量存在。

在資料基礎層,業務形態的豐富帶來繁多的資料種類,例如支撐核心系統的新型的NewSQL TP,各類支援系統、各運營類應用的場景化和SaaS化,也包括了各類IOT裝置和工業協議的顯著增多。同時, 資料傳輸層相應出現各類相匹配的資料獲取方式。 業務應用與資料應用的上層分佈也發生了很大變化。除了傳統的BI應用外,現在還出現了更為複雜且智慧的嵌入式BI和增強BI。對於面向資料業務的應用,有各類基於營銷、客戶服務、產品迭代、風險管理等不同場景的資料驅動型應用的落地,而構建這些應用不只需要簡單的業務邏輯梳理,而是需要對實體資料的探查和推演。

技術場景的快速分化產生大量不同特性的儲存與計算引擎、信創大勢下優秀國產基礎軟體湧現、業務導向下資料結構的快速迭代、網路技術革新帶來的豐富資料來源, 繁榮的技術生態也在呼喚更創新的資料管理方式。

業務全場景創新、資料量爆炸式增長且滲透度高、資料時效性需求增加、資料採集/獲取/應用的複雜度提升、異構資料技術引擎的湧現與驅動,這幾個因素的加權將帶來必然的資料管理理念與實踐的變革。

選擇DataOps,資料生產力歷史程式再前進一步

“「連線一切資料、應用和裝置」是DataPipeline的使命,這個看似直白的目標,在以終為始的倒推中,展開了一張越來越紛雜的產品能力拼圖。這是一個構建圍繞‘流程+工具+組織’的DataOps時代,DataOps讓我們有了能力建設的‘上帝視角’。

——DataPipeline創始人兼CEO陳誠”

明論:圍繞資料管理發生的這些變化,請談談這對於企業來說意味著什麼?

陳誠:為了應對業務與資料需求的不斷變化,企業內部管理理念、管理角色、管理工具也面臨巨大變化。

從上世紀90年代開始,建設以行業領域模型為主的資料倉儲、資料集市以支援確定性高的報表類需求,這是資料管理的摸索期,企業經營管理剛剛開始嘗試向業務為核心、資料為輔助的方向發展。資料管理重點體現在強主題域建模、對靜態後設資料及主資料的管理、長週期的資料治理,參與的人員僅限於建模工程師、ETL工程師、報表工程師這種專業資料崗位。

2010年左右開始,由於網際網路公司的崛起、網際網路資料的爆炸,開始有了更大量的資料、更加複雜和多樣的資料來源,以及一些特定場景的資料驅動的應用,資料的流轉、儲存以及管理等問題變得更加複雜。 在這個時期,企業關注重點轉移到建設大資料平臺、資料湖、資料中臺、資料資產目錄。從一定程度上來說,大資料平臺的初衷是希望去顛覆數倉的,但這件事情並沒有發生,企業發現這是兩類需求,兩種workload,都有適用的場景,多種管理形態的共生是必要的。

DataOps這一理念在 2014 年被提出,於2018年被Gartner首次納入資料管理技術成熟度曲線中,並保持增長態勢,到2021年 DataOps 已由技術萌芽期(Innovation Trigger)爬坡接近至頂峰期(Peak of Inflated Expectations)。 DataOps給資料管理提供了一條“流程+工具+組織”的落地實踐新正規化。DataOps理念的目標是使得企業可以透過對資料鏈路持續構建,像交付應用一樣快速、靈活地交付資料,並在過程中管理好資料鏈路的可觀測性,讓資料業務人員更容易地發現資料、安全地使用資料,最終達到降低TCO,提高ROI,幫助各行各業的企業實現數字化和智慧化轉型的長期戰略目標。

明論:DataOps的資料管理理念具體有什麼特點呢?

陳誠:如何透過增強多方角色協同與敏捷開發程度等,使得資料從生產端到消費端的的各個環節不要脫節,使資料管理成為一個有機整體,是未來資料管理的重要方向。DataOps是這一理念的典型代表,它有幾個關鍵的資料管理理念變化:

第一個是資料邏輯的疊加。業務應用以流程邏輯為核心,透過敏捷開發、持續整合和持續交付(CI/CD)、自動化測試和程式碼推廣、重用和自動化等的研發能力,就可以適應普遍的迭代使用需求。而資料應用必須要考慮兩種邏輯,即業務邏輯和資料邏輯的疊加,很難單用業務邏輯解決,並且資料邏輯變化快得多。因此除了要掌握應用邏輯的迭代方法外, 還需要一套全新的關於資料邏輯迭代的方法,其中應該包括資料應用中對於業務邏輯和資料邏輯的整體考量,從而做到像交付應用一樣交付資料。

第二個是資料模型的後置 。在滿足相對確定的資料倉儲支援的BI/報表類需求時,這是強主題域模型驅動的,即客戶對於未來這個資料需求的滿足有深入的具象化理解。因此需要根據資料模型構建ETL,使得資料在流轉過程中變成滿足需求的形態。然而,隨著資料驅動的產品/服務/營銷類資料應用越來越多,傳統的主題域模型不再能提供足夠的靈活度,因此,越來越多的企業不再做強建模ETL,而是 轉向了對於資料湖/大資料平臺的建設,先將資料匯聚,並將transformation/業務建模的工作後置,形成ELT,以求更加靈活的應對快速迭代的資料應用需求。

第三個是多種模式的湧現。隨著資料應用的場景、種類、時效性要求變的越來越多,整體資料鏈路中的各類模式在快速豐富。具體表現在 資料來源的多模式(業務資料庫的實時CDC資料、客戶端使用者行為埋點資料、外部系統API資料、工業裝置資料等), 資料應用的多模式(統計分析、異常檢測、事件營銷、量化風控等),以及必然帶來的 資料處理方式的多模式(資料倉儲架構、大資料平臺架構、透過流式計算引擎架構等) 。同時企業也意識到,基於大資料平臺、流式計算引擎的資料處理模式和數倉的資料處理模式並不是替代和顛覆的關係,而是在可見的未來,會共同且長期的存在於企業的資料架構當中,並不斷引入和整合更新、更加場景化的處理模式,以應對快速變化的市場需求。在這一過程中,如何管理、維護、監控不同的資料鏈路和處理邏輯,是企業必須要解決的問題。

第四個是協作和自助的資料發現。在資料管理早期,大家管理的是靜態的後設資料和主資料,後來開始提出資料資產目錄,目前又增加了“協作和自助的資料發現”。這意味著資料管理從以前的只有資料科學家參與的資料管理,到組織裡所有的人都自主參與進來,以更好地發現資料資產的變化。此外, DataOps在內部敏捷協作上也有了更高的要求,要求資料流水線上各部門的人員都能敏捷協作。最後,隨著資料量的迅速增加,安全也成為一個重要議題。行業法律法規和企業內部風控的不斷加強,都對資料安全的管理提出了更高的要求。

DataOps時代的資料工具有四個核心元件。首先是資料融合平臺,這裡麵包括多元異構的資料流轉、實時ELT、Reverse ETL等資料鏈路管理,第二個是貫穿整個資料鏈路的可觀測性平臺,第三個是支撐資料鏈路持續交付的資料發現平臺。第四個是保障持續交付合規安全的資料安全平臺。這四個核心元件就是DataPipeline搭建的DataOps基礎設施。

以基於DataOps理念的資料基礎設施角逐世界舞臺

“DataPipeline在做的是基於DataOps理念的下一代資料基礎設施。目前國內還沒有圍繞DataOps建立現代資料管理全矩陣產品的公司,DataPipeline是第一家。我們已經把競爭範圍放到了世界資料管理領域的舞臺。

——DataPipeline創始人兼CEO陳誠”

明論:DataPipeline一直堅持用產品化的方式解決問題,但是很多人覺得在中國特殊的商業環境下不同行業不同規模的企業面臨的問題都很不一樣,你是怎麼看的?

陳誠:DataPipeline在做的是面向資料管理新正規化的DataOps基礎設施,是世界現代資料架構核心元件廠商。我們圍繞資料鏈路的開發與管理,提供符合本地需求的現代資料架構核心元件,同時具備世界的能力、規劃面向世界的產品。

DataPipeline要做的不僅是中國市場的No.1,也要做世界資料管理領域最先進的公司。目前,國內軟體業存在的一些短板還亟需補齊,這突出反映在軟體核心技術、軟體應用生態方面,國家也正在從軟體大國向軟體強國邁進。過去二三十年裡,核心資料基礎設施已經逐步擺脫出被國外廠商把控的狀態,從資料基礎設施到應用軟體的國產化替代將持續走高,中介軟體和資料庫的國產化率甚至可達一半左右。DataPipeline,也在透過標準化產品服務千行百業資料創新,這是“解答時代命題”的必然責任。

DataPipeline:讓資料生產力的歷史程式,再前進一步

DataPipeline產品體系

對於標準化產品,我們必須要做到的是對產品的抽象提取,否則的話就只是一個服務型的公司。在設計標準化產品時,我們要做的不是解決某一個客戶的具體需求,而是比對大量客戶需求,用宏觀抽象的思路把這些需求做整合,設計構建一個靈活、可配置的產品結構。我們設計的出發點是以抽象的角度來思考問題,而不是隻解決單一的具象化問題。也就是說我們在打磨產品的時候,需要比著需求的上限去工作,而不是需求的下限。雖然對於我們來說, 產品化意味著更多的時間和成本投入,但這是建立一個資料基礎設施廠商的必經之路。DataPipeline提供標準化的產品,以及可以交付合作夥伴開發的Paas平臺,使用統一的視覺化管理、支援雲化和私有化、上線迅速、方便易用。我們認為只有這樣的產品,才能夠滿足不同客戶快速部署的需要。

明論:具體在面對各種不同的客戶時,DataPipeline是如何透過標準化的產品解決他們不同業務需求的?

陳誠:不同型別的客戶對資料運用的程度和場景會有不同。首先, 以金融、電信為代表的行業較早享受到了“資料紅利”,其資料管理意願及基礎能力突出。其次,資料痛點比較明確且經營狀況良好的企業,更能快順應DataOps大潮,比如金融、能源、電信行業和一些頭部的世界五百強企業。這些客戶本身IT水平高,資料價值密度高,盈利能力強。他們對DataOps的資料管理理念有著很高的認可度和需求,也是目前國內DataOps實踐的領軍企業。

我們和某股份制商業銀行的合作就是一個典型的例子。銀行業可以說是對資料管理要求最高且場景最為複雜的客戶了,該銀行是國內第一批開展資料倉儲建設的商業銀行,本身已經構建了很強的批處理能力,在早期的銀行業中其資料架構上處於領先水平。隨著實時反欺詐/反洗錢、資料驅動營銷、服務和風控的需求不斷增加,這對資料管理提出了從批次升級到實時的要求,以及對資料探查和推演的要求。DataPipeline為該客戶提供了從單系統實時到多系統匯聚,從營銷場景試點到經營決策大規模推廣的多維度支援。與此同時,客戶內部的資料組織架構與流程也發生了變化,各類角色參與廣泛,資料價值極大化釋放,對員工能力提升和組織穩定性也帶來巨大幫助。

製造業,我國經濟穩定發展的“壓艙石“,其資料管理創新必要性已經成為產業共識。但製造業是一個流程長、門類繁多、應用場景複雜的行業,且受限於國內工業水平發展的在先背景,該領域的的資料管理面臨較大挑戰。 該狀態下,製造業反倒對DataOps的創新理念需求迫切度越來越高。這些企業往往在資料管理職責分佈上比較分散,各單元主體在接入資料型別數量、資料實時性和資料安全上有各自的差異化要求。 DataPipeline服務過的某知名民營汽車企業,在十幾年前已經是行業領先地位,管理體系和IT架構在那時候逐步建立成熟。但為應對汽車行業的持續變化,該公司在原有主營業務之外,逐步增加了對創新業務和創新技術的探索。創新與風險並存,這對整個組織的同步和響應提出了更高的要求。客戶需要將分佈於工廠大腦測試系統、新能源系統、智慧營銷系統、集團關係型資料庫系統、使用者滿意度評價系統等各類系統的資料高效實時地提供到經營管理、業務分析、物流最佳化等平臺,以提升生產運營及企業管理的效率及質量。在過去的兩年多時間裡,DataPipeline將該客戶全渠道資料打通,實現資料對經營、管理、創新的賦能。並且,該客戶旗下的汽車、消費金融業務子公司也紛紛和我們開展合作。相應地,在公司組織上,客戶的精益管理和組織內部協作上也發生了很大變化,前端業務部門、後臺支援部門、生產與研發部門形成了有機聯動。

除以上舉例的兩個企業客戶之外,像證券、保險、運營商、石油石化這類資料基礎較好的行業狀況與銀行類客戶管理特性趨同,更加看中資料持續交付過程中核心能力的持續加強。醫療、教育、環保等領域的客戶與製造業的企業客戶服務經驗相通,都會面臨要搭建更長鏈條、可以滿足業務與資料都端到端的IT基礎設施。當然,我們還服務一些頭部的網際網路、零售行業客戶,他們的業務及資訊化水平都比較高,對資料管理產品的利用能力也很強,但是有著完全不同於以上談到的銀行與製造等行業的資料特點。 總之,我們透過服務對資料管理有不同特性的行業中的典型客戶,不斷考核和打磨我們的產品,完善我們的各項能力,使得我們的產品能滿足各種資料管理的需求。

明論:DataPipeline的發展方向是什麼?

陳誠:隨著實踐經驗的不斷拓寬與深入,我們將進一步夯實多模式、自動化、自適應的資料鏈路管理。在此基礎上,我們也會和客戶一道構建具備自動化資料鏈路運維及運營能力的端到端資料可觀測性、滿足體系運維與質量運營的可觀測性要求。當然,我們也將繼續探索基於演算法的智慧化資料發現和資料安全產品,幫助客戶獲取資料探查、動態後設資料管理、資料風險管理等能力。

過去六年,DataPipeline不斷深耕全鏈路資料管理體系,憑藉在DataOps領域的深刻理解、戰略前瞻和豐富實踐,現已形成“資料鏈路+資料可觀測性+資料發現+資料安全”的一站式DataOps產品矩陣,覆蓋了圍繞“資料鏈路開發、管理、與安全”的一整套核心元件。 該產品矩陣可使企業的端到端資料工作流自動化,改善客戶在資料交付方面的體驗,從而驅動其更主動的商業決策和更高效的智慧化產品及服務。我們會在DataOps這條資料管理創新之路上一以貫之。

5月以來,我們又陸續落定了與多家頂尖金融機構和重點領域客戶的合作。我們非常興奮地看到各型別的企業都在構建種類繁多、影響行業的資料應用,這一趨勢使得我們的 客戶遍佈金融、電信、能源、製造、地產、零售、網際網路、醫療、教育、環保等各行各業。為了能夠更好地為各行業、各規模的客戶提供創新的企業級軟體,我們會持續透過建設覆蓋資料全鏈路、高度標準化的產品矩陣,在DataOps理念指導下,堅持技術驅動、深耕企業服務。我們會繼續以“連線一切資料、應用和裝置”為使命,幫助更多各行各業不同需求的企業實現數字化和智慧化轉型的戰略目標。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31556703/viewspace-2898516/,如需轉載,請註明出處,否則將追究法律責任。

相關文章