縱橫20年,我所經歷的資料開放演化史

ITPUB社群發表於2022-11-25

現在資料開放成了資料治理的熱點,但資料開放是沒法一步到位的,每個企業都要基於實際需要走出自己的路,下面就講講我所經歷的資料開放演化史,整個過程長達近20年,大致經歷了五個階段:
(1)資料倉儲時期-應用開放模式(2004-2007)
(2)資料集市時期-資料集開放模式(2007-2014)
(3)大資料平臺時期-租戶開放模式(2014-2017)
(4)資料中臺時期-API開放模式(2017-2021)
(5)企業級資料治理時期-統一開放模式(2021-至今)
每個時期的資料開放模式也折射出了那個時期業務對資料的真正訴求,同時帶有明顯的時代特徵。

1、資料倉儲時期-應用開放模式(2004-2007)

業務驅動:


主要是為了滿足公司財務管理、市場經營,客戶服務等生產經營需要,屬於被動的剛性要求。


資料來源:


透過資料倉儲歸集業務系統的資料,加工處理後形成模型、報表和指標資料。


資料範圍:


單領域級,以業務B域為主。


開放形式:


模式A-透過web門戶等渠道向業務部門提供資料,後增加了自助等形式。


模式B-透過定製化取數工單的形式提供資料。


資料特點:


模式A-加工完成的應用資料,以報表、指標為主,資料粒度較粗,一次使用完成後無法再重複利用,資料靈活性低,資料安全程度高。


模式B-報表、指標及結果資料為主,一次使用完成後無法再重複利用,資料靈活性高,資料安全程度高。


開放時效:


模式A-所見即所得。


模式B-依賴於資料團隊的開發速度,一般為幾天到幾周。


開放成本:


模式A-一次性開發投入後持續自動更新和開放,受眾範圍廣,價效比高。


模式B-每次開放都需要定製化開發,受眾範圍小,價效比低,開放成本隨著需求的增加線性增長。


開放組織:


經營分析室。


2、資料集市時期-資料集開放模式(2007-2014)


業務驅動:


應用開放模式以開放固定的統計資料和結果資料為主,難以滿足市場快速靈活的資料分析需求,一線要求開放可再利用的原生資料和模型資料,即採取“授人以漁”模式。


資料來源:


透過資料倉儲歸集的業務系統的原生資料及加工處理後形成的模型資料。


資料範圍:


單領域級,以業務B域為主。


開放形式:


在模式A、B基礎上,新增模式C-即透過資料交換需求工單的形式提供資料集到資料集市,一線自主加工後使用。


資料特點:


原生資料或者模型資料,以細粒度清單級資料為主,資料靈活性高,資料安全管控要求高。


開放時效:


一方面依賴於資料團隊的交換配置時長和審批時長,另一方面也依賴一線資料團隊的二次加工速度,一般為幾天到一週。


開放成本:


一次性的資料交換成本及一線的二次開發成本。


開放組織:


資料運營部。


3、大資料平臺時期-租戶開放模式(2014-2017)


業務驅動:


移動網際網路時代開啟,流量資料爆發式增長,市場競爭日趨激烈,公司一方面要求加強使用者上網行為分析,進一步加快資料響應速度,另一方面也要求探索對外資料價值變現,這對資料開放支撐模式和開放範圍都提出了更高要求。


資料來源:


透過大資料平臺歸集的業務系統的原始資料及加工處理後形成的模型資料。


資料範圍:


多領域,包括B域規模資料,O域高價值資料(DPI,位置等),M域個別資料。


開放形式:


在模式A、B及C基礎上,新增模式D-即大資料租戶的開放形式,相對於資料集市,大資料租戶不僅可以授權開放,省去了資料交換的環節,而且開通的速度和靈活性大幅增加,這讓“授人以漁”的開放模式逐步普及,資料租戶開始百花齊放。


資料特點:


原生資料或者模型資料,以細粒度清單級資料為主,資料安全管控要求高,資料靈活性高。


開放時效:


所見即所得。


開放成本:


由於要直接給業務人員使用,開放資料的加工成本和解釋成本很高。


開放組織:


大資料中心。


4、資料中臺時期-API開放模式(2017-2021)


業務驅動:


針對資料開放運營中暴露的業務場景理解不深、能力無法沉澱和複用、開放過程無法掌控、開放效果無法評估、資源消耗過大,安全風險較高等問題,要求最佳化資料開放模式,提升資料開放的效率和效益。


資料來源:


在原來基礎上,減少了原生資料的開放,加強二次加工後的資料模型的開放比例。


資料範圍:


範圍和類別基本不變,但基於業務需要不斷豐富原有資料的屬性和質量。


開放形式:


在模式A、B、C及D基礎上,新增模式E-即API的開放形式,並對API進行閉環運營。


資料特點:


以模型資料及統計資料為主,時效性強、業務價值高、可解釋性強,安全性較高。


開放時效:


所見即所得。


開放成本:


API封裝需要一定的開發週期,需求方對接的開發成本較高。


開放組織:


大資料中心。


5、企業級資料治理時期-統一開放模式(2021-至今)


業務驅動:


數字化轉型要求公司實施流程重構,實現全域性流程最優,這就要求建立企業級資料治理體系,實現公司全域資料的貫通、採集和開放。


資料來源:


透過資料湖歸集的業務系統的原始資料及加工處理後形成的數倉模型資料。


資料範圍:


全領域,BOM全域資料,全面的跨域開放。


開放形式:


整合C、D、E三種開放模式,打造統一的資料目錄和開放流程,透過資料地圖提供一站式的針對各類開放型別的資料訂閱開放服務,確保一致的開放體驗。


資料特點:


原生資料+模型資料為主,業務價值高、可解釋性強。


開放時效:


明確C、D、E的開放服務承諾並進行閉環運營。


開放成本:


透過平臺化、集約化、標準化、自助化推進開放成本降低。


開放組織:


企業資料管理部牽頭,明確資料擁有方、資料申請方,安全管理方等的職責。


從21世紀初資料倉儲出現到現在已經過去近20年,資料開放的形式也在不斷演化,不同的開放形式其實適配了不同領域資料分析的要求,在同一個公司,不同開放形式也往往同時存在,比如我所在的公司,ABCDE五種開放模式就同時存在。


要承認,模式A和B仍然是大多數公司的開放現狀,但按照資料開放最新的定義,A和B甚至不能叫作資料開放,因為其僅能為特定應用目的服務,很難二次利用,流動起來也沒多大價值,因此,一個公司報表和取數做的再多,也不代表資料開放水平和利用水平有多高。


相應的,C、D和E是更具價值的開放形式,但對這些原生資料的開採利用門檻會高很多,需要公司組織、機制、流程和平臺的保障。


比如資料首先要找得到,讀得懂,這就對公司的資料架構管理水平提出很高要求,至少要建立基本的資料目錄和資料標準,又比如資料開放出去需要有人會用,這就對公司資料需求方的技術能力提出要求,再比如資料開放出去安全風險很大,這就對公司的資料安全管理能力提出更高要求,再比如要確保開放出去的資料質量,這就要求資料提供方能給出SLA承諾,所有這些,都離不開企業資料治理體系的保駕護航。


在相當長時間內,大多數公司只能將資料開放限制在特定的領域和特定的人群,這既受限於業務需要,也受制於生產關係,而數字化轉型則是當前驅動資料進一步開放的催化劑。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70024420/viewspace-2925207/,如需轉載,請註明出處,否則將追究法律責任。

相關文章