企業級統一資料平臺建設思路

星環科技發表於2023-04-04
由於企業的業務系統資訊化的分階段建設、以各自業務為導向等原因,每個業務都積累自身的資料,形成一定的資料孤島。 而數字化轉型的一個核心就是以資料為抓手來打通各個不同的業務,以資料驅動輔助經驗主導的流程來輔助業務,因此需要企業建成一個統一的、可共享的資料平臺,推進建設內部業務的統一資料化,為企業管理和決策提供資料基礎與分析能力保障 ,幫助企業落地數字化戰略。 建設企業統一的資料平臺需要考慮哪些問題? 本文進行介紹。

— 企業級統一資料平臺整體建設思路

企業級資料平臺 指的是支撐企業的數字化業務創新和運營的技術基礎平臺,提供資料驅動、精準決策的全方位技術支撐。

  • 整體要求

從公司整體的數字化戰略的視角來看,資料平臺透過統一的資料整合、儲存、計算和服務能力,可以打破企業內部壁壘,服務於企業內的不同業務部門和組織部門,將無形的業務流程自動化和資料化。為了達到既定的戰略要求,企業資料平臺需要實現幾個必要的統一,主要包括:

  • 統一整合企業內、外部各類業務系統資料,儘量做到“應存盡存、能收則收、層級化管理”;
  • 統一管理企業內外部資料資產,形成企業統一資料治理標準及規範,落實資料安全管控,將資料資產化和業務化,實現“資料既能管得住,也能立即用”;
  • 統一支撐企業以及各個組織部門、子公司等創新型應用和業務,提供包括實時計算、離線計算、機器學習等在內的多樣化的計算能力,輔助按需提供的算力和資料資產,從而發現資料的業務價值,透過資料驅動來推動經營最佳化、創新業務探索、風險控制等新業務,推動企業數字化轉型。

  • 資料架構的設計

資料架構 描述如何管理從收集到轉換、分發和使用的資料。它為資料及其在資料儲存系統中流動的方式設定了藍圖。它是資料處理操作和人工智慧 (AI) 應用程式的基礎。
資料架構的設計應該由業務需求驅動,資料架構師和資料工程師使用這些需求來定義相應的資料模型以及支援它的底層資料結構。這些設計通常有助於滿足業務需求,例如報告或資料科學計劃。
隨著物聯網 (IoT) 等新興技術的出現,新的資料來源不斷湧現,良好的資料架構可以確保資料易於管理且具有利用價值,從而支援資料生命週期管理。更具體地說,它可以避免冗餘資料儲存,透過清理和重複資料刪除來提高資料質量,並支援新的應用程式。現代資料架構還提供了跨域(例如部門或地理區域之間)整合資料的機制,打破了資料孤島,因而消除了將所有資料儲存在同一地方所帶來的巨大複雜性。
現代資料架構經常利用雲平臺來管理和處理資料。雖然它的成本更高,但它的計算可擴充套件性使重要資料處理任務能夠快速完成。儲存可擴充套件性還有助於應對不斷增長的資料量,並確保所有相關資料都可用,以提高訓練 AI 應用程式的質量。
現代資料架構的七大特徵:

  • 雲原生和支援雲,讓資料架構能夠從雲技術的彈性擴充套件和高可用性中受益。
  • 強大、可擴充套件且可移植的資料管道,將智慧工作流、認知分析和實時整合結合在一個框架中。
  • 無縫資料整合,使用標準 API 介面連線到原有應用程式。
  • 實時資料支援,包括驗證、分類、管理和治理。
  • 解耦且可擴充套件,因此服務之間沒有依賴關係,而且開放標準支援互操作性。
  • 多租戶支援能力
  • 經過最佳化,在成本和簡單性之間取得平衡。


— 企業級統一資料平臺的五大能力要求

起初,資料平臺技術(國內約是2010年後)的定位是儲存原始格式資料的大資料平臺,可容納結構化、半結構化、非結構化及二進位制的資料。隨著大資料技術的融合發展,資料平臺的邊界不斷擴充套件,內涵也發生了變化,逐步形成了5大能力要求,如下圖所示:
企業資料平臺的5大核心能力要求主要包括:

  • 資料多源異構: 資料平臺能夠整合和整合多源異構的海量資料,支援結構化、半結構化、非結構化等各種資料模型,這樣就能夠保證即使後期業務有了新的需求,資料平臺也能夠即時的完成資料接入、整合和最終的服務,在技術上也能夠支撐企業落地“應存盡存、能收則收”的資料戰略。
  • 資料統一的儲存與管理: 隨著分散式儲存技術的快速發展,提供統一的資料儲存服務已經成為業內的共識,在實現方式上可以是物理上的統一(所有資料透過物理複製到企業資料平臺上)或邏輯上的統一(部分資料仍然在其他資料儲存中,但可以透過後設資料管理、資料聯邦等方式實現邏輯的儲存管理)。基於統一的資料儲存和管理能力,企業才能根本上解決了“資料孤島”的打通,並且往上對接各種計算引擎和資料管理工具,從而為後續的資料資產化和服務化打好基礎。
  • 多正規化計算: 資料資源自身能夠提供的價值有限,而海量資料透過多維度的碰撞、關聯分析或智慧化學習後,隱藏在資料裡面的離散價值就可以被發現和挖掘出來,從而將資料變成有價值的資產。由於支撐業務的多樣性,企業級資料平臺需要支援多種計算引擎,滿足不同資料計算分析需求,支援離線計算、實施計算、圖計算、機器學習等多種計算正規化,讓不同的開發者和分析師可以按照他們的技能領域和業務範疇來選擇合適的計算工具或引擎,讓資料被真正的開發和利用起來。
  • 資料服務多樣化: 前面提到的資料整合、儲存和計算都屬於基礎的資料平臺技術能力,而資料服務就是銜接資料平臺和業務之間的關鍵要素,或者說是資料平臺為業務和組織生產的關鍵產品。企業的產品是企業實現經營性目標的核心交付方式,也是與使用者建立黏性的關鍵介質;同樣的類比也適合於資料平臺,因此作為資料平臺產品的各種資料服務也是保證資料平臺成功的關鍵要素,要做到質量高、品類豐富、安全合規和服務方式多樣化,可支撐各種業務領域。目前企業內主要的資料服務形式包括SQL、API、資料指標、資料標籤和資料模型等。
  • 應用廣泛: 目前各個行業的企業資料應用發展如火如荼,如面向企業經營分析的各類資料分析產品,面向政府管理的資料大屏、“健康碼”等應用,以及面向消費者業務的資料決策類產品等,應用的創新速度超過資料平臺本身。衡量一個資料平臺的成功與否,其最主要的KPI指標應該也是“該資料平臺支撐的成功的資料應用的數量和業務效果”。資料平臺和資料應用平臺可以分開建設,也可以統一建設。在統一建設的模式下,企業資料平臺除了給業務應用提供資料資源或資料資產外,還可以為資料應用提供資源排程和生命週期管理能力,這樣不僅可以提升應用的效能,還可以提供彈性伸縮、資源隔離等應用所需的基礎支撐,從而可以讓資料應用更加健壯和高效。


— 企業級統一資料平臺的設計考量

為了能夠幫助企業快速的支撐業務的需求,更好的滿足數字應用的開發和運營,企業資料平臺應該是以PaaS平臺來對內對外提供服務能力,而不再應該是面向運維和管理的IaaS方式。而在PaaS構建的過程中,為了能夠適應未來企業的靈活、快速變化的業務需求,企業資料平臺需要遵從如下的幾個主要設計考量:

  • 以資料為中心,業務導向

在總體的設計思路上,我們應該從傳統的以資源為中心,以運維便利性作為首要考量因素,轉變為以資料為中心,以業務作為導向,將可以加速業務創新速度的技術作為更優先的指標。資料、應用和智慧是數字化的三大核心原料,我們需要在一個PaaS平臺上提供包括資料分析、應用開發和智慧建模等在內的完整的工具鏈,並開放給儘可能多的使用者來嘗試創新。

  • 雲原生

傳統的虛擬化技術因為有很大的技術開銷,啟動和關閉速度慢,擴縮容能力弱,因此並不適合包括微服務、分散式系統在內的新一代工作負載。容器技術有效解決了相關問題,可以提高資料中心的資源使用率的同時,能夠給微服務提供更好的彈性和擴充套件能力。而透過技術創新,容器技術同樣可以支援包括分散式資料庫在內的複雜業務系統,同時還可以提供多租戶、自動擴充套件、自動化冗餘等能力,這對業務開發者來說進一步降低了運維的難度。因此,容器化技術是未來。

  • 融合互通

約瑟夫.熊彼特曾經指出,創新是生產要素的重組。重組可能主要做加法,做融合或者通用化;也可能是做減法,做分離和專用化。融合帶來通用和低成本,但是會有一些冗餘;分離的優勢是高效能和特定場景的能力,但是應用場景少、成本高。融合追求大眾普適,分離面向專業群體。
數字化基礎設施的使用者是面向企業或組織內廣泛的應用開發者、資料建模人員、以及業務人員,所有處在業務一線的人員都是資料生態的重要人員。因此在設計數字化基礎設施的時候,我們需要充分考慮通用性和低成本,這樣才能更好的服務於目標物件。
從技術的角度來分析,應用可能會執行在公有云、私有云、邊緣端等任何可能有計算能力的地方,而資料也會隨著業務而沉澱,因此我們在設計的時候就需要考慮應用的跨雲能力、資料的互通互聯、雲端和邊緣端協同等,從而拒絕技術煙囪,減少各種可能的孤島問題。

  • 層次化設計

在架構設計上,需要從傳統的以應用驅動開發的方式形成的煙囪式技術棧,轉變為追求服務共享複用思路的層次化設計。
下圖是企業資料平臺的設計思路,做的一個概要的設計參考架構,它不僅包含了技術底層,還有資料業務中心層和業務服務層。

最上層是直接服務於業務的服務層,提供App、web等的之間訪問和互動能力;中間層是企業的資料業務中心,也是最核心的部分,它包含企業沉澱的各種有效的業務服務和資料服務,業務按照DDD的原則進行服務劃分,資料都做了有效的建模形成資料資產,這可能包含資料倉儲、資料湖或者資料中臺的建設;而底層應該是雲基礎平臺,提供包括大資料、AI、Kubernetes、容器、資料庫、計算、網路、安全等在內的技術能力。

— 小結

本文介紹了企業數字化轉型的三層業務模式,給出了平臺建設的整體思路,以及一些基礎能力要求和建設上的考量。相信大家透過閱讀本文,對企業數字化建設已經有了基礎概念。那麼面對紛繁複雜的資料來源,多元化的資料結構,企業資料平臺建設該從何處入手呢?哪個資料管理架構適合自己的企業呢?下一篇將介紹資料倉儲、資料集市、資料湖。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69994106/viewspace-2943860/,如需轉載,請註明出處,否則將追究法律責任。

相關文章