以企業級實時資料平臺為例,瞭解何為敏捷大資料
敏捷大資料,即在敏捷理念原則指導下,構建出一系列通用平臺工具,和一整套大資料應用全生命週期方法學,以支撐更輕量、更靈活、更低門檻的大資料實踐。本文從理論層面整體解釋我們所理解的“敏捷大資料”。
一、敏捷大資料的理念原則
1.1 元件化/平臺化/產品化/本地化
元件化/平臺化:通過對大資料處理鏈路進行模組化抽象,形成多個功能高度內聚的元件化平臺;元件化平臺既可獨立與已有平臺元件整合使用, 也可組合起來以解決更多不同鏈路上的問題。
產品化/本地化:通過組合不同的元件化平臺,加上抽象萃取過的業務邏輯模型和規則演算法模型,可以很容易構建特定業務領域的產品化解決方案;解決方案產品實際落地時可進行本地化處理,主要包括資料模型適配/規則集引入/演算法模型引數調整等。
1.2 統一化/開放化/管控化
統一化旨在簡化系統複雜度,提高管控能力;開放化旨在增強適應度,提高靈活性;兩者相輔相成,需要找到一個合理的平衡點,且不失整體的管控性。
1.3 標準化/介面化/配置化/視覺化
標準化/介面化:在大資料處理鏈路中,形成一系列標準化協議,包括資料名稱空間協議/後設資料和資料型別規範協議/資料訪問介面協議/查詢語言協議/資料傳輸協議/資料安全協議等;以服務介面和佇列介面方式提供系統間互動。
配置化/視覺化:以配置化和視覺化方式提供人機互動。
1.4 自助化/自動化/智慧化
現代資料應用要求能力輸出,讓領域使用者在受管控的環境中,可以更加自助化的使用平臺和資料實現業務需求;自助化的常規操作可以以自動化方式更好支援;自助化的洞察分析可以以智慧化方式更好支援。
1.5 引擎驅動化(事件引擎/動作引擎/規則引擎)
通過引入高階引擎驅動能力,使得敏捷大資料應用可以更加迅捷、靈動、主動的觸達外部受眾,這時大資料應用本身已經成為強大的業務驅動引擎。
二、可以抽象出的通用平臺工具
以企業級實時資料平臺為例,我們在敏捷大資料理念原則的指導下,對實時資料平臺整體端到端進行了模組化切分,並形成一系列標準化協議,最後以統一開放的原則確定了要開發哪些通用平臺工具及其邊界和介面規範。
上圖是實時資料平臺的概念模組架構圖,在後續文章中我們會以實時資料平臺為切入點,詳細闡述衍生出的通用平臺工具的抽象概念和架構設計。
三、貫穿大資料應用全生命週期
3.1 需求分析驗證階段
在需求分析階段,我們需要有能力可以快速開發資料應用原型POC,並且在驗證有效後能夠快速迭代以儘早覆蓋所有需求點。
敏捷大資料的平臺化/配置化/視覺化等能力能夠支援業務開發人員通過配置和視覺化方式快速地進行需求迭代驗證。業務開發人員只需要關注業務問題本身,無須過多關注大資料技術問題。
3.2 架構設計選型階段
在實際儲存和計算引擎選型過程中,要考慮很多很多因素,除了滿足SLA和資料規模等要求,還不得不受到開源技術選型的種種限制和問題。
敏捷大資料的標準化/介面化/統一化/開放化等能力提供了一套架構選型的最佳實踐,既極大的減少了系統設計的複雜性,遮蔽了開源技術不相容的問題,也能夠支援選擇不同儲存和計算引擎的靈活性。
3.3 實施測試調優階段
大資料定製化開發的實施測試和調優往往是件很耗時耗力的工作,並且隨著處理鏈路的變長和技術選型的多樣性,更加增加了測試調優的複雜度。
敏捷大資料的平臺化/介面化/配置化/視覺化/統一化/管控化等能力可以讓實施測試調優的過程變成只需進行視覺化配置/實驗/驗證的迭代過程,資料處理鏈路過長問題被配置化/視覺化遮蔽,技術選型過多問題被統一化/管控化遮蔽。
3.4 上線部署遷移階段
大資料定製化開發的上線部署遷移往往步驟繁雜,容易出錯,即使可以以指令碼方式支援,也可能由於不統一和不直觀帶來潛在問題。 敏捷大資料的平臺化/配置化/視覺化/統一化/管控化/自助化等能力可以讓上線部署遷移更加簡單,這些都得益於平臺的統一化能力,並且這些能力以自助的方式開放給使用者。
3.5 管理運維監控階段
管理運維監控在企業中往往是統一歸集管控的,敏捷大資料的平臺化/管控化/自助化等也提供了相應的能力,此外,還可以提供自動化/智慧化等能力進一步降低運維工作量;同時也可以通過介面化能力與環境已有監控運維繫統整合。
四、踐行敏捷大資料實踐
上圖即為我們所總結的敏捷大資料各個元件的關係:
敏捷大資料理念+敏捷大資料平臺棧+敏捷大資料方法學 → 敏捷大資料實踐
本文給出了“敏捷大資料”的定義,以及敏捷大資料理念,並且簡要描述了基於這套理念之上如何構建平臺棧和如何實踐方法學。在後續的文章中,我們會圍繞具體的敏捷大資料實踐經驗詳細展開我們的敏捷大資料之旅。
作者:盧山巍
來源:宜信技術學院
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69918724/viewspace-2648184/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 企業為何需要搭建大資料平臺大資料
- 【大資料】以航空大資料為例,一窺企業資料架構規劃和治理之道大資料架構
- 為何打通業務資料,實現資料流通?
- 資料治理九大核心領域,以銀行業為例行業
- 企業資料為何要選擇企業雲盤
- 解決方案|以大資料為抓手,打造糧食安全智慧監管平臺大資料
- IAB:2020年以資料為中心的企業
- 企業大資料平臺MapReduce應用之Join實踐!大資料
- Tapdata 創始人唐建法:以秒級響應速度,為企業提供實時資料服務
- 七牛大資料平臺的實時資料分析實戰大資料
- Smartbi作為企業級商業智慧和大資料分析品牌大資料
- 平臺利用大資料割韭菜,消費者為何淪為砧板上的魚肉大資料
- 企業級統一資料平臺建設思路
- 華為雲大資料,幫助企業搭好資料底座大資料
- Hadoop大資料平臺有何優勢?Hadoop大資料
- 華為雲企業級資料倉儲DWS
- 華為雲大資料平臺,助力企業數字化轉型成效明顯大資料
- 輕量&聚焦:精益資料治理實踐——以客戶資料治理為例
- 槓上Spark、Flink?Kafka為何轉型流資料平臺SparkKafka
- 槓上 Spark、Flink?Kafka 為何轉型流資料平臺SparkKafka
- 大資料平臺對企業有什麼作用大資料
- 大資料開發實戰:實時資料平臺和流計算大資料
- Hadoop - 企業級大資料管理平臺CDH(介紹和準備工作)Hadoop大資料
- 基於 Kubernetes 的企業級大資料平臺,EMR on ACK 技術初探大資料
- 企業為何會選擇企業雲盤進行資料儲存
- 智慧農業大資料平臺解決方案大資料
- RDF 和 SPARQL 初探:以維基資料為例
- 資料集的使用-以CIFAR10為例
- 分散式資料庫入門:以國產資料庫 TDSQL 為例分散式資料庫SQL
- Pinterest為何遷移到新的大資料處理工作流平臺Apache Airflow?REST大資料ApacheAI
- 大資料平臺對企業運營的意義大資料
- Teradata Vantage 企業級智慧資料平臺與 Microsoft Azure 整合ROS
- Databricks收購了以AI為中心的資料治理平臺OkeraAI
- 新一代ETL資料整合平臺,實現企業業務資料融合
- 資料庫審計為何淪為殭屍級應用?資料庫
- 【工業大資料】工廠大資料之資料來源分析;如何挖掘並駕馭大資料的價值,成為“大資料企業”?大資料
- 頭位資訊平臺為何被視為運營解決方案?
- 資料庫重構之路,以 OrientDB 到 NebulaGraph 為例資料庫