華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

華為雲開發者社群發表於2022-03-09
摘要:本文通過具體的例項來對華為雲資料湖治理中心DGC進行全方位的認識和了解,透過華為理念下形成的輕量級通用解決方案探討中長尾企業如何應對資料治理上的難題。

本文分享自華為雲社群《華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發》,作者:技術火炬手。

現階段我們國家從政府到企業都在進行數字化轉型,數字化轉型的核心是資料,對於有著開發實力和基礎的大公司來講,他們可以有著完備的資料處理體系和開發人員儲備,可以高效地利用手中的資源對資料進行再加工,讓資料成為企業的生產要素。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

我們知道,“二八定律”作為一個經濟學原理揭示了任何一組事物最重要的構成只佔其中的一小部分,其餘的大部分多數構成的很小比例在經濟學上被稱為“長尾效應”。企業也是一樣,處於中長尾的企業想要數字化轉型,資料技術、人才、資金的高門檻往往讓他們望而卻步。他們亟需大資料行業的領導者,能做出企業的通用模式,節約數字化成本,降低用數門檻。不少企業雖然選擇將業務上雲作為數字化的一個方向,但對上雲後產生的資料不管理、不加工、不分析,這讓這些資料上雲失去了意義。

華為雲基於華為IT流程資料治理方法論推出華為雲大資料輕量級解決方案,配合華為雲資產可以輕資源、輕開發、輕部署、輕運維地快速構建資料治理體系,全Serverless方案對中長尾企業來講使用靈活,企業無需關注底層技術棧、雲資源效能,可按需使用降低運營成本。

華為雲大資料相關服務提供資料全生命週期的一站式管理和開發,幫助中長尾企業大幅簡化資料治理的流程,在這種輕模式的支援下,中長尾企業可以快速高效地應對大量資料的分析,降低用數門檻,加快企業資料變現,完成企業的數字化轉型。

接下來,我們就通過具體的例項來對華為雲資料湖治理中心DGC進行全方位的認識和了解,透過華為理念下形成的輕量級通用解決方案探討中長尾企業如何應對資料治理上的難題。

華為雲大資料輕量級解決方案介紹

針對中長尾企業的資料治理需求,華為雲推出了大資料輕量級解決方案幫助企業進行高效的資料治理。我們都知道Serverless本質是將複雜留給自己,將便利提供給客戶,加速使用者的敏捷創新,這也是華為雲大資料輕量級解決方案的核心思想。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

華為雲這套輕量級的解決方案區別於企業自建自管自運營的模式,全Serverless方案對於企業來講不需要額外考慮資源管理、部署、運維,雲上模式讓企業大大降低了用於硬體管理與擴容、跨AZ可靠排程、Bug修復、軟體安全、AI引擎調優等問題,只需專注業務開發即可,業務的使用與運營更加靈活。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

華為雲大資料輕量級解決方案作為一項通用的大資料治理解決方案為企業提供了豐富的擴充能力,支援物件儲存、NoSQL、OLTP、OLAP等資料庫型別,支援跨雲資料治理、自建資料中心資料治理。企業不需要變更自己的底層資料技術棧就能實現大資料的治理和分析。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

針對中長尾企業的資料治理場景,華為雲DGC、DLI、CDM、RDS等服務提供輕量化、靈活的技術棧,通過將華為雲服務串聯,打造資料治理輕量化模式。涉及到以下核心服務:

  • CDM:高效、易用的資料遷移服務,支援批量和增量資料遷移,提供超過40種資料來源到資料湖倉遷移能力;
  • DRS:基於事物日誌(如MySQL、Oracle)的資料庫複製進行增量同步;
  • DGC:資料標準和資料模型的規範設計,可進行線上開發和編排排程,資料質量稽核等一站式資料管理;
  • DLI:完全相容Apache Spark、Apache Flink、Presto生態,提供批、流、互動式一體的Serverless融合處理分析,完全相容SQL語法,開發難度低;
  • BI:通過華為雲DLV資料視覺化服務或專業BI軟體實現2D或3D資料展示,通過拖拉拽式佈局,幫助企業快速進行大屏資料視覺化呈現。

對於企業來講,華為雲大資料輕量級解決方案通過一站式的大資料分析服務,實現了企業多端資料採集,並在統一框架下進行資料採集、分析、歸納。

通過全棧式技術能力,依託DLI資料湖探索服務以及配套的資料同步方案,可以滿足企業海量資料分析的需求,完成快速資料分析,釋放資料的價值。

由於DGC提供高度視覺化的ETL任務開發、管理、排程的能力,同時DLI等資料服務支援通用SQL語法,這些對於企業來講可以的大幅的降低開發過程中的門檻,實現簡單易用、靈活高效的資料開發模式。另外通過專業的BI廠商,可以很好的滿足企業對視覺化BI工具的需求,資料生產到最後直觀的視覺化呈現,為運營分析降低門檻。

這DGC提供一站式的資料全生命週期的運營管理,配合華為雲其他大資料產品, DGC作為華為雲輕量級大資料解決方案的核心,它可對接多種資料湖引擎,幫助進行統一開發,並提供統一的資料資產管理。方便企業進行全鏈路資料治理管控。資料運營全場景可視,統一排程和運維帶來全方位的安全保障。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

開發人員無需複雜配置就可以完成對資料的匯入, DGC提供資料管理、資料整合、指令碼開發、作業開發、作業排程、運維監控、全場景視覺化等功能。方便企業不同部門的打破相互隔離,以此建設統一的資料平臺,統一技術規範、資料標準和訪問介面。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

DGC提供豐富的大資料平臺元件,方便多種資料和分析需求,,降低資料治理的人工工作量,以此提升資料管理效率。DGC提供一套完整的資料治理方法論落地,通過這套方法論實現業務上下游資料的快速傳遞和共享,以此指導實際業務的運作。通過資料質量持續為企業提供預警,以此減少糾錯成本,降低運營風險,提升服務質量。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

在分析處理上, DLI資料探索服務則成為華為雲輕量級大資料治理方案的重要組成。這套方案中, 通過DLI等基礎雲服務實現資料探查、資料監控、資料標準化,形成有指導意義的集市層資料。DLI它支援結構化和無結構化的資料處理,並支援豐富的程式語言介面,同時成本也非常低。DLI完全相容Apache Spark、Apache Flink、HetuEngine(基於Presto)。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

DLI採用批流互動式一體架構,相容標準 JDBC 協議,可以直接對接第三方 BI 軟體,完成一站式大資料分析、用數的閉環場景。

由於DLI相容標準的SQL語法且均基於Serverless進行分析計算服務,因此使用者無需關心底層的計算架構,只需要通過連線服務即可進行資料分析,大大降低了開發的難度和門檻。DLI還支援免搬遷全域資料聯合查詢,過濾條件支援只能下壓到資料來源,減少傳輸資料量。由於DLI支援Kubernetes,因此DLI還支援資源按需分配,自動彈性伸縮。

接下來我們進入例項場景,通過對門店坪效的全流程設計來了解華為雲大資料輕量級解決方案的各項服務能力,並快速的進行業務指標的模擬輸出。

華為雲大資料輕量級解決方案坪效例項場景體驗

坪效作為零售行業的典型指標,是這次例項場景所要計算的一個指標,這樣的資料分析模型是華為雲大資料輕量化解決方案主要的運用場景,在進行坪效例項場景的演示操作前,我們首先了解下什麼是坪效。坪效是衡量一個地區或門店某一時間段單位面積產出情況,即每坪經營面積可以產出多少營業額。

坪效計算公式如下:

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

坪效越高,店鋪整體的經營效率也就越高,一般計算都以年為週期。華為雲大資料輕量級解決方案的指導及下,我們以過去一年門店坪效指標和地區坪效指標作為目標,進行專案的設計和規劃,其中涉及華為雲大資料及其他雲服務,包括VPS、OBS、RDS、CDM、DGC、DLI、DLV等。

零售業店鋪在獲取到坪效資料後,可以針對性的對門店業務、門店規模、人員結構進行調整。這一案例中涉及到DGC開發的資料整合、規範設計、資料開發、資料質量、資料資產、資料服務模組以及華為雲大資料其他關聯服務工具。

通過這些模組的體驗,我們得以實現對華為雲大資料輕量級解決方案的全面瞭解,對中長尾的大資料治理進行整體的設計、開發、分析、運營,在這種輕模式下,企業可以對資料進行敏捷開發。

輕資產:按需使用,無需擔心底層技術棧及安全問題

在對於中長尾企業而言輕量化的資產管理體系可以省去大量雲服務建設成本,華為雲大資料輕量級解決方案絕大部分資源都建設在雲上,對企業而言,可按需購買,購買即用,不需要額外關注底層的硬體效能和技術實現,並且不需要考慮相關工具軟體的迭代和安全問題。

這裡我們通過華為雲CDM雲資料遷移服務,整合RDS MySQL資料庫模擬資料元門店系統及訂單系統資料,利用華為雲DLI資料湖探索服務的計算能力實現資料清理、指標計算和彙總,並最終使用華為雲RDS MySQL作為集市層資料展現,最終通過DGC作業開發將上述操作串聯,形成完整的流水線,並通過DGC資料服務能力將資料API介面輸出,以此將資料輸出到BI報表分析工具或通過華為雲DLV資料視覺化服務對資料進行直觀的螢幕輸出。上述CDM、RDS、OBS等服務均支援按需購買,大幅降低企業的資產購置壓力。

其中OBS負責儲存DGC的日誌和髒資料;DLI作為貼源層的儲存和計算技術棧,DLI由於儲存量大且價格便宜,並採用分散式計算模型,因此進行大量資料運算的時候速度較、支援高併發;通過DLI生成主題庫和專題庫後,將這些資料倉儲儲存在RDS MySQL資料庫中,這一服務可以進行專業的BI分析;DGC作為整個專案的資料運營技術棧,繼承了資料整合、規範設計、資料開發、資料質量、資料資產、資料服務功能,也是華為雲大資料輕量化解決方案的核心技術模組,作為資料湖運營平臺,DGC提供了資料的全生命週期管理,在此案例中我們通過上述功能模組完成了一整條資料治理流水線的建設;在所以資料分析歸納後,再通過DLV資料視覺化服務對指標進行結果展示。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

華為雲大資料輕量級解決方案對於企業而言不需要變動其底層的資料來源,這套方案在資料整合上已經有很好的支援,無論是華為雲資料庫、第三方雲資料庫還是企業自建資料中心,都支援資料遷移。這裡我們通過RDS作為模擬資料來源匯入並最終彙總生成集市層資料,在進行配置前,我們首先要購買對應資源才能實現一整套的資料治理流程,具體需購買和提前建立的資源如下:

  • 建立VPC、子網、安全組
  • 建立OBS桶,建立儲存作業日誌和髒資料目錄
  • 購買DGC例項,並配置預設工作空間
  • 購買CDM叢集,正式專案可考慮使用ROMA
  • 購買RDS例項
  • 購買DLI佇列例項

在購買完對應資源後,需對原始資料進行匯入,即將資料SQL檔案匯入到RDS MySQL資料庫中,這一操作只需進入RDS資料管理頁面,上傳指令碼即可快速完成資料匯入。資料來源包含兩張表,分別是門店表(t_user_store_info)和訂單表(t_trade_order)。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

RDS MySQL原始資料匯入後,我們需要在DLI中建立相同的表結構進行貼源層資料匯入。進入DLI庫表管理新建一個DLI庫,以此作為專案表存放DLI資料庫。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

隨後在DLI的SQL編輯器中將建表指令碼匯入建表,表結構和表名稱最好與RDS MySQL中原表一致。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

資料匯入後,在OBS服務中完成DGC日誌資料和髒資料資料夾建立,以便後續DGC正常使用。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

接下來就需要對資料進行入湖處理,這裡採用DGC的資料整合模組,DGC批量資料遷移CDM提供同構或異構資料元之間批量資料遷移服務,可以幫助企業實現資料的自由流動,支援關係型資料庫、資料倉儲、NoSQL、大資料雲服務、物件儲存等資料來源。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

這些資料來源涵蓋華為雲DWS、華為雲DLI、FusionInsight LibrA、Hadoop、OBS、阿里雲OSS、FTP、SFTP、NAS、MySQL、HWSQL、PostgreSQL、SQL Server、DDM、Oracle、Db2、Redis、MongoDB、CSS、Apache Kafka等30多種資料來源。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

這些資料來源可以作為源也可以作為遷移目的,租戶可以按需付費,控制和租戶之間是完全分離的,資料始終是在原始位置,後續的作業、對資料的操作都是與原始資料隔離,通過CDM可以更加安全的保護原始資料。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

之前我們匯入的RDS MySQL雲資料庫服務作為源資料,另外一個則是資料湖探索DLI的連線,通過CDM服務我們快速生成DLI內貼源資料匯入。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

這裡,CDM提供自動化的欄位對映,對於不同資料來源資料型別不同這樣的情況,CDM支援資料型別一鍵轉換。在CDM遷移之前,我們已經提前將對應的表在DLI中建好,分別是t_trade_order和t_user_store。這樣CDM就可以進行快速匹配。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

通過CDM我們就快速實現了源資料匯入貼源資料的資料遷移工作,由於原始資料可能存在不斷生成的問題,這裡CDM也提供週期作業以此對資料進行匯入。接下里,我們再進行具體的業務場景設計和相關指令碼的開發。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

輕開發:開發高度視覺化,SQL指令碼通用簡單

華為雲大資料輕量級解決方案最重要的特點是全流程的高度視覺化,沒有複雜的程式碼編寫過程,對開發人員的技術要求不高,可以從業務層面需求出發進行系統化的建模,再通過建模實現對應開發指令碼的生成。整個過程非常的快速高效,由於華為雲大資料解決方案中的DLI、DWS等服務均支援標準SQL語句,因此各類指令碼編寫上難度不大。在本例中首先需要對業務進行建模,在形成對應的業務指標對貼源資料進行清洗加工並輸出有實際指導意義的引數。

華為雲大資料輕量級解決方案將業務實體與實現細節緊密結合讓需求方無需瞭解太多程式設計相關的細節,讓開發方不必考慮業務實現的邏輯。通過這套解決方案的DGC規範設計模組就能初步實現各類業務的需求指標設計並對資料進行標準化,包含主題設計、資料標準設計、資料模型設計、資料指標設計,通過規範設計可以根據客戶的業務需求,進行統一的資料分類、資料標準化、指標定義和資料模型體系建設。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

通過上述四個步驟,將業務資料化需求進行抽象化,就可以輸出企業標準化資料中臺設計。完成資料模型體系的建設,對於未來同行業的解決方案建設也有了參考價值。通過主題設計可以很快的完成資訊架構的設計,針對不同型別的資訊,還可以指定資料型別。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

在主題設計完成後,就可進行資料建模。首先根據之前的主題設計進行建模,這裡提供關係建模和維度建模兩種建模方式,關係建模符合3NF,主要是去除資料冗餘,使資料標準化,當存在多個資料描述同一個情況時,需要使用關係建模進行合併。維度建模則採用資料結構化的方法進行建模,針對需求和指標對資料來源進行維度、事實建模,相比於關係建模,維度建模緊緊圍繞業務指標,非常直觀顯示出業務模型中的業務問題。維度建模包括維度、維度表、事實表、彙總表。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

維度表多為業務指標的環境資訊,比如時間、空間資訊等,這裡我們建模對門店和地區維度進行建模,這就是典型的空間資訊。維度表是使用者用來分析資料的視窗,一個維度表可以對一組資料進行分類,且分組後的資料可以用來分析。我們以門店維度表為例,門店包括門店編碼、店鋪型別、營業狀態、門店名稱屬性。我們如果要計算坪效指標,可以進行門店坪效指標的計算、某一型別門店坪效指標的計算、營業中門店坪考指標計算等,通過這些指標可以定義一組資料。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

事實表內容主要分為三類,分別是維度表外來鍵、事實屬性和度量屬性。比如門店事實表包含地區外來鍵、門店編碼外來鍵、經營面積、開業時間等資訊。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

彙總表則可以對上述維度和事實進行歸納總結,得出相應的技術指標,我們以地區坪效指標的設計為例。可以看到對應屬性和相關內容的彙總資訊,地區坪效指標可以通過技術指標進行確定。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

DGC將指標分為業務指標和技術指標兩類,業務指標模組主要是以文字的形式定義某一指標,並以此為參考指導技術指標實現,我們以坪效為例,坪效位於進銷存管理中,根據坪效的定義,坪效就是門店銷售額與門店面積的比例。通過這一文字定義,我們來到技術指標中,完成坪效這一指標的技術定義。我們也可以對員工的銷售額與績效關係進行統一的界定,對於需求調研層面的人員來講,這些只需要文字描述就可以快速完成各種指標和屬性的確定。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

通過以上的需求建設和管理,需求方很快的就將自己的業務需求確定好,整個過程都是視覺化的,接下里再進一步的對指標進行運算分析,最終形成有實際意義的指導資料,這裡則通過技術指標完成對業務指標的具體實現,包含原子指標、衍生指標、複合指標。原子指標是最基礎的運算元,是緯度在模型中某一個屬性或屬性的簡單運算,在坪效計算中,主要用於坪效計算的就是門店的經營面積以及實際門店產生的銷售額。這兩個指標構成了坪效計算的原子指標。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

衍生指標則是對原子指標新增了一個緯度,對原子指標進行限定,使得這些原子指標更具參考價值,在坪效指標計算中,我們可以按照時間原子指標進行限定,從而衍生出新的指標。比如過去一年的某一地區的銷售額、過去一年某一門店的銷售額、過去一年某地區的經營見面等,這些衍生指標還可以進一步運算,得到複合指標。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

複合指標則是多個衍生指標的聚合,用於輸出最終的彙總資料,比如某地區過去一年的坪效或某門店過去一年的坪效。到這裡坪效指標的規範設計就已經完成了,實體定義與技術指標緊密結合,並且符合標準化的設計規則。在各種技術指標的計算中,DGC還提供一鍵式的SQL指令碼,方便後續流程自動化的開發,幫助開發人員進行快速高效的程式設計指令碼實現。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

在資訊架構中,我們也可以通過DGC自動彙總的關係圖瞭解到不同維度表、事實表、技術指標、彙總表的關係圖譜,這裡也方便運維人員快速定位問題,以此進行高效運維。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

如何高效的通過指令碼和程式碼實現業務需求並實現一整條業務的流水開發,這對業務不熟悉的開發人員來講往往是個非常大的難題,但華為雲大資料輕量級解決方案提供了一整套高效的開發流程,在需求放完成相關業務定義和指標設定後,開發人員則可以對需求進一步實現,在低程式碼量的基礎上完成業務需求,真正實現程式設計“輕模式”。這裡通過DGC資料開發模組完成指令碼開發、作業排程、運維監控等功能實現業務流水,它支援業務流自動化、BI報表生產線、雲上倉庫建設、日誌分析挖掘等工具,實現從資料接入、資料儲存、資料分析和計算到業務應用全流程的一站式IDE平臺服務。通過資料開發模組,可以幫助使用者對入湖後的資料進行快速的加工、清洗,各種聚合運算,資料轉換等。在作業開發頁面,DGC也為開發人員提供了完整的開發流程介紹。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

DGC的指令碼開發支援線上的主流資料庫指令碼開發除錯,支援DWS指令碼、DLI指令碼、Hive指令碼等;另外資料開發模組還提供了強大的ETL運算元,通過ETL運算元可以在資料清洗轉換的時候省去開發人員大量的SQL指令碼開發,直接通過圖形化配置快速實現大量的清洗整合工作;DGC的資料開發模組還整合了主流的資料開發能力和所見即所得圖形化ETL工具的能力,最終整合成拖拉拽式的批流結合全鏈路開發運維,資料管道在執行後可以實施進行監控,方便運維人員快速定位開發中所遇到的問題。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

資料開發模組下的指令碼開發提供了DWS、DLI、Hive、Spark、Flink、RDS、Shell、Python等多種指令碼開發,支援程式碼補全、語法高亮、錯誤提示、執行歷史記錄等功能,可以幫助開發者正確高效的編寫。這裡我們構建了多個指令碼,完成貼源層和明細層資料的清洗,資料彙總,並最終匯入到資料庫中。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

輕部署:視覺化流水線構建,快速定位問題

華為雲大資料輕量化解決方案在業務部署上支援拖拉拽式的流水線業務部署,整個過程開發人員不需要進行專門的環境搭建,只需關注業務是否能完成即可,部署後,開發人員也可對業務執行過程中出現的問題層層分離,快速定位。業務在執行上支援單次排程和週期排程,排程如出現問題還可以進行實時通知。整個過程沒有複雜的報警提示,並可生成運維日報,方便運維人員對整體業務有所把控。

這裡通過DGC的作業開發實現業務部署,它支援多種雲服務任務混合編排,通過一系列節點構成一個有效的工作流。支援圖形拖拉拽式的編輯作業頁面,快速實現自動化流水部署,並驗證作業是否存在問題。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

資料開發中的作業監控功能提供簡訊、郵件等提醒方式,方便開發人員第一時間瞭解作業執行過程中可能出現的異常狀況。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

輕運維:資料實時監控,封裝服務開放

針對各類指標的監控,華為雲大資料輕量級解決方案為提供專業的資料質量監控,方便運維人員對資料的動態進行實時的監控,並也可根據實際業務情況設定對應監控指標,幫助企業產出更有價值的資料服務體系。同時企業也可將資料形成的集市層資料封裝成服務,對外輸出到BI軟體或其他應用中,實現資料的最大化利用。對於運維人員來講,無論是資料質量監控,還是大資料資產管理,抑或是資料服務的開放,這些完全都是在高度視覺化的模式下進行,無需複雜程式碼即可完成資料產品的輸出和監控。

這裡華為雲大資料輕量級解決方案中的DGC資料質量模組可以將業務系統的指標和資料質量進行監控,可以根據業務指標校驗規則對資料的完整性、有效性、及時性、一致性、準確性、唯一性這六個維度進行單列、跨列、跨行或者跨表分析,包括存在約束、非空約束、主鍵唯一性約束、實體唯一性約束、取值範圍約束、長度約束、內容規範約束等。通過上述指標校驗,我們可以對資料的質量進行評估,如果有些資料存在明顯的質量問題,就可以向開發者傳送郵件、簡訊進行告警。同時也可以對資料進行分析和統計,之後將資料推送到客戶的相應部門。最終提升資料湖裡整體資料的質量。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

DGC資料質量模組提供業務指標監控和資料質量監控兩種監控方式,我們可以根據之前設計的技術指標對指標進行業務指標監控,我們以之前的坪效指標為例,首先在指標管理中選擇需要運算彙總的指標,並以此生成SQL指令碼。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

然後我們就可以設定具體規則對指標進行監控,比如當全國平均坪效低於20萬,就出發年平均坪效較低通知。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

在隨後的業務場景管理中,我們就可以啟動這一指標的業務指標監控。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

資料質量監控則可設定規則模版對資料質量進行校驗,某人提供了多種資料校驗模版方便運維人員快速對資料進行校驗。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

資料質量監控的質量作業則可設定質量監控的內容,並對關聯質量作業進行啟停操作。啟動後質量作業監控就會生成質量報告,以此幫助運維人員對整體資料進行監控。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

為了解各類資料資產的詳細情況,華為雲大資料輕量化解決方案提供一站式的資料資產歸納,業務資產、技術資產和指標資產三大部分,業務資產包含業務物件、邏輯實體、業務屬性三大部分,技術資產則包含資料庫、資料表和資料量。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

這裡通過配置資料元,可以建立資料連結,實現資料集中管理,並提供自定義策略採集任務,以此實現形成資產目錄。幫助企業一站式,完成資料包表整理。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

在資料目錄下,企業可以看到所有的業務資產、技術資產和指標資產,業務資產是邏輯實體,通過邏輯實體我們定義多樣化的資料,以此指導形成技術資產和指標資產。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

針對不同的技術資產,企業可以看到所有的表結構,同時血緣分析功能方便回溯資料來源或作業。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

對資料清洗加工並分析生成的集市層資料後,這些資料就可以以服務的形式開放給第三方,華為雲大資料輕量化解決方案可以從DWS、DLI、RDS等華為雲資料庫中獲取資料,並通過鑑權等手段向第三方輸出資料介面,無需複雜的程式碼編寫,就可以通過Serverless的形式對資料產品進行開放,進而實現零編碼的API生成能力,這種零編碼的資料開放能力對於企業而言有著更加靈活的資料開放和管理能力,便於企業生成更加豐富的資料產品。

華為雲大資料輕量化解決方案中的DGC資料服務支援線上除錯、一鍵釋出,通過Web頁面編排,可以快速釋出基於Serverless的API釋出。支援多種資料來源對外發布,這項功能基於Nginx和容器化技術,實現單容器50ms內耗時和200次/秒的API邏輯解析和轉發速度,另外資料服務還基於WAF行為全方位檢測,可準確的進行惡意請求識別,過濾攻擊流量。自動化監控和流量預警也方便開發人員快速瞭解對外輸出介面的情況。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

開發人員可以對不同的API進行流量控制、使用時長、API名稱等資訊,方便監控API呼叫狀態。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

DGC資料服務還提供App除錯,App除錯需要呼叫SDK進行訪問,資料服務提供基於Java、C#、Python、Go、JavaScript、PHP、C++、C、Android等多種主流語言的SDK包。一鍵下載,輕量化開發。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

通過實際的體驗我們看到,華為雲大資料輕量級解決方案的一系列服務,非常直觀和高效的幫助企業實現資料清洗、資料加工、資料運算、資料分析等操作,企業重要的是關注業務本身,而不用關注實現的底層技術棧,不需要大量程式碼編寫,也不需要技術人員吃透需求,需求方和開發人員都可以獨立高效的完成業務定義和資料產品的開發。

在輸出資料產品後,企業可以對這些資料進行視覺化輸出以便資料治理人員根據這些資料做出決策。

華為雲大資料輕量化解決方案還支援多BI平臺的視覺化圖形輸出,幫助企業實現更好的資料展示,無論是第三方的BI工具還是華為雲自家的DLV資料視覺化服務都可以很好的呼叫介面實現資料的展示分析。

華為雲大資料輕模式體驗:忘掉底層煩惱,專注資料開發

通過這些資料接入,企業可以通過拖拉拽的方式快速構建專屬的企業智慧資料大螢幕,形成豐富多樣的資料圖表,方便進行及時的分析決策。

總結

華為雲提供的大資料輕量級解決方案,讓企業實現了輕資產、輕開發、輕部署、輕運維的大資料治理模式,這樣的“輕模式”讓廣大的中長尾企業也擁有了更加敏捷的大資料治理能力,完備的資料治理流程提供了一站式便利的資料治理體驗,企業無需從頭再來搭建平臺、單獨進行人員的開發和架構設計。基於Serverless的平臺開發,讓企業無需關注業務實現的技術棧,直觀精簡的開發過程,只需要掌握SQL程式碼即可快速完成開發。大幅節省了企業的平臺建設成本和人才成本。

全流程視覺化的介面設計,即便是對沒有資料開發經驗的非技術人員,也可以友好快速的進行資料規範設計、資料質量監控、資料指標定義等工作。

DGC、CDM、DLI、RDS等服務組成的一整套華為雲大資料輕量級解決方案為企業的綜合資料治理帶來了強大的內生力,大大釋放了大資料底層運維管理的壓力,讓企業能更好的利用資料專注服務質量提升、產品優化等。華為雲大資料治理輕量級解決方案未來也將會很好的為中長尾企業賦能,幫助他們實現更高層次的數字化轉型。

 

點選關注,第一時間瞭解華為雲新鮮技術~

 

相關文章