CDGA|2分鐘帶你瞭解大資料治理必備能力和關鍵技術

弘博創新金牌講師發表於2021-12-13

如今數字化轉型正在各行各業中迅速發展,以資料、流量、知識為主大資料時代已經到來,對於一個企業來說,要實施數字化和大資料戰略,資料治理更為重要。

資料治理使組織能夠處理其擁有的資料,從該資料中獲取更多價值,並使使用者可以看到該資料的重要方面。它還提供管理這些方面的功能。這不僅是因為現有資料的錯誤和遺漏,而且因為資料的新用途通常需要新的屬性,因此需要新的後設資料來支援它們。

資料治理需要什麼?

從人和流程開始

資料治理是關於啟用和鼓勵有關資料的良好行為,以及限制產生風險的行為。無論您是在大資料環境還是傳統的資料管理環境中,都是一樣的。使組織能夠識別誰負責資料,協作設定策略和制定決策,就如何使用資料及其用途建立明確的協議,瞭解某些指標和資訊的來源,並確定變更對業務的影響資料。這些都是任何環境所需要的。
 


 

使用技術作為上述的推動者

這些過程通常變化很大,涉及組織不同部門的許多不同利益相關者。他們也是時間敏感的。特別是在大資料場景中,資料變化的型別,數量和頻率一直在增加。雖然可以執行一次或兩次這些任務,但如果沒有專門的系統和自動化,就不可能連續執行治理。以同樣的方式考慮這一點,我們的大多數業務流程都需要自動化,以便高效,高效地執行。
此外,與任何其他流程一樣,必須測量和管理資料本身的治理,以便在必要時可以提高資料的質量,實用性和安全性。

預先確定資料管理的哪些方面對您的業務至關重要

瞭解您需要管理的內容是實施適當資料治理的關鍵部分。雖然所有資訊可能都應該受到某些治理的影響,並且應該對其進行編目以便找到,但是有一部分重要資訊應該成為任何資料治理工作的重點。這些關鍵資料元素及其前提是組織決策,服務客戶和向監管機構報告的基礎。

利用現有流程和最佳實踐

資料治理不一定是一項新的繁瑣的舉措。實際上,由於對抑制因素和開銷的感知,一些組織可能會擱置正式的資料治理計劃。但事實是,您已經擁有適當的流程,可以作為正式資料治理計劃的基礎。這些可能被標記為“工作流程”或“業務規則”,但這些僅僅是針對同一組實踐的不同術語。使用這些流程作為起點,構建一種策略,幫助您從大資料中獲取更多價值。

資料治理的關鍵要求是什麼?

這些功能中的每一項都可以實現受管理的環境 目錄和資料字典後設資料的組合為資料策略和使用的可審計性提供了完整的資訊。它還包含血統和操縱。工作流控制資訊生命週期管理的過程,包括攝取,操作/派生和處置。強大的分散式基礎架構可實現業務連續性,快速處理和資料的持續可用性。

確保系統可靠性和可用性

雖然高可用性和災難恢復等概念通常不被歸類為資料治理策略的元件,但這些功能對於資料是有價值資產的任何環境都至關重要。因此,資料治理策略必須包含高可用性和災難恢復策略。畢竟,如果系統無法可靠地保持執行,那麼資料將與相關的資料治理策略一起貶值。

識別資料和維護資料目錄

由於各種資料的爆炸式增長,對資料進行編目並使該目錄可供使用者使用至關重要。但是,這不僅僅是跟蹤有關資訊的技術後設資料。它需要一個可以自動完成該過程的大部分引擎。資料太多,而且手動分類所有內容的速度增長太快。
其次,業務使用者需要可以訪問此目錄,因此他們可以“購買”他們檢查業務問題所需的資料。這意味著資料的實施必須與業務術語相關聯。組織需要一個可以輕鬆擴充和更新的業務術語表,因為新資料和現有資料的新用途將發揮作用。此外,環境能夠跟蹤與資料相關的各種資產至關重要,它的使用和加工。
 


 

探索該資料以識別機會

獲得資料目錄後,您需要一種很好的方法來查詢該目錄中的內容。
組織內的不同角色需要以不同的方式看待事物。
IT專業人員需要在系統或應用程式上下文中檢視資料。
安全團隊需要根據其隱私策略上下文檢視資訊,稽核員需要通過靈活的視覺化檢視完整的血統和相關資訊,能夠在上下文中顯示任何型別的關係。這應該與基於角色的檢視和模板相結合,以及按角色定製導航,以使業務使用者儘可能簡單地找到他或她需要的內容。可以使用先進的機器學習和人工智慧來幫助找到適當的資料。

保持資料的有效性

保持資料的有效性是兩部分的努力。首先是建立圍繞資料的系統政策和控制,並確保測量的資料準確性適合其用途。
工作流和策略管理功能使瞭解資料的業務使用者可以輕鬆地協作,協商和批准策略和過程。與IT服務管理系統整合後,可以將策略資訊一旦最終確定,即可轉移到IT部門進行實施,而不會丟失上下文以及策略及其要求的細節。
自動規則可以輕鬆確定策略是否沒有準則。全面的業務研習使任何人都可以確定哪些策略適用於哪些資訊,哪些業務術語涉及哪些資料?

保護敏感資料

保護資料可能是一項複雜的工作,雖然這種能力還依賴於擁有合適的人員和流程,但該技術可以在確保適當保護方面發揮很大作用。
保護敏感資料需要幾個步驟。
首先,必須確定資料及其敏感性。
其次,必須有一種方法可以明確說明圍繞資料做什麼以及由誰做的政策。
再者,必須有一種系統的方法來收集這些資訊並將其傳播給資料的消費者和能夠對資訊實施物理控制的技術人員。這三個步驟通常是由實現合規性的需要驅動的,但也與您自己的內部政策相關聯。重要的是,大資料有何不同,以及它如何影響資料治理?
關於大資料的一些事情改變了之前對資料治理的理解。其中每一項都需要一種新方法來有效地管理資料資產。
 


 

各種資產,包括工作,模型,視覺化

第一個主要區別是不同型別的資料資產的數量,以及此類別正在增長的事實。

資料類之間缺乏物理隔離

第二個區別是更微妙,但它是我們使用資訊管理拓撲分離資料的方式的副產品。通常,我們依賴於某些資料的物理分離,以某種方式將其識別為敏感資料,並管理圍繞該資料的控制。
在大資料世界中,雖然資料可以分佈,但物理隔離通常不存在,必須使用其他方法來識別哪些資料是敏感的,誰對哪些資料負責。治理流程需要維護這些資訊。

通過組合以前沒有相關的資料來創造價值

此外,資料共享通常是一個尚未正式化的過程。資料湖的目標是建立一個可以輕鬆利用所有資料的環境。這意味著擁有資料的組織的不同部分必須同意提供它,並以受控方式提供它。
此外,現在可以與組織的許多部分共享資料,通常不需要他們付出太多努力。這意味著需要明確協商資料共享要求,以便資料的所有使用者都能理解他們應該和不應該對資料做什麼。
此外,語義不匹配的範圍也會增加,因為組織的不同部分將使用具有不同含義的相同術語。

更多樣化和靈活的流程

大資料不是基於ETL的預先定義和政策決定,而是暗示自下而上的“按需要做”治理方法。這反過來意味著該治理的自動化系統需要高度靈活和協作,並具有明確的運營模式。該運營模型考慮了資料的配置,使用,更改和退役的整個生命週期以及質量和可靠性,需要自動化以處理不斷增加的資料量和種類。
 


 


多樣性的增加使自動化成為一項要求

數量和種類的不斷增加需要自動化。手動流程無法跟上資料變化的次數以及幾乎每天都帶入湖中的新資料。手動流程處理現有的大量資料太慢而且繁瑣。將管理資訊儲存在桌面工具,電子表格甚至文件共享站點上太慢而且繁瑣,並且不會使業務使用者即時訪問他們所需的資料。有必要使用應用程式自動執行資料治理,就像使用特定應用程式為此目的自動執行任何其他業務活動一樣。

該資料是操作必需品並且一直在使用

最終,這些資料是組織的生命線。託管和處理它的基礎架構和平臺必須能夠跟上所有更改,以及使用和處理資料的請求量。如果沒有這種可靠性和安全性,組織將無法利用其資料,也無法快速獲取新的資料和洞察力,從而具有競爭力。資料已成為商業競爭和產品和服務質量的關鍵水平。

資料治理成功的好處

最後,這些流程旨在使您的組織更加靈活和有能力。您可以在需要時使用您的資料,您可以新增它,您可以管理它,它就在那裡。擁有大資料和治理功能的最佳組織發現有許多具體的好處。他們可以比以往更有效地查詢資料,描述資料,使用資料並進行管理。
 

保持可用性

在管理大資料時,您希望最大化正常執行時間,同時最大限度地減少確保正常執行時間的工作量 您的基礎大資料平臺必須實現這些目標。

保護敏感資料

需要廣泛的重要功能來滿足您的資料安全要求。您的資料平臺必須提供以資料為中心的控制元件,以確保安全的環境。
 

快速訪問您的資料

組織花費高達75%的時間來建立從事資料的分析和爭吵活動。資料易於搜尋,機器學習人工智慧有助於推薦合適的資料。高階視覺化可以顯示任何型別的關係和資料上下文,因此資料科學家和BI專業人員可以輕鬆快速地獲取正確的資料。而且因為資料提取治理可以確保您知道資料湖中究竟是什麼。

快速安全地更改資料

確保您的查詢返回正確的資料,以便可以信任基於該資料的分析指標。資料科學家,所有者和使用者可以確保使用正確的資料值,參考和結果。使用非結構化資料需要生產者,消費者和資料科學家之間的有效協調,以確保所有各方都瞭解可能影響結果的變化。由於對資料的更改經常發生並且經常在發現該資料的新用途時不斷髮生,因此這是一項關鍵功能。這種通訊還減少了耗時的錯誤分析和解決方案; 部分原因是分析中幾乎沒有莫名其妙的錯誤,部分原因是報告問題和解決問題的過程是自動化的。這增加了對分析的信任,增加了它們的使用,並促進了自助服務。
瞭解您的資料
資料治理可以讓您瞭解自己擁有的內容,並以多種不同的方式查詢知識。大資料環境不僅僅是表格,檔案和流。組織使用許多不同型別的資產來提供高效能,預測分析和獨特見解。這些包括分析模型,地圖/減少作業,查詢,視覺化,報告和使用資料的任何人工製品。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69994098/viewspace-2847415/,如需轉載,請註明出處,否則將追究法律責任。

相關文章