談談資料湖分散式資料治理的資料目錄應具備的四大能力

qing_yun發表於2022-11-15

在過去幾年中,資料湖已成為現代資料堆疊的必備要素。但是,雖然支援我們訪問和分析資料的技術已經成熟,但在分散式環境中理解和信任這些資料的機制卻落後了。

資料發現可以幫助確保資料湖不會變成資料沼澤。資料發現可以透過提供跨不同域的資料的分散式實時洞察力來取代現代資料目錄,同時遵守一組統一的治理標準。資料發現透過根據一組特定消費者攝取、儲存、聚合和使用資料的方式提供對資料的特定領域動態理解,從而取代了對資料目錄的需求。

在構建資料平臺時,資料團隊必須做出的首要決定之一是選擇資料倉儲還是資料湖來為他們的分析提供儲存和計算能力。

雖然資料倉儲提供的結構使資料團隊可以輕鬆高效地運算元據,即收集分析洞察力和支援機器學習功能,但該結構可能會使它們在某些應用程式中變得不靈活且成本高昂。

資料湖具有無限的靈活性和可定製性,可以支援廣泛的用例,但隨著這種更大的敏捷性,出現了許多與資料組織和治理相關的其他問題。因此,資料團隊在轉向資料湖的路線往往難以回答有關其資料的關鍵問題,例如:

  • 資料存放在哪裡?

  • 誰有權訪問它?

  • 這個資料是最新的嗎?

  • 如何使用這些資料?

隨著資料操作的成熟和資料管道變得越來越複雜,傳統的資料目錄往往無法回答這些問題。

這就是為什麼一些最好的資料工程團隊正在重新考慮他們構建資料目錄的方法以及資料湖需要什麼。

資料目錄可能在湖中失效

資料目錄作為後設資料清單,並提供有關資料健康狀況、可訪問性和位置的資訊。它們幫助資料團隊回答有關在哪裡查詢資料、資料代表什麼以及如何使用資料的問題。但是,如果我們不知道這些資料是如何組織的,那麼所有最好的計劃或更確切地說是管道都是徒勞的。

對於現代資料團隊來說,它越來越重要。隨著公司向資料湖發展,他們通常會損害在倉庫中儲存資料時隱含的組織和順序。資料倉儲使資料工程團隊構建或至少半構建他們的資料,這使得根據業務使用者的需求進行分類、搜尋和檢索變得容易。

從歷史上看,許多公司使用資料目錄來執行資料質量和資料治理標準,因為他們傳統上依賴資料團隊隨著資料資產的發展手動輸入和更新目錄資訊。在資料湖中,資料是分散式的,因此很難記錄資料在其生命週期過程中的演變。

非結構化資料是有問題的,因為它與資料目錄相關,因為它沒有組織,即便被組織通常也不會被作為組織整體擁有。這可能適用於在資料倉儲中管理的結構化或半結構化資料,但在分散式資料湖的背景下,如果沒有某種自動化措施,隨著資料的發展手動實施資料治理是無法持續的。

現在:手動和集中式目錄

隨著時間的推移理解不同資料資產之間的關係是一個關鍵,但傳統資料目錄往往缺乏維度。雖然包括資料湖在內的現代資料架構通常是分散式的,但資料目錄通常不是,將資料視為一維實體。非結構化資料沒有大多數資料目錄所依賴的那種預定義模型,必須經過多次轉換才能使用。

儘管如此,公司仍需要知道他們的資料存放在哪裡以及誰可以訪問它,並能夠衡量其整體健康狀況,即使是儲存在湖中而不是倉庫中。如果沒有對資料沿襲的可見性,當下游出現資料問題時,團隊將花費大量的時間進行故障排除。

資料發現可以透過跨資料堆疊的不同部分提供分散式、實時的資料洞察來取代或補充現代資料目錄,同時遵守通用治理和可訪問性標準。

圖片

傳統的資料目錄通常可以滿足倉庫中結構化資料的需求,但是資料工程師如何在資料湖的複雜水域中航行呢?

雖然許多資料目錄具有以 UI 為中心的工作流,但資料工程師需要以程式設計方式與目錄進行互動。他們使用目錄來管理模式和後設資料,並且需要一種 API 驅動的方法來完成範圍廣泛的資料管理任務。

此外,資料可以透過多個入口點進入一個湖泊,工程師需要一個能夠適應並說明每個入口點的目錄。與資料在輸入前進行清理和處理的倉庫不同,資料湖在不對端到端健康狀況做任何假設的情況下接收原始資料。

在湖中,儲存資料既便宜又靈活,但這讓我們瞭解擁有什麼以及如何使用這些資料成為真正的挑戰。資料可能以多種方式儲存,例如 JSON 或 Parquet,資料工程師根據要完成的工作以不同方式與資料互動。他們可能將 Spark 用於聚合作業或將 Presto 用於報告或臨時查詢——這意味著損壞或不良資料有很多機會導致故障。如果沒有沿襲,資料湖中的那些故障可能會變得混亂且難以診斷。

在湖中,可以透過多種方式與資料進行互動,而目錄必須能夠提供對正在使用的內容和未使用的內容的理解。當傳統目錄不足時,我們可以將資料發現作為前進的道路。

未來:資料發現

現代資料發現需要構建四種關鍵能力解決傳統資料目錄不足的問題:

1跨湖擴充套件的自動化

使用機器學習,資料發現自動跟蹤表和欄位級沿襲,對映上游和下游依賴關係。隨著資料的發展,資料發現可確保對資料及其使用方式的理解也在發生變化。

2實時瞭解資料健康狀況

與傳統的資料目錄不同,資料發現要提供對資料當前狀態的實時可見性,而不是其“編目”或理想狀態。由於發現涵蓋消費者如何攝取、儲存、聚合和使用資料,因此可以收集洞察力,例如哪些資料集已經過時並且可以棄用,給定的資料集是否符合使用質量,或者給定的表何時可用最後更新。

3用於瞭解資料的業務影響的資料沿襲

資料發現需要具有靈活性和動態性,使資料發現非常適合將沿襲帶入資料湖,能夠在正確的時間顯示正確的資訊,並在許多可能的輸入和輸出之間建立聯絡。使用沿襲,可以在資料管道中斷時更快地解決問題,因為將檢測到模式更改等經常被忽視的問題並對映相關依賴項。

4跨域自助服務發現

資料發現還需要支援自助服務,使團隊無需專門的支援團隊即可輕鬆利用和理解他們的資料。為確保這些資料值得信賴和可靠,團隊還應該專注於資料可觀察性,它使用機器學習和自定義規則在資料湖或下游管道出現問題時提供實時警報和監控。

跨湖治理與最佳化

現代資料發現使公司不僅可以瞭解在其生命週期過程中正在使用、應用、儲存和棄用哪些資料,還可以瞭解如何使用、應用、儲存和棄用資料,這對於資料治理至關重要,並提供可用於最佳化整個資料湖的見解.

從最佳化的角度來看,資料發現工具還可以讓利益相關者輕鬆識別最重要的資料資產以及未使用的資料資產,這兩者都可以為團隊最佳化提供見解他們的管道。

資料湖的分散式發現

隨著公司不斷增加資料的攝取、儲存和利用,提高透明度和可發現性的技術將成為關鍵。

一些最好的目錄越來越多地在分散式、特定於域的發現中分層,為資料團隊提供生命週期的所有階段完全信任和利用資料所需的可見性。

來自 “ 資料驅動智慧 ”, 原文作者:曉曉;原文連結:https://mp.weixin.qq.com/s/-G-n0M9thJta56RLC31zjA,如有侵權,請聯絡管理員刪除。

相關文章