大資料治理——搭建大資料探索平臺

獨孤風發表於2021-04-09

在資料治理中,資料探索服務的價值在初期往往是被忽視的,但是隨著業務的增加,分析人員的增加,資料探索服務的價值就會越來越大。

一個成功的資料管理平臺,不僅僅要提供各種資料分析的工具,提供各種各樣的資料來源,更要提供資料探索的能力。

為什麼資料探索服務很重要?

想象一下,作為一名資料科學家,他剛剛獲得新的任務是建立一個機器學習模型對業務問題進行分析。處理資料的人的第一個本能是尋找任何有意義的資訊,能對其分析過程提供幫助。在這個過程中通常會出現以下問題:

  1. 我可以/應該使用哪種資料?
  2. 在哪裡可以找到資料?
  3. 我應該問誰申請資料訪問許可權?
  4. 我可以信任我們擁有的資料嗎?
  5. 我們擁有的資料的實時性和質量如何?
  6. 還有誰在使用這些資料?

沒有資料探索服務的世界

資料科學家最多將三分之一的時間用於資料探索。

如果沒有資料探索服務,資料科學家需要和同事溝通,瀏覽他們可以訪問的物件進行搜尋。然後做出一些假設,來驗證他們的選擇是否正確。

這個過程其實非常的耗時,因為沒有合適的工具幫忙。必須要不斷的去尋找可靠的資料。但是隨著資料量增大,資料平臺使用者的增加,資料分析需求的增加,後設資料的數量也在增加。這個過程就為尋找的過程帶來了非常大的挑戰。

資料科學家用來查詢與他們的需求相關的資料的方式可能很快會適得其反,變得不可靠,從而導致很多挫敗感,不確定性和創造力下降。

解決這些問題的方案就是資料探索服務。

資料探索服務

資料探索服務意味著向使用者提供一種工具,使其可以瞭解平臺中的資料及其質量。讓我們來了解下具體的實現。

Amundsen

Lyft是一家總部位於美國的叫車應用,其開源了大量的技術框架,其中就包括Amundsen。這是一個以偉大的挪威探險家的名字命名的資料探索服務,Lyft的資料探索服務旨在解決通過在後設資料中搜尋有價值的資訊。它提供的是使用者資料探索服務的搜尋介面。

Amundsen的社群非常的繁榮,正在不斷的更新改進。

Apache Atlas

作為後設資料管理的領軍,atlas無疑是最好的選擇之一。

後設資料聽起來很容易解釋,用於描述資料資訊的資料。最簡單的示例是資料存在表裡,而表的相關的資訊,如表名等資訊就是後設資料。沒有後設資料的支撐,資料探索服務不復存在。

Atlas作為大資料後設資料管理平臺,可以捕獲平臺上的各種元件的後設資料資訊。稱為鉤子,比如可從Kafka,Hive,Hbase中收集後設資料。有著安全性和豐富的Rest Api。

Atlas依賴於Hbase和Solr作為分散式的資料儲存,從而實現了後設資料的儲存和搜尋功能。通過這種方式,可以建立一個全面的後設資料目錄。

​ Apache Atlas架構

在實際的應用中,通過兩者的結合,可以完全的滿足我們的需求。

這樣資料科學家就可以在Amundsen中,尋找到目標資料了。

但搜尋顯然只是第一步,在找到搜尋結果後,可以進入表詳細資訊頁面。

可以檢視諸如描述、更新時間、常用使用者之類的資訊。而且這些後設資料資訊都是實時更新的。

相信開源的力量,在Amundsen+Atlas的體系下,不斷探索適合自己的實現方案。

相關文章