資料資產管理:資料發現,發現什麼,怎麼發現?

qing_yun 發表於 2022-05-17

資料資產管理:資料發現,發現什麼,怎麼發現?

Hi,你們好嗎?

有很長時間沒有寫文章了,不是我變懶了,也不是沒得寫了,最近實在是太忙了,大家見諒哈。

這個週末好不容易抽出一些時間,寫了這篇文章。今天我們繼續聊資料資產管理這個話題。上篇文章《 資料資產管理:企業的資料資產怎麼盤?》中,我們對資料資產梳理和盤點的方法、流程、模板進行了介紹,相信大家對資料資產盤點應該有所瞭解了。可能有人會問,資料資產盤點都是人工在做,有沒有更智慧的方法,能夠自動盤點資料,讓資料更容易查詢和使用?

嗯,有的。它就是經常配合BI工具(商業智慧)一起使用的資料管理工具——資料發現。

01   資料資產發現,是什麼?

資料資產發現是一個視覺化、智慧化的資料管理工具,它的定位是使業務和技術人員能夠在需要時更容易找到、理解和使用他們想要的資料。

這個概念是不是似曾相識?是的,資料資產發現與資料資產目錄在定位上很相似,從本質上講,資料資產發現就是一種更智慧的資料資產目錄工具。如果我們將大資料比作石油的話,資料發現就是勘探、採集、處理和煉化石油的過程,它能夠更加 自動化的識別資料資產,對資料進行遷移、清洗、標記、編目和視覺化,從而最大化的釋放資料價值。

通常來講,資料資產發現具備如下能力:

1、多資料來源連線

資料資產發現可以連線多個資料來源,實現資料的視覺化、整合和遷移。支援的資料來源除了結構化資料,還能夠對非結構化資料、半結構化資料的關鍵後設資料進行識別和採集。

2、後設資料分析

對後設資料資訊進行統計分析,視覺化展示資料來源的後設資料,包括資料表的大小、註釋、列數量、時間列數量、主鍵數量等資訊,更細一步地,還統計了列級別的後設資料,包括列註釋、欄位型別、列長度、是否主鍵列等資訊。

3、資料分類和編目

資料發現與資料分類密切相關,通過自然語言處理、語義解析,根據資料的有用性、敏感性或安全性要求進行識別、分類和編目,形成業務、技術多個視角能夠識別、查詢和瀏覽的資料資產目錄。

4、清理和準備資料

有了資料目錄,使用者就可以輕鬆找到想要的資料。但是找到了資料,不一定就意味著它能直接使用,因為這些資料往往還存在很多的質量問題,必須要對這些資料作進一步的清理。 資料發現工具一般具備自助資料準備和自動進行資料清理功能,提供有關值域範圍、異常值、錯誤值和其他資料屬性和問題的檢查和處理,為資料共享和分析提供支撐。

5、資料探索

資料探索是幫助業務人員整合來自各種來源的資料,以瞭解資料結構並構建互動式視覺化來解釋該資料。在資料探索中,使用者通過使用人工智慧技術,來檢視自各種來源的資料,並嘗試從這些資料中提取重要或有意義的資訊。資料發現工具使用熱圖、資料透視表、餅圖、條形圖和地理地圖等多種方法來幫助使用者從資料中獲得洞察力,從而實現業務目標。


02 資料資產發現,發現什麼?

很多企業資料資產管理的最大痛點就是資料分散,企業不知道自己有哪些資料可用。企業資料大部分分散在不同的系統、不同的資料來源和不同的裝置中,識別、分類、處理和分析資料,並從中獲得洞察力對任何企業都至關重要。

那麼,資料發現到底能夠發現什麼?

資料的位置:資料發現通過連線資料來源、採集和分析後設資料,能夠識別企業有哪些資料,並定位這些 資料在哪裡存放 ,誰可以訪問它

資料的結構:資料發現可以自動解析資料的結構,包括對結構化、半結構化和非結構化資料的的資料 特徵提取,通過統計模型對資料進行分類。

資料的傳輸:資料發現捕獲資料的流向,瞭解傳輸哪些資料、如何傳輸以及通過哪些渠道傳輸。

敏感的資料:資料發現通過內建的資料口徑、標準和規則,可以自動識別資料的技術屬性和業務屬性,可以快速對身份證號碼,姓名,地址,手機號、銀行賬號等敏感資訊進行識別、分類和跟蹤,方便評估安全或隱私風險並定義緩解策略。

資料的問題:資料發現通過資料質量檢核,可以對資料集中的資料值域範圍、異常值、錯誤值、重複資料等資料問題進行稽核, 快速發現資料集中的問題資料,並執行資料清理,以提高資料質量

資料的含義:資料發現通過豐富的圖表,通過視覺化的方式展示資料資產地圖,直觀清晰的展現資料富含的意義、用途等,使得使用者可以快速的瞭解資料,並從資料中獲得洞察力。


03 資料資產發現,怎麼發現?

當下,資料資產發現主要有兩種形式:手動發現和智慧發現。

1、手動資料發現

在過去 20 年裡,在機器學習進步之前,資料相關工作人員對資料的相關作業,如:發現資料、採集資料、處理資料、分析資料等,大部分需要依靠人類的腦力和體力。簡單地說,人們通過人為的方式,識別和記憶關於哪些資料可用,儲存在哪裡,為什麼需要,以及為終端使用者提供帶來什麼價值。

後來,企業開始有意識的管理資料,通過監控後設資料和資料血緣,發現並瞭解資料分類和流程。資料管理員,通常是具有複雜技術和知識的人才能勝任,負責企業資料資產的盤點和管理,基於一定業務規則對資料資產進行分類和編目。在這一過程,資料管理員通過手動的方式建立資料目錄、繪製資料地圖,以理解企業中的資料資產。 而這一方式,一直沿用至今

2、智慧資料發現

大資料時代,資料呈爆炸式增長,且資料在企業業務發展的過程中,扮演的角色越來越重要。傳統手動發現資料的方式,在應對企業的資料管理和使用需求,以及大規模、多樣化的資料增長情況下,顯得越來越吃力。因此,企業迫切需要一種更加自動化、智慧化的資料發現工具,來幫助企業從資料中獲得更深入的洞察力。

隨著技術的進步,智慧資料發現工具逐步成熟了起來。 智慧資料發現主要使用增強分析、自然語言處理、機器學習等人工智慧技術,對資料進行定位、探查、清理、整合和視覺化,來呈現和洞察資料價值。 智慧資料發現是一個飛躍,通過對可用資料來源的整體理解和分析,在黑匣子中進行一些處理並得出合理答案。

有了AI的加持,資料發現有了令人興奮的創新方向:

  • AI 技術可用於資料準備,例如:標準化資料、處理缺失資料、字串模式識別等。
  • 演算法可用於識別和關注相關變數組資料中的特定模式或異常值。
  • 時間序列分析對模式識別、異常值檢測和表關係發現具有不同的需求和意義。
  • 可以收集、分析專家使用者的行為資料,並用於影響推薦的分析操作。

對此,也有一些專家認為資料發現類似於資料探勘,這是一些公司用來嘗試從大型資料集中提取可運算元據的過程。在某些方面,資料發現也可以通過與電子發現(e-discovery)的相似性來解釋;例如,在涉及法律領域的電子發現中,指定的 IT 專業人員從可能適用於案件相關的大型資料集中提取資料,輔助辦案。資料發現採用了類似的方法——從大量資料中篩選出相關且可操作的資料項。
可能有人會問:有了智慧資料發現還需要手動資料發現嗎?
個人認為,現階段大部分的資料發現還需要人工手動干預,而基於機器學習等人工智慧技術的利用可以幫助改進資料發現過程,例如自動發現資料中的資料質量問題、法規遵從性問題等, 而資料結果還是需要人為決策。


04 資料資產發現,解決哪些問題?
資料資產發現也叫自助式資料探查和分析,從定位上講,是服務於業務人員,幫助業務人員從資料中獲得有價值的資訊,這些資訊可幫助使用者在競爭對手之前發現寶貴的機會,而無需諮詢 IT 部門, 使 得資料分析和使用變得“平民化” 視覺化的資料呈現,提高了資料的可操作性,讓業務人員能夠更快地找到答案。
資料發現為企業提供了一種易於理解、清洗和分析資料的友好方法,使使用者可以輕鬆深入研究變數並提出新的問題和見解。
1、識別資料應用中的痛點
每個企業的資料管理和應用都會有獨特的痛點和問題,例如自多個來源的大量資料、複雜的架構、資料安全和法規遵從性等,所有這些都應該得到解決和持續監控。儘可能多地提前識別這些問題,可以幫助企業在問題升級之前解決問題並確保企業的資料保持安全。
2、使用多樣化的資料來源
如果企業可以從多個來源收集和使用資料,那就預示著企業可以從中獲得更加深入的見解。但是,值得注意的是,企業需要正確處理和使用資料,確保資料完整性、資料質量和個人隱私保護。資料發現有助於企業從不同資料來源中收集、清理相關資料,這些資料可以提供大量可操作的資訊。
3、用企業的資料講故事
資料發現為業務使用者提供了自助式資料分析和探索的能力,以視覺化的方式進行資料呈現,形成業務人員更容易理解的故事板。直觀、視覺化的“資料故事板”可以幫助人們理解資訊,以及從中得到有價值資訊,幫助使用者進行決策。例如:資料發現通過對企業多渠道中的客戶行為、交易和情緒資料的分析和評估,來獲取客戶的 360 度檢視,在客戶流失之前進行預警,從而輔助決策人員作出應對策略。


05 資料發現工具,怎麼選?
在國外一個資料管理工具評價網站顯示,2022年 9個最流行的資料發現工具有:

  • JMP Statistical Discovery

  • Looker

  • Microsoft Power BI

  • Phocas

  • Qlik Sense

  • Spirion

  • Tableau

  • TIBCO Spotfire

  • Atlan

你有沒有發現以上資料發現工具其實側重點並不相同,有側重資料管理的,也有側重資料分析的。例如:JMP Statistical Discovery——SAS公司的資料管理產品,是側重跨資料來源資料採集、 自助資料準備和自動進行資料清理。而Google Cloud的Looker,微軟的Power BI,以及 Salesforce的Tableau則更側重自助式的資料視覺化能力。
那麼,一個資料發現工具到底都應該包含哪些通用功能,企業選型應重點關注哪些方面呢?通過對以上工具的研究,筆者發現一個完善的資料發現工具,需要具備以下功能:

  • 資料來源連線和後設資料採集,包括:結構化、半結構化、非結構化等資料來源

  • 後設資料管理和資料血緣,識別和解析資料的位置、含義等

  • 全文後設資料搜尋,幫助使用者快速定位和查詢資料

  • 敏感資訊識別、分類和監控,這對於滿足合規性要求非常重要

  • 資料準備和提高資料質量的工具

  • 機器學習能力,包括預測分析

  • 記憶體分析,實現更快的查詢響應時間

  • 資料分析和視覺化(圖表、地圖、表格以及其他形式)

  • 版本控制,確保資料的完整性並防止意外資料丟失

除了以上基本功能之外,在資料發現工具中 首先要考慮的是資料治理 ,企業的資料環境中可能有上百套系統,成千名使用者在建立資料,企業必須確保這些資料能夠自動化的集中式治理。
其次, 資料安全和隱私也是需要重點關注的方面 ,資料發現平臺需要提供一定的安全機制,如:使用者認證、訪問控制、資料脫敏、資料加密等,確保資料安全和合規使用。

參考文獻:


來自 “ 談資料 ”, 原文作者:石秀峰;原文連結:https://mp.weixin.qq.com/s/3axrq86_1vP9X_m-1RYsDQ,如有侵權,請聯絡管理員刪除。