資料資產管理:資料發現,發現什麼,怎麼發現?

danny_2018發表於2022-05-16

可能有人會問,資料資產盤點都是人工在做,有沒有更智慧的方法,能夠自動盤點資料,讓資料更容易查詢和使用?

嗯,有的。它就是經常配合BI工具(商業智慧)一起使用的資料管理工具——資料發現。

01 資料資產發現,是什麼?

資料資產發現是一個視覺化、智慧化的資料管理工具,它的定位是使業務和技術人員能夠在需要時更容易找到、理解和使用他們想要的資料。

這個概念是不是似曾相識?是的,資料資產發現與資料資產目錄在定位上很相似,從本質上講,資料資產發現就是一種更智慧的資料資產目錄工具。如果我們將大資料比作石油的話,資料發現就是勘探、採集、處理和煉化石油的過程,它能夠更加自動化的識別資料資產,對資料進行遷移、清洗、標記、編目和視覺化,從而最大化的釋放資料價值。

通常來講,資料資產發現具備如下能力:

1、多資料來源連線

資料資產發現可以連線多個資料來源,實現資料的視覺化、整合和遷移。支援的資料來源除了結構化資料,還能夠對非結構化資料、半結構化資料的關鍵後設資料進行識別和採集。

2、後設資料分析

對後設資料資訊進行統計分析,視覺化展示資料來源的後設資料,包括資料表的大小、註釋、列數量、時間列數量、主鍵數量等資訊,更細一步地,還統計了列級別的後設資料,包括列註釋、欄位型別、列長度、是否主鍵列等資訊。

3、資料分類和編目

資料發現與資料分類密切相關,透過自然語言處理、語義解析,根據資料的有用性、敏感性或安全性要求進行識別、分類和編目,形成業務、技術多個視角能夠識別、查詢和瀏覽的資料資產目錄。

4、清理和準備資料

有了資料目錄,使用者就可以輕鬆找到想要的資料。但是找到了資料,不一定就意味著它能直接使用,因為這些資料往往還存在很多的質量問題,必須要對這些資料作進一步的清理。資料發現工具一般具備自助資料準備和自動進行資料清理功能,提供有關值域範圍、異常值、錯誤值和其他資料屬性和問題的檢查和處理,為資料共享和分析提供支撐。

5、資料探索

資料探索是幫助業務人員整合來自各種來源的資料,以瞭解資料結構並構建互動式視覺化來解釋該資料。在資料探索中,使用者透過使用人工智慧技術,來檢視自各種來源的資料,並嘗試從這些資料中提取重要或有意義的資訊。資料發現工具使用熱圖、資料透視表、餅圖、條形圖和地理地圖等多種方法來幫助使用者從資料中獲得洞察力,從而實現業務目標。

02 資料資產發現,發現什麼?

很多企業資料資產管理的最大痛點就是資料分散,企業不知道自己有哪些資料可用。企業資料大部分分散在不同的系統、不同的資料來源和不同的裝置中,識別、分類、處理和分析資料,並從中獲得洞察力對任何企業都至關重要。

那麼,資料發現到底能夠發現什麼?

資料的位置:資料發現透過連線資料來源、採集和分析後設資料,能夠識別企業有哪些資料,並定位這些資料在哪裡存放,誰可以訪問它。

資料的結構:資料發現可以自動解析資料的結構,包括對結構化、半結構化和非結構化資料的的資料特徵提取,透過統計模型對資料進行分類。

資料的傳輸:資料發現捕獲資料的流向,瞭解傳輸哪些資料、如何傳輸以及透過哪些渠道傳輸。

敏感的資料:資料發現透過內建的資料口徑、標準和規則,可以自動識別資料的技術屬性和業務屬性,可以快速對身份證號碼,姓名,地址,手機號、銀行賬號等敏感資訊進行識別、分類和跟蹤,方便評估安全或隱私風險並定義緩解策略。

資料的問題:資料發現透過資料質量檢核,可以對資料集中的資料值域範圍、異常值、錯誤值、重複資料等資料問題進行稽核,快速發現資料集中的問題資料,並執行資料清理,以提高資料質量。

資料的含義:資料發現透過豐富的圖表,透過視覺化的方式展示資料資產地圖,直觀清晰的展現資料富含的意義、用途等,使得使用者可以快速的瞭解資料,並從資料中獲得洞察力。

03 資料資產發現,怎麼發現?

當下,資料資產發現主要有兩種形式:手動發現和智慧發現。

1、手動資料發現

在過去 20 年裡,在機器學習進步之前,資料相關工作人員對資料的相關作業,如:發現資料、採集資料、處理資料、分析資料等,大部分需要依靠人類的腦力和體力。簡單地說,人們透過人為的方式,識別和記憶關於哪些資料可用,儲存在哪裡,為什麼需要,以及為終端使用者提供帶來什麼價值。

後來,企業開始有意識的管理資料,透過監控後設資料和資料血緣,發現並瞭解資料分類和流程。資料管理員,通常是具有複雜技術和知識的人才能勝任,負責企業資料資產的盤點和管理,基於一定業務規則對資料資產進行分類和編目。在這一過程,資料管理員透過手動的方式建立資料目錄、繪製資料地圖,以理解企業中的資料資產。而這一方式,一直沿用至今。

2、智慧資料發現

大資料時代,資料呈爆炸式增長,且資料在企業業務發展的過程中,扮演的角色越來越重要。傳統手動發現資料的方式,在應對企業的資料管理和使用需求,以及大規模、多樣化的資料增長情況下,顯得越來越吃力。因此,企業迫切需要一種更加自動化、智慧化的資料發現工具,來幫助企業從資料中獲得更深入的洞察力。

隨著技術的進步,智慧資料發現工具逐步成熟了起來。智慧資料發現主要使用增強分析、自然語言處理、機器學習等人工智慧技術,對資料進行定位、探查、清理、整合和視覺化,來呈現和洞察資料價值。智慧資料發現是一個飛躍,透過對可用資料來源的整體理解和分析,在黑匣子中進行一些處理並得出合理答案。

有了AI的加持,資料發現有了令人興奮的創新方向:

AI 技術可用於資料準備,例如:標準化資料、處理缺失資料、字串模式識別等。

演算法可用於識別和關注相關變數組資料中的特定模式或異常值。

時間序列分析對模式識別、異常值檢測和表關係發現具有不同的需求和意義。

可以收集、分析專家使用者的行為資料,並用於影響推薦的分析操作。

對此,也有一些專家認為資料發現類似於資料探勘,這是一些公司用來嘗試從大型資料集中提取可運算元據的過程。在某些方面,資料發現也可以透過與電子發現(e-discovery)的相似性來解釋;例如,在涉及法律領域的電子發現中,指定的 IT 專業人員從可能適用於案件相關的大型資料集中提取資料,輔助辦案。資料發現採用了類似的方法——從大量資料中篩選出相關且可操作的資料項。

可能有人會問:有了智慧資料發現還需要手動資料發現嗎?

個人認為,現階段大部分的資料發現還需要人工手動干預,而基於機器學習等人工智慧技術的利用可以幫助改進資料發現過程,例如自動發現資料中的資料質量問題、法規遵從性問題等,而資料結果還是需要人為決策。

04 資料資產發現,解決哪些問題?

資料資產發現也叫自助式資料探查和分析,從定位上講,是服務於業務人員,幫助業務人員從資料中獲得有價值的資訊,這些資訊可幫助使用者在競爭對手之前發現寶貴的機會,而無需諮詢 IT 部門,使得資料分析和使用變得“平民化”。視覺化的資料呈現,提高了資料的可操作性,讓業務人員能夠更快地找到答案。

資料發現為企業提供了一種易於理解、清洗和分析資料的友好方法,使使用者可以輕鬆深入研究變數並提出新的問題和見解。

1、識別資料應用中的痛點

每個企業的資料管理和應用都會有獨特的痛點和問題,例如自多個來源的大量資料、複雜的架構、資料安全和法規遵從性等,所有這些都應該得到解決和持續監控。儘可能多地提前識別這些問題,可以幫助企業在問題升級之前解決問題並確保企業的資料保持安全。

2、使用多樣化的資料來源

如果企業可以從多個來源收集和使用資料,那就預示著企業可以從中獲得更加深入的見解。但是,值得注意的是,企業需要正確處理和使用資料,確保資料完整性、資料質量和個人隱私保護。資料發現有助於企業從不同資料來源中收集、清理相關資料,這些資料可以提供大量可操作的資訊。

3、用企業的資料講故事

資料發現為業務使用者提供了自助式資料分析和探索的能力,以視覺化的方式進行資料呈現,形成業務人員更容易理解的故事板。直觀、視覺化的“資料故事板”可以幫助人們理解資訊,以及從中得到有價值資訊,幫助使用者進行決策。例如:資料發現透過對企業多渠道中的客戶行為、交易和情緒資料的分析和評估,來獲取客戶的 360 度檢視,在客戶流失之前進行預警,從而輔助決策人員作出應對策略。

05 資料發現工具,怎麼選?

在國外一個資料管理工具評價網站顯示,2022年 9個最流行的資料發現工具有:

JMP Statistical Discovery

Looker

Microsoft Power BI

Phocas

Qlik Sense

Spirion

Tableau

TIBCO Spotfire

Atlan

你有沒有發現以上資料發現工具其實側重點並不相同,有側重資料管理的,也有側重資料分析的。例如:JMP Statistical Discovery——SAS公司的資料管理產品,是側重跨資料來源資料採集、自助資料準備和自動進行資料清理。而Google Cloud的Looker,微軟的Power BI,以及Salesforce的Tableau則更側重自助式的資料視覺化能力。

那麼,一個資料發現工具到底都應該包含哪些通用功能,企業選型應重點關注哪些方面呢?透過對以上工具的研究,筆者發現一個完善的資料發現工具,需要具備以下功能:

資料來源連線和後設資料採集,包括:結構化、半結構化、非結構化等資料來源

後設資料管理和資料血緣,識別和解析資料的位置、含義等

全文後設資料搜尋,幫助使用者快速定位和查詢資料

敏感資訊識別、分類和監控,這對於滿足合規性要求非常重要

資料準備和提高資料質量的工具

機器學習能力,包括預測分析

記憶體分析,實現更快的查詢響應時間

資料分析和視覺化(圖表、地圖、表格以及其他形式)

版本控制,確保資料的完整性並防止意外資料丟失

除了以上基本功能之外,在資料發現工具中首先要考慮的是資料治理,企業的資料環境中可能有上百套系統,成千名使用者在建立資料,企業必須確保這些資料能夠自動化的集中式治理。

其次,資料安全和隱私也是需要重點關注的方面,資料發現平臺需要提供一定的安全機制,如:使用者認證、訪問控制、資料脫敏、資料加密等,確保資料安全和合規使用。

來自 “ 談資料 ”, 原文作者:石秀峰;原文連結:https://mp.weixin.qq.com/s/3axrq86_1vP9X_m-1RYsDQ,如有侵權,請聯絡管理員刪除。

相關文章