《資料資產管理核心技術與應用》是清華大學出版社出版的一本圖書,全書共分10章,第1章主要讓讀者認識資料資產,瞭解資料資產相關的基礎概念,以及資料資產的發展情況。第2~8章主要介紹大資料時代資料資產管理所涉及的核心技術,內容包括後設資料的採集與儲存、資料血緣、資料質量、資料監控與告警、資料服務、資料許可權與安全、資料資產管理架構等。第9~10章主要從實戰的角度介紹資料資產管理技術的應用實踐,包括如何對後設資料進行管理以發揮出資料資產的更大潛力,以及如何對資料進行建模以挖掘出資料中更大的價值。
圖書介紹:《資料資產管理核心技術與應用》
今天主要是給大家分享一下第一章的內容:
第一章的標題為認識資料資產,總共分為了8個小節。
1.1 資料資產的基本介紹
資料資產通常是指那些可以透過分析來揭示價值、支援企業決策制定、最佳化企業流程、預測行業的未來趨勢或產生更大的經濟價值的資料集。這些資料可能是由企業自身產生也可能是從外部獲取(如社交媒體、第三方資料提供商、網路爬蟲等)的,而且這些資料的格式多樣,可能是結構化資料、半結構化資料或者非結構化資料。
資料資產的關鍵特性:可用性、可訪問性、完整性、可靠性和安全性
可用性:指的資料資產需要能被使用,如果無法被使用,那麼資料資產就無法體現其核心價值,而資料資產的可用性則需要依賴資料質量、資料監控等很多關鍵要素的支撐。
可訪問性:指的是資料資產需要能夠被資料的使用者訪問,如果無法被訪問,那麼資料資產也會顯得沒有任何的價值,因為只有能被訪問,才能去挖掘出資料的更多價值。
安全性:指的是資料資產需要保障其資料的安全性,防止資料被洩露、丟失或者被駭客攻擊篡改等。
可靠性:指的是資料資產一定是可靠的,不然無法用於企業的決策和判斷,如果資料不可靠,那麼透過資料做出來的決策肯定也不會可靠,從而會給企業帶來巨大的損失。
完整性:指的資料資產中的資料一定是完整的,如果資料不完整,那麼獲取到的資訊也不會完整,不完整的資料是無法用於資料分析、資料決策等。
資料資產的幾種常見型別:
非結構化資料: 非結構化資料沒有預定義的格式或組織,因此更難以處理和分析。這類資料包括文字文件、PDF檔案、電子郵件、影片、影像和音訊檔案。雖然處理起來更復雜,但非結構化資料通常提供更豐富的資訊和見解,對於機器學習和自然語言處理等領域尤其有價值。
結構化資料: 這類資料通常存在於預定義的資料模型之中,因此它們格式清晰、易於搜尋和組織。結構化資料通常儲存在關聯式資料庫中,如SQL資料庫,這類資料庫支援複雜的查詢、報告和分析。例如,客戶資訊、銷售記錄、庫存資料和金融交易都可以以結構化的形式儲存。通常他們表格形式存在,每一列代表一個資料欄位,每一行代表一個資料記錄。
半結構化資料: 半結構化資料介於結構化和非結構化資料之間,它們可能不符合嚴格的資料庫模型,但包含標籤或其他標記來分隔語義元素,並使元素的層次結構可識別。XML和JSON是半結構化資料的典型例子,它們被廣泛用於網路資料互動。
實時資料: 實時資料是指需要立即處理的資料,以便快速做出響應或決策。這類資料在金融交易、網路分析、物聯網(IoT)裝置監控和線上廣告投放中非常常見。實時資料處理通常要求具有較高的技術能力,以便快速捕捉、分析和響應資料流。
時間序列資料: 時間序列資料是按照時間順序收集的資料資訊,通常會用於分析資料的趨勢、週期性和季節性變化等,比如股票價格、氣象記錄和監控資料等都是時間序列資料的例子。
地理空間資料: 地理空間資料含有關於地理位置的資訊,這類資料在規劃、物流和位置分析中非常關鍵。比如地圖資料、衛星影像和GPS追蹤資料都屬於這一型別。
後設資料: 後設資料是描述其他資料的資料,它可以包括檔案大小、儲存路徑、建立日期、作者資訊等。後設資料有助於組織、管理和檢索資料,通常是資料管理、資料倉儲、資料湖中不可或缺的核心組成部分。
1.2 資料資產的分類
資料資產分類的方式通常包含如下幾種
根據資料敏感性分類:根據資料的敏感程度,通常可以將資料分為不同的級別,如公開資料、內部使用資料、敏感資料、隱私資料、絕密資料等。這種分類方式一般有助於企業或者組織對不同級別的資料採取不同的保護措施,以確保資料的安全性和隱私性。
根據資料來源分類:根據資料的來源,通常可以將資料分為很多不同類別,如會員資料、商品資料、業務資料、交易資料、第三方資料等。這種分類方式一般有助於企業或者組織更好地瞭解資料的來源和用途,從而更好地利用資料。
根據資料用途分類:根據資料的用途,通常可以將資料分為各種不同的類別,如分析資料、決策資料、銷售資料、風控資料等。這種分類方式一般有助於企業或者組織更好地瞭解資料的應用場景和使用的目的,從而更好地發揮資料的使用價值。
根據資料格式分類:根據資料的格式和型別,通常可以將資料分為更多不同的類別,如半結構化資料、結構化資料、非結構化資料、文字資料、影像資料、音訊資料等。這種分類有助於企業或者組織更好地瞭解資料的結構和特點,從而更好地處理和儲存資料。
1.3 資料資產的價值評估
1、透過成本來評估資料資產的價值
利用成本來評估資料資產的價值是一種在資料領域經常使用的方法,主要思想是透過考量 資料的獲取、處理、儲存以及後期維護和升級的成本來確定資料能夠產生多大的價值。
2、透過收益來評估資料資產的價值
利用收益來評估資料資產的價值是指基於現有的資料資產在過去的應用和使用情況和未來應用場景來評估資料資產能產生多大的價值。
1.4 資料資產的質量
確保資料高質量是資料資產管理的核心之一,企業或者組織管理其資料是因為需要使用資料或者挖掘資料中更大的價值,為了確保資料滿足使用的需要,那麼就一定要做好資料質量的管理。如果資料質量過差,對於任何的企業或者組織來說都是一種高成本的消耗。低質量的資料通常會產生如下不必要的成本開支,比如:
資料經常需要不斷的返工和修正
資料的質量低,導致企業或者組織的決策錯誤,從而造成巨大的經濟損失
資料的質量低,導致資料的使用變少,從而無法讓資料發揮出應用的價值
高質量資料帶來的相應好處包括:
可以更好的去改善客戶的使用體驗
可以更好去提升生產力
降低低質量的資料造成不可控的風險
高質量的資料,可以帶來更大的機會和機遇
從對客戶、產品、流程和機會的洞察中獲得的更大的競爭優勢
1.5 資料資產的儲存
從傳統的IT時代到現今的網際網路時代和大資料時代,隨著技術的不斷快速發展,資料資產的儲存方式也在不斷的發生著翻天覆地的變化,資料資產的儲存發展歷程主要分為如下幾個階段
文件儲存時代:
普通資料庫儲存的時代:
資料倉儲儲存的時代:
資料湖儲存的時代:
湖倉一體的時代:
1.6 資料資產的管理
資料資產管理是一個涉及資料識別、分類、儲存、保護和使用的複雜過程。資料資產的管理包括需要知曉資料的來源、儲存位置、質量、適用的合規要求以及如何最大限度地利用這些資料等。在做資料資產管理時,還需要注意資料的生命週期。資料的生命週期通常包括資料的建立、儲存、使用、共享、歸檔和銷燬等。在每個階段,都需要相應的管理措施來保護資料的價值並確保其質量和合規性。
通常來說,資料資產的管理包括:
後設資料管理:在前面已經提到,後設資料是描述其他資料的資料,是資料資產管理的核心,如果沒有後設資料管理,使用者在使用資料時,就不知道資料是什麼、包含了什麼資訊,自己需要的資料在哪裡等,只有做好了後設資料的管理,才能讓資料更容易被檢索,才能讓資料的使用者快速的找到自己需要的資料。
資料獲取管理:通常指的是從資料來源端獲取資料的管理,比如當存在很多個資料來源時,需要對每個採集資料的資料來源進行管理。
資料處理管理:當從資料的源端獲取到資料後,通常還需要對資料做一些加工和處理,比如資料格式的處理、資料的壓縮處理、資料的異常值處理等。
主資料管理:是對核心業務的實體相關的關鍵資料進行的管理,在不同的企業或者不同的環境中,主資料可能是不同的。主資料的管理可以進一步提高資料的價值,提升資料對業務的響應速度。
資料血緣管理:是對資料之間的關聯關係進行的管理,透過資料血緣管理,資料的使用者就可以知道資料是從哪裡來的、做了什麼處理和加工等。
資料質量管理:透過對資料質量規則的定義來衡量資料的質量的管理,資料質量的好壞直接會關係資料價值。
資料監控管理:資料監控管理是對資料鏈路、資料任務、資料服務、資料處理資源等環節進行監控與告警,當發現問題時,能夠及時將問題告警和通知出來,以便資料的運維人員後者管理人員及時進行處理。
資料服務管理:在資料資產中,資料服務是對外提供使用和訪問的一種最重要的形式,資料只有提供對外的訪問,才能體現其自身的價值。資料服務的管理就是對這些對外提供資料使用的服務進行管理。
資料許可權與安全管理:在資料資產中,資料許可權與安全的管理是讓資料的整個生命週期中不會出現資料在未經授權的情況下被濫用,從而保護資料的安全和隱私不受侵犯的管理。
通常來說,資料資產的管理方式包括如下幾種
加強資料治理:通常來說,資料治理是做好資料資產管理的核心,透過不斷的建立和完善資料治理的流程和規範,明確資料管理的職責和分工,對資料做好分類和標記,讓資料更方便的被查詢。
建立完善的資料質量體系:資料質量直接決定了資料能否發揮其應有的作用,健全完善的資料質量體系可以持續不斷的提高資料的質量,讓資料能夠更準確的支撐企業或者組織的決策。
建立完善的資料許可權和安全管理體系:資料安全是整個資料資產管理的基礎,建立一套包括資料備份和恢復、資料加密和解密、資料許可權控制等在內的體系,可以更好去保障資料的安全可靠。
透過資料分析挖掘資料的更多價值:資料分析是資料資產的核心應用,在資料資產管理中,需要更多的去對資料做分析,以挖掘出資料的更多潛在價值。
1.7 資料資產管理的資訊化建設
資料資產管理的資訊化建設通常是指透過類似大資料等資訊化的技術對企業或者組織的資料資產進行管理和維護,資料資產的資訊化管理可以帶來如下好處
及早發現資料問題:透過資料資產管理的資訊化可以強化資料的質量以及監控和告警,當資料出現問題時,能夠及早的被發現。
提高資料管理的效率:透過大資料等IT技術手段,實現自動化、智慧化管理資料,減少人工操作以及人為失誤,降低人力成本和資料出錯的風險。
讓資料可以更快的產生價值:透過大資料等IT技術手段,讓資料分析、資料探勘更加迅速,能更快的為企業或者組織提供更快更準確的決策。
讓資料可追溯和跟蹤:透過建設資料資產管理平臺,管理資料的處理過程和血緣關係等,讓資料的使用者能對資料進行溯源。
資料資產管理資訊化建設核心要素如下:
資料採集:透過資訊化的方式實現自動、實時、準確的去各個業務系統或者軟硬體裝置上採集資料.
資料處理:透過Spark、Flink等大資料技術,實時的對採集到的資料做清洗和轉換處理,挖掘出更多的資料價值。
資料儲存:透過資料倉儲或者資料湖等分散式儲存的技術手段來儲存不同資料種類和格式的海量資料。
資料服務:搭建統一的資料服務平臺,讓資料能夠被業務需求輕鬆的訪問到。
資料安全:建立資訊化的安全機制,自動識別資料中可能存在的安全訪問風險,對資料進行自動備份以便在資料出現丟失時能夠自動的恢復。
1.8 資料資產與人工智慧
隨著新一輪科技技術的變革,人工智慧已經成為了當前技術的熱點話題之一,而資料更是賦能人工智慧發展的關鍵。
人工智慧在演算法學習和模型訓練時,需要大量的資料做支撐,而人工智慧演算法預測的結果又需要透過資料反饋來驗證其準確的程度,所以可以看到資料是支撐人工智慧發展的關鍵,提高人工智慧的準確性需要大量的資料來不斷的訓練其模型。
資料資產和人工智慧的結合將會使得
人工智慧更加智慧化,能解放更多的人力成本。
能更好和更快的推動很多傳統企業或者組織做數字化的轉型。
加速科技發展的程序,發現更多未知的規律和現象。
總之資料資產與人工智慧的結合,可以為很多的企業或者組織帶來更大的商機,可以讓企業或者組織更好的去理解資料和探索挖掘資料中更多潛在的價值。