非結構化資料怎麼盤點?
也是很奇怪的事情,最近幾個彭友都不約而同地開始討論非結構化資料治理的工作,難道是群體意識覺醒了?
大家知道,企業在剛開始做資料治理的時候,常規套路是起一個諮詢專案,對現有的情況進行摸底,對已知問題提出解決思路,對未來進行規劃。
在遇到結構化資料的時候,這個套路老彭已經很輕車熟路了,但是非結構化資料還真的不太熟悉。
之前做過,但都是“順手為之”的建設邏輯,真正以非結構化資料為主,經驗還有些匱乏。
幸好,老彭彭友圈足夠大,非結構化資料治理的大佬也不少。一番請教和討論下來,也有了一些成果,分享給各位彭友,僅供參考和學習。
如果您這邊有更好的內容,還請推薦給老彭,不勝感激!
01、非結構化資料
一句話簡單解釋:資料分為結構化資料、半結構化資料和非結構化資料。結構化資料就是能按照資料模型表示的結構儲存的資料,具體表現就是資料庫中的表、欄位、值。
非結構化資料就是無法提煉成資料模型,以結構化儲存的資料,具體表現就是各種文件、影片、音訊。
半結構化資料就是其中部分資訊可以進行結構化儲存,部分資訊只能“揉成一團”放進開放性的欄位裡儲存的資料,具體表現就是各種日誌。
其實在企業中,結構化資料的佔比很少,半結構化和非結構化資料的佔比會更多。之前看過一份檔案裡有一個測算結果,結構化資料只佔不到20%。
02、非結構化資料管理
現在我們叫“非結構化資料”,其實之前早就有,叫“檔案資料”。對應的組織叫做“檔案館”。
檔案館最初的工作就是進行各類紙質文件、影像資料的管理。具體工作就是進行檔案分類、編目、檔案管理等工作。
之後檔案館升級,變成“電子檔案館”,對應的工作也就變成了把紙質檔案電子化、電子文件智慧化、文件內容知識化等工作。
核心工作流程不變,依然是各類檔案的分類、編目、管理工作。只不過從原來紙質的文件/錄影帶變成電子文件/影片檔案,由粗笨的檔案櫃,升級為知識管理系統/文件管理系統。
檔案管理工作一般分為兩部分:
1、檔案管理,包括檔案收集、檔案分類、檔案整理、檔案鑑定、檔案保管、檔案編目等工作。
2、檔案利用,包括檔案檢索、檔案統計、檔案資訊開發、檔案編輯和研究(比如檔案文獻編纂)、檔案提供利用等工作。
換到非結構化資料管理,其實都是一樣一樣的。把“檔案”換成“非結構化資料”就行了。
03、非結構化資料分類
跟結構化資料盤點一樣,非結構化資料盤點也是需要分類進行的。否則鬍子眉毛一把抓,壓根就不知道誰是爹誰是媽。
我們通常會分為文件、影片、音訊、圖片等型別,但是更具體的分類還得跟業務場景掛鉤,比如:
這麼分是不是就具體多了?跟業務結合更緊密了?
當然,也有更具體的,比如這個:
這是中石油檔案資源分類體系(2020版)的非結構化資料分類標準,是不是就更清晰了?
與結構化資料分類一樣,非結構化資料也可以是多分類的。但是一般梳理的時候會按某一個固定分類進行盤點,然後再按業務需要進行多分類。否則就亂套了。
04、非結構化資料盤點
非結構化資料都散落在各個檔案系統中,甚至是以原始物理檔案儲存的,盤點的時候就不能像結構化資料一樣,直接連線資料庫讀後設資料進行盤點。
那怎麼進行呢?
首先,盤點肯定還是圍繞後設資料進行的。既然不能用系統,就只能人工了。
大致流程是這樣的:
1、梳理業務流程;
2、整理業務輸入;
3、整理業務輸出(非結構化資料就出來了 )
4、整理非結構化資料後設資料,並形成標準;
5、補充業務資訊(包括編碼、業務分類、業務含義、摘要、標籤等);
6、編製成冊
最終的成果就是類似這樣的一套表格,包括文件名稱、編號、業務所需各類資訊。
來自 “ 大資料架構師 ”, 原文作者:彭文華;原文連結:https://mp.weixin.qq.com/s/awh-c1VXk4X7JdFDhgqbrA,如有侵權,請聯絡管理員刪除。
相關文章
- 結構化資料、半結構化資料和非結構化資料
- 結構化資料與非結構化資料的差異
- 非結構化資料怎麼存?——開源物件儲存方案介紹物件
- 結構化與非結構化
- Qlik:非結構化資料和GenAI洞察報告AI
- 杉巖資料非結構化資料儲存解決方案
- Redis原始碼分析-底層資料結構盤點Redis原始碼資料結構
- 想要玩轉資料視覺化?先弄清我們能用非結構化資料做什麼吧視覺化
- u盤格式化後怎麼恢復資料,怎麼恢復格式化U盤的資料
- DBMS和資料倉儲趨勢:整合化裝置與非結構化資料CF
- 請求支援,我們被非結構化資料包圍了!
- 什麼是非結構化資料(unstructured data)?Struct
- 資料結構:歸併排序(非遞迴)資料結構排序遞迴
- MaxCompute讀取分析OSS非結構化資料的實踐經驗總結
- 數字化轉型時代:非結構化資料保護是關鍵
- 三大優勢 ECS釋放非結構化資料的潛力
- u盤提示格式化怎麼恢復資料,恢復格式化U盤
- Spark如何與深度學習框架協作,處理非結構化資料Spark深度學習框架
- 深耕物件儲存 ECS釋放海量非結構化資料新價值物件
- 海量非結構化資料儲存難題 ,杉巖資料物件儲存完美解決物件
- 可持久化資料結構持久化資料結構
- 資料結構:稀疏棋盤的實現資料結構
- 資料結構知識點--儲存結構與邏輯結構資料結構
- [盤點] 專案中可以怎麼優化圖片優化
- Dell PowerScale:從容應對四大非結構化資料典型應用
- 非結構化資料更需中臺,企業內容管理未來走向何方
- 什麼是資料結構資料結構
- 資料結構-各知識點連結整合資料結構
- python演算法與資料結構-什麼是資料結構Python演算法資料結構
- 可持久化資料結構1持久化資料結構
- 資料結構最佳化DP資料結構
- python字典和結構化資料Python
- 資料庫結構的優化資料庫優化
- 大資料的結構和特點大資料
- Spark效能優化:優化資料結構Spark優化資料結構
- 盤點2021最佳資料視覺化專案視覺化
- 如何管理和應用非結構化資料:示例、工具、技術和最佳實踐
- 發力物件儲存 ECS解鎖非結構化資料增長的價值物件