非結構化資料怎麼盤點?

qing_yun發表於2022-07-29

也是很奇怪的事情,最近幾個彭友都不約而同地開始討論非結構化資料治理的工作,難道是群體意識覺醒了?

大家知道,企業在剛開始做資料治理的時候,常規套路是起一個諮詢專案,對現有的情況進行摸底,對已知問題提出解決思路,對未來進行規劃。

在遇到結構化資料的時候,這個套路老彭已經很輕車熟路了,但是非結構化資料還真的不太熟悉。

之前做過,但都是“順手為之”的建設邏輯,真正以非結構化資料為主,經驗還有些匱乏。

幸好,老彭彭友圈足夠大,非結構化資料治理的大佬也不少。一番請教和討論下來,也有了一些成果,分享給各位彭友,僅供參考和學習。

如果您這邊有更好的內容,還請推薦給老彭,不勝感激!

01、非結構化資料

一句話簡單解釋:資料分為結構化資料、半結構化資料和非結構化資料。結構化資料就是能按照資料模型表示的結構儲存的資料,具體表現就是資料庫中的表、欄位、值。

非結構化資料就是無法提煉成資料模型,以結構化儲存的資料,具體表現就是各種文件、影片、音訊。

半結構化資料就是其中部分資訊可以進行結構化儲存,部分資訊只能“揉成一團”放進開放性的欄位裡儲存的資料,具體表現就是各種日誌。

其實在企業中,結構化資料的佔比很少,半結構化和非結構化資料的佔比會更多。之前看過一份檔案裡有一個測算結果,結構化資料只佔不到20%。

02、非結構化資料管理

現在我們叫“非結構化資料”,其實之前早就有,叫“檔案資料”。對應的組織叫做“檔案館”。

檔案館最初的工作就是進行各類紙質文件、影像資料的管理。具體工作就是進行檔案分類、編目、檔案管理等工作。

之後檔案館升級,變成“電子檔案館”,對應的工作也就變成了把紙質檔案電子化、電子文件智慧化、文件內容知識化等工作。

核心工作流程不變,依然是各類檔案的分類、編目、管理工作。只不過從原來紙質的文件/錄影帶變成電子文件/影片檔案,由粗笨的檔案櫃,升級為知識管理系統/文件管理系統。

檔案管理工作一般分為兩部分:

1、檔案管理,包括檔案收集、檔案分類、檔案整理、檔案鑑定、檔案保管、檔案編目等工作。

2、檔案利用,包括檔案檢索、檔案統計、檔案資訊開發、檔案編輯和研究(比如檔案文獻編纂)、檔案提供利用等工作。

換到非結構化資料管理,其實都是一樣一樣的。把“檔案”換成“非結構化資料”就行了。

03、非結構化資料分類

跟結構化資料盤點一樣,非結構化資料盤點也是需要分類進行的。否則鬍子眉毛一把抓,壓根就不知道誰是爹誰是媽。

我們通常會分為文件、影片、音訊、圖片等型別,但是更具體的分類還得跟業務場景掛鉤,比如:

這麼分是不是就具體多了?跟業務結合更緊密了?

當然,也有更具體的,比如這個:

這是中石油檔案資源分類體系(2020版)的非結構化資料分類標準,是不是就更清晰了?

與結構化資料分類一樣,非結構化資料也可以是多分類的。但是一般梳理的時候會按某一個固定分類進行盤點,然後再按業務需要進行多分類。否則就亂套了。

04、非結構化資料盤點

非結構化資料都散落在各個檔案系統中,甚至是以原始物理檔案儲存的,盤點的時候就不能像結構化資料一樣,直接連線資料庫讀後設資料進行盤點。

那怎麼進行呢?

首先,盤點肯定還是圍繞後設資料進行的。既然不能用系統,就只能人工了。

大致流程是這樣的:

1、梳理業務流程;

2、整理業務輸入;

3、整理業務輸出(非結構化資料就出來了 )

4、整理非結構化資料後設資料,並形成標準;

5、補充業務資訊(包括編碼、業務分類、業務含義、摘要、標籤等);

6、編製成冊

最終的成果就是類似這樣的一套表格,包括文件名稱、編號、業務所需各類資訊。


來自 “ 大資料架構師 ”, 原文作者:彭文華;原文連結:https://mp.weixin.qq.com/s/awh-c1VXk4X7JdFDhgqbrA,如有侵權,請聯絡管理員刪除。

相關文章