什麼是非結構化資料(unstructured data)?

格物鈦Graviti發表於2020-06-05

據 IDC 預測,2018 年到 2025 年之間,全球產生的資料量將會從 33 ZB 增長到 175 ZB, 複合增長率達到 27%,其中超過 80% 的資料都會是處理難度較大的非結構化資料。預計到 2030年全球資料總量將達到 3,5000EB。

隨著新興技術的快速發展,全球各大科技公司也提高了行業對非結構化資料的重視程度。物聯網、工業4.0、ADAS、自動駕駛和影片直播等領域的發展所產生的,就是非結構化資料。而例如人工智慧、機器學習、語義分析、影像識別等技術則需要大量的非結構化資料來開展工作。

由於非結構化資料的資訊量和資訊的重要程度很難被界定,如何對其進行有效的管理,是一個棘手的問題。

和結構化資料相比,非結構化的資料最本質的區別包括三個方面:

什麼是非結構化資料(unstructured data)?(Fig 1:  “結構化資料”,“半結構化資料”和“非結構化資料”)

1. 非結構化資料的容量比結構化資料更大;

2. 產生的速度比結構化資料更快;

3. 資料來源更具有多樣性。

從形態上,非結構化資料主要包含三大塊:

1. 文字文字;

2. 影像、圖片等;

3. 影片流、電視流。

非結構化資料帶來的挑戰:

一、擴容難、成本高

隨著資料的高速增長,傳統儲存 Scale-Up 的擴充套件方式,會造成“小馬拉大車”的困境,效能與容量無法靈活擴充套件。同時,傳統儲存的擴容成本較高,隨著大量的非結構化資料佔用儲存空間,擴容的需求將造成投資成本不斷攀升。

二、資料體量大、獲取和流轉困難

對於已經保留下來的非結構化資料,真要去使用和處理它,依然是一項不討好的“體力活兒”。由於體量、距離和網速的原因,非結構化資料並不容易獲得,更不要說被靈活地放入業務分析和處理流程之中了。

三、缺乏處理分析的技術手段

非結構化資料的價值密度相對較低,缺乏有效的技術對非結構化資料進行處理和分析,面對海量檔案資料束手無策。

如何更好地去掌控非結構化資料

傳統的資料分析方法和工具難以從非結構化資料中獲取到資訊。資料科學家可以結合NoSQL資料庫對非結構化資料進行人工解析。但是這樣無疑為資料科學家增加了大量的工作。當前無論是AWS、Azure還是阿里雲,對於非結構化處理主要提供基礎設施,並沒有針對資料本身提供解決方案,不同的行業資料應該如何組織、如何訓練、如何形成行業知識庫。而市場上很多資料公司,則專注於某個領域的資料,如公安、電商、諮詢等行業,提供行業性的解決方案,並且取得了可觀的成果。為了更高效地讓所有人瞭解並賦能非結構化資料,新興人工智慧產業如格物鈦Graviti便著手構建非結構化資料管理平臺。讓一些暫時不能被處理的“無效資料”賦之以價值和能量,瞭解並有效地管理資料是第一步。

隨著AI和5G時代的到來,我們對資訊的渴望被極大的喚起,常規的結構化資料互動已經不能滿足人們的需求,而伴隨著數字化的快速發展,非結構化資料扮演起越來越重要的角色,圖片、影片、語音蘊含的豐富資訊將被廣泛利用。

相關文章