據 IDC 預測,2018 年到 2025 年之間,全球產生的資料量將會從 33 ZB 增長到 175 ZB, 複合增長率達到 27%,其中超過 80% 的資料都會是處理難度較大的非結構化資料。預計到 2030年全球資料總量將達到 3,5000EB。
隨著新興技術的快速發展,全球各大科技公司也提高了行業對非結構化資料的重視程度。物聯網、工業4.0、ADAS、自動駕駛和影片直播等領域的發展所產生的,就是非結構化資料。而例如人工智慧、機器學習、語義分析、影像識別等技術則需要大量的非結構化資料來開展工作。
由於非結構化資料的資訊量和資訊的重要程度很難被界定,如何對其進行有效的管理,是一個棘手的問題。
和結構化資料相比,非結構化的資料最本質的區別包括三個方面:
(Fig 1: “結構化資料”,“半結構化資料”和“非結構化資料”)
1. 非結構化資料的容量比結構化資料更大;
2. 產生的速度比結構化資料更快;
3. 資料來源更具有多樣性。
從形態上,非結構化資料主要包含三大塊:
1. 文字文字;
2. 影像、圖片等;
3. 影片流、電視流。
非結構化資料帶來的挑戰:
一、擴容難、成本高
隨著資料的高速增長,傳統儲存 Scale-Up 的擴充套件方式,會造成“小馬拉大車”的困境,效能與容量無法靈活擴充套件。同時,傳統儲存的擴容成本較高,隨著大量的非結構化資料佔用儲存空間,擴容的需求將造成投資成本不斷攀升。
二、資料體量大、獲取和流轉困難
對於已經保留下來的非結構化資料,真要去使用和處理它,依然是一項不討好的“體力活兒”。由於體量、距離和網速的原因,非結構化資料並不容易獲得,更不要說被靈活地放入業務分析和處理流程之中了。
三、缺乏處理分析的技術手段
非結構化資料的價值密度相對較低,缺乏有效的技術對非結構化資料進行處理和分析,面對海量檔案資料束手無策。
如何更好地去掌控非結構化資料
傳統的資料分析方法和工具難以從非結構化資料中獲取到資訊。資料科學家可以結合NoSQL資料庫對非結構化資料進行人工解析。但是這樣無疑為資料科學家增加了大量的工作。當前無論是AWS、Azure還是阿里雲,對於非結構化處理主要提供基礎設施,並沒有針對資料本身提供解決方案,不同的行業資料應該如何組織、如何訓練、如何形成行業知識庫。而市場上很多資料公司,則專注於某個領域的資料,如公安、電商、諮詢等行業,提供行業性的解決方案,並且取得了可觀的成果。為了更高效地讓所有人瞭解並賦能非結構化資料,新興人工智慧產業如格物鈦Graviti便著手構建非結構化資料管理平臺。讓一些暫時不能被處理的“無效資料”賦之以價值和能量,瞭解並有效地管理資料是第一步。
隨著AI和5G時代的到來,我們對資訊的渴望被極大的喚起,常規的結構化資料互動已經不能滿足人們的需求,而伴隨著數字化的快速發展,非結構化資料扮演起越來越重要的角色,圖片、影片、語音蘊含的豐富資訊將被廣泛利用。