資料管理簡史:從人工到人工智慧

qing_yun發表於2023-04-10

文章轉自DG資料治理,作者: 龔菲

導讀:從1790年美國第一次人口普查,到1946年計算機問世;從2007年iPhone第一代釋出,到今日的數字孿生與人工智慧,資料變得無處不在。一波又一波的標誌性事件,推進著資料管理在浪潮中向前發展,從最初指尖上的負擔,到真正能為企業帶來業務價值,資料管理一直在不斷創新中發展。

指尖上的負擔

(1800年以前,資料管理0.1)

公元1790年,美利堅合眾國舉行了一次全國性人口普查,當時美國經濟正處於迅速發展階段,人口流動十分頻繁,需要統計的專案繁多,如年齡、性別等,並且還要統計出每個社群有多少兒童和老人,有多少男性公民和女性公民等。再加上統計手段落後,調查員們花了7年半的時間才把資料處理完畢。也就是說,直到快進行第二次人口普查時,美國政府才能得知第一次人口普查的狀況。

調查員們終日埋在資料堆裡,一天下來,也統計不出幾張表格的資料。這個時期資料的概念初步形成,但資料相關工作全靠手工,資料管理工作成為調查員們指尖上的沉重負擔。

圖 1 埋在資料堆裡面的調查員們

卡片上的藝術

(1800-1960年,資料管理0.2)

美國第一次人口普查過後,Hollerith深知人工統計資料之痛,發明了分揀機、製表機和記錄機,用來記錄完整的資料,可以說第一次把資料轉變成了二進位制資訊。一直到1910年-1960年代中期,打卡和製表機都是企業辦公的前提條件。1946年2月14日,第一臺計算機出世,用穿孔卡片輸入資料的方法一直沿用,資料處理也發展成為計算機的主要功能之一。

這個時期資料變成了可以儲存的計算機語言,但是計算機速度很慢,仍然需要大量的手工勞動才能執行,主要還是依靠人工處理資料,資料不能長期儲存,資料不能共享,資料管理工作依然難以進行。

圖 2 工作人員在操作機器

磁碟中的儲備

(1950-1965年,資料管理0.3)

50年代-60年代中期,主要透過檔案系統對資料進行管理。檔案系統是一種能夠快速檢索打卡資訊的機械手段。當時適逢第二代程式語言(組合語言)興起,程式設計師能使用字母表中的字母進行程式設計,而不是使用複雜的1和0字串,程式初步擁有了可讀性,使程式設計師免於繁瑣並且容易出錯的計算,因此組合語言成為了組織用作管理資料的早期方法。

這個時期資料主要以磁碟為儲存介質,可以初步實現聯機實時處理和批處理,並且資料可以長期儲存,但是資料冗餘多、共享性與獨立性差,仍然談不上實現了系統性的資料管理。

圖 3 用匯編語言編寫的程式碼

結構化的飛躍

(1965-1995,資料管理0.6)

20世紀60年代末,美國通用公司研發的第一個資料庫系統DBMS誕生,也標誌著資料管理進入了一個新的時代。同時大容量磁碟的產生,讓資料能夠實現大規模管理。在這個時期,一批資料庫軟體系統出世,資料由DBMS統一管理和控制,第一次實現了資料的結構化,資料有了物理獨立性與邏輯獨立性,人們可以透過DBMS實現一致的資料處理並減少重複資料的數量。資料可以被聯機實時處理、分佈處理、批處理,共享性高、冗餘度低、易擴充,很大程度減少了資料管理工作人員的人工壓力,系統性資料管理初見端倪。

後設資料的萌芽

(1995-2000年,資料管理0.7)

1995年3月,由OCLC(聯機計算機圖書館中心)和NCSA(美國國家超級計算應用中心)聯合在美國的都柏林鎮召開的第一屆後設資料研討會上,產生了一個精簡的後設資料集——都柏林核心元素集(Dublin Core Element Set),簡稱DC。旨在用一個簡單的後設資料記錄來描述種類繁多的電子資訊,達到有效地描述和檢索網上圖書資源。

DC能較好地解決網路資源的發現、控制和管理問題,1998年9月,因特網工程任務組(IETF)將其作為一個正式標準予以釋出(RFC2413)。DC後設資料概念的提出,為現代基於後設資料驅動的資料管理奠定了堅實的基礎,到此,資料管理的序幕才真正被拉開。

初步認知的建立

(2000-2008年,資料管理0.8)

國外學界關於“資料治理”的認識始於2004年,起因是H. Watson探討了“資料倉儲治理”在 Blue Cross 和 Blue Shield of North Carolina 兩家公司的最佳實踐,由此拉開了“資料治理”在企業管理中的大幕。同年,非營利組織DAMA協會成立,以提升資料管理行業及專業的意識和教育。

2005年之後,陸續有學者對“資料治理”展開研究,討論了資料治理環境下企業、政府、醫院的職能角色、模型、框架、因素與機制等。2008年國際標準化組織ISO又圍繞資料治理和資料管理(ISO/IEC 2008)提出差異化概念。

從這個時期開始,資料管理因其在組織內部和外部管理資料使用上的重要性和優勢而受到越來越多的關注,國內外相關組織初步建立了在資料管理上的認知。

“5V”的驅動

(2008年,資料管理0.9)

2008年8月中旬,在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大資料時代》中正式提出大資料概念和大資料的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)、Veracity(真實性)。大資料和其相關概念的提出,讓資料成為公司戰略競爭力,驅動了各大企業在資料管理上的慾望,資料管理工作得到進一步發展。

監管下的推進

(2008-2016年,資料管理1.0)

2008-2012年這段時間,國內資料管理工作主要還是面向監管報送系統的單純的資料質量提升。以銀行為代表,為了滿足監管報送的資料質量要求,各大銀行都先後根據1104設計質量檢核體系與質量專項計劃,旨在提升報送資料質量。

這個時期的資料管理雖然能解決和發現監管上的資料質量問題,但是由於資料管理職能在IT中是分散的,忽略了資料在更廣泛的資料環境中的關係,因此還是處於頭痛醫頭,腳痛醫腳的水平,難以從整體上提升資料質量。隨著IT在銀行應用的不斷深入,銀行建設了大量IT系統並積累了海量資料,如何高效開展資料管理工作,對於公司具有重要意義。2012年7月,國際資料管理協會DAMA出版《DAMA資料管理知識體系指南》一書,一度暢銷,也進一步推進國內資料管理走向了正軌。

系統中的主資料

(2010-至今,資料管理2.0)

隨著MIS、MRP、ERP等系統的產生,企業發現像客戶、產品、員工等這些資料總是需要在各個系統之間分享,最早的是外國ERP廠商推出MDM產品,例如Informatica、 Oracle 、IBM、SAP 、微軟都採取了自有產品並提供主資料管理解決方案,旨在集中管理單一版本的、完整的和可信任的主資料資訊。到目前為止,還有很多企業處在這個時期,例如對於一些製造型企業來說,由於製造產品資訊的複雜、資料量巨大、資訊化程度不一,目前主資料如何管理仍是很大的挑戰。

倉庫中的標準

(2012-至今,資料管理3.0)

2008-2012年這段時間,國內資料管理工作的重點轉向面向資料倉儲的資料標準的建立和落地。以銀行和大型企業為代表,在Inmon提出資料倉儲理論後,2010年左右,各大企業都開始了資料倉儲的建設,單點解決資料質量問題已經不能滿足需求,需要根據資料標準規範資料倉儲上下游資料,實現資料拉通,同時建立完善的資料管理機制,解決資料管理沒有管控流程、資料管理與業務流程結合的問題。資料管理3.0引入了資料驅動業務的原則,承認了對協作資料管理的需求,拆除了資料孤島並且將資料管理責任分散到了更多角色。

服務化與消費

(2018-至今,資料管理4.0)

2018年到未來2020年,資料管理的重點將放在面向資料服務化的資料消費支撐場景。以銀行、政府、公安等行業為代表,在資料質量基本得到保障,近幾年,在後設資料管理技術和平臺日益增強的背景下,大中型企業基本實現了自動分析資料資產,同時能夠在二代系統的基礎上提供資料資產可視與資料服務化能力,資料管理由單純的內部管理轉型為企業支撐業務數字化的必要手段。

雲與人工智慧

(未來,資料管理5.0)

一方面,隨著服務的開發,許多企業開始將大部分資料儲存和處理轉移到雲端。公司從傳統的單片架構轉向分散式混合雲架構。雲將根據需要為組織提供專用的資料管理資源,資料管理將與底層基礎架構無關。它使用新協議的新形式訪問媒體邊緣和移動裝置,用一種新的不斷擴充套件的資料結構、容器和介面,支援資料驅動,例如自助資料準備、自助分析等。未來資料管理方面將會有新的創新,以滿足在這些新的混合雲環境中保護和管理資料的需求。

另一方面,可以預見,在未來十年內,人工智慧將幫助企業識別和分類大量儲存資料,並對基本資料管理程式做出例行決策。作為資料管理的助手,人工智慧將變得越來越有價值。包括處理、管理和儲存非結構化資料;去掉不相關的冗餘資料、實現最大化資料整合、確定儲存資料的最佳位置等。

圖 4 Gartner資料與分析治理和主資料管理成熟度曲線

參考

[1]Saul Judah.Hype Cycle for Data and Analytics Governance and Master Data Management, 2019[R].America:Gartner,2019.

[2]Keith D. Foote.A Brief History of Data Management[EB/OL].

[3]Michael Hiskey.He Who Rules The Data, Rules The World: A Brief History Of Data Governance[EB/OL].

[4]劉桂鋒,錢錦琳,盧章平.國內外資料治理研究進展: 內涵、要素、模型與框架[J].圖書情報工作,2017,61(21):137-144.

[5]未知.資料處理發展的三個歷史階段[EB/OL].

[6]蔡春久.資料治理平臺工具前世今生[EB/OL].

[7]清心悟道.大資料發展歷程[EB/OL].https://www.cnblogs.com/qxwd/p/5988640.html,2016-10-22.

[8]大大里.資料庫的發展歷史[EB/OL].

[9]劉宏倉.資料發展簡史[EB/OL].

來自 “ DG資料治理 ”, 原文作者:龔菲;原文連結:https://mp.weixin.qq.com/s/0buGP5JZEZ3XAbRfJlHPIg,如有侵權,請聯絡管理員刪除。

相關文章