大資料治理:支撐新一代AI應用落地的基石

資料派THU發表於2019-03-20

大資料治理:支撐新一代AI應用落地的基石

2016 年,谷歌 AlphaGo 機器人在圍棋比賽中擊敗了世界冠軍李世石,引爆了人工智慧,開啟人工智慧的新紀元。2017年,國務院釋出實施了《新一代人工智慧發展規劃》,對中國面向2030年的人工智慧產業進行了整體規劃與部署。一時間,人工智慧AI成為炙手可熱的風口,幾乎所有的IT網際網路企業,以及那些還在推動網際網路+、數字化轉型的傳統企業,也試圖尋求借助人工智慧實現自身的轉型升級。

但如同這些年來,大資料先是被神化,然後又被妖魔化的技術概念炒作路線一樣,本輪AI熱潮也必然會經歷從過度神化走向落地的過程。在狂熱之餘,也有必要分析本輪AI熱潮的實質:本輪火熱的人工智慧在演算法或模型方面並無革命性的重大突破。深度學習早在上世紀八十年代就已經出現。近年來人工智慧的突然爆發,主要有兩個關鍵因素:一是大資料深度學習演算法提供海量的訓練資料作支撐;二是高效能運算,尤其是通用計算GPU給予了神經網路深度學習強大的計算力支援,使得以前無法完成的計算或者無法在短時間內完成的計算成為了可能。

正因為有了兩個關鍵因素作支撐,使得本輪人工智慧呈現與以往不同的特徵:在特定領域,學習的主體真正由人變成了機器,人工智慧正式進入了2.0時代。這也是試圖尋求借助人工智慧實現自身轉型升級的傳統企業,最為關注的焦點:即如何藉助人工智慧技術,通過機器自主學習從海量的文字、視訊、影象等大資料中每天24小時、永不停息地探尋規則、模式、預測、趨勢、關聯關係等隱性知識,實現知識創新服務與決策支援,釋放“智慧紅利”,而使公司獲得更早的發展先機和更強的競爭力。因此,本文的關注重點並非研究某項具體的人工智慧技術,而是探討如何在傳統企業內部建立從大資料到知識的一套工作機制或方法,即行業資料+AI元素,促成AI技術在行業知識轉化過程中更好的發揮創新引領作用。

1. 從大資料到知識的轉化過程

本文提出通過大資料治理工作,在企業內部建立起一套支撐大資料深化應用、AI2.0(即機器自主學習)常態化運轉,涵蓋大資料、組織架構、技術平臺等在內的創新工作機制,將隱性知識的轉化主體逐漸由人向機器轉變。如下圖所示。

大資料治理:支撐新一代AI應用落地的基石

企業大資料包括社交媒體資料、機器對機器資料、大體量交易資料、生物計量學資料和人工生成資料,分為文字、視訊、影象、語音等承載形態。大資料到知識的轉化可以分為兩個階段:

大資料深化應用階段,企業主要由資料科學家、資料分析師等大資料專業人員運用機器學習、探索分析、實時資料服務等大資料深化應用技術,從大資料中提取出規則、趨勢、關聯關係等各類知識,基於相關的應用方向結合實際需求,構建應用場景,從而產生業務價值;這個階段的主要特徵是以人為學習主體,大資料專業人員全程掌控,基於自身經驗去獲取所需的各類資料、選擇合適的演算法、技術、工具平臺去發掘隱含在大資料中的隱性知識,完全離不開“人”。

在新一代人工智慧應用階段,資料科學家、資料分析師等大資料專業人員利用各種深度學習演算法,放棄對結果的可解釋性、不限定問題假設、不訓練樣本、也不人工標記資料集,只追求學習的有效性,僅結合人類的先驗常識、隱性直覺等知識為引導,基於海量大資料,整體圍繞“以機器為學習主體”這一目標,建立注意力模型、記憶網路、遷移學習、強化學習、半監督/無監督學習等演算法模型,實現從淺層計算到深度神經推理,“永不停息”自主驅動學習,去發掘隱含在大資料中的隱性知識,最終使機器自身具備資料收集、整理、分析的能力,並自主對演算法進行調整和優化,自主將大資料轉變為知識,實現高階人工智慧,更好地支撐知識創新服務與各級決策。

2. 大資料治理

為了更好地支撐大資料到知識轉化過程,應將傳統資料治理升級到大資料治理,如同大資料是資料一樣,大資料治理本質上也是資料治理,資料治理方法論同樣也適用於大資料治理,但是考慮到大資料的特性,需要作出適當的調整,本文重點闡述大資料治理與傳統資料治理差異性較大的內容,以及大資料治理對於深化大資料應用、支撐新一代人工智慧落地的基石作用。

通過大資料治理,將推動“以人為學習主體”的大資料深化應用階段逐步向“以機器為學習主體”的新一代人工智慧應用階段轉變,推進治理的資料型別由傳統的、佔比不到15%的結構化資料向原生態格式、多結構、佔比超過85%的非結構化資料轉變;推進治理的資料範圍由專注企業內部資料向行業上下游、跨行業、社會輿情等資料轉變;推進資料治理工作目標由體現間接價值向直接推動價值創造轉變。

2.1 大資料治理組織

在現有資料治理組織架構中增加大資料治理相關的職責和角色:將資料科學家、AI演算法專家等大資料專家納入到決策層——資料治理委員會(或知識創新領導小組,名字不限於此),大資料專家從驅動資料到知識的轉化視角、知識指導實踐的洞察視角,輔助作出各種決策,有助於從組織高階層面為驅動大資料轉化知識爭取更多資源。按大資料型別分設大資料主管[1],負責本型別大資料的收集(不限本公司)、內部提供、外部交換及質量、安全等管理工作。資料主管向業務部門彙報,憑藉其專業性,負責提升資料資產的可信度和隱私性,同時確保開展大資料深化應用、深化學習時,各項保障工作能支撐到位。

2.2 大資料質量管理

大資料質量管理相比傳統資料質量管理更加複雜,主要表現在資料來源複雜且多樣性、組織內外資料含義存在差異性、外部資料難以有效控制質量且錯誤資料無法溯源等等。同時,機器學習、深度學習演算法對資料質量要求極高,否則可能會導致機器無法自主學習、或產生錯誤知識,影響決策,造成資源浪費。大資料質量評估維度需要重新定義。目前在大資料質量的可度量性方面以麻省理工學院Richard Y.Wang等提出的資料質量度量維度為典型代表,將大資料質量維度分為四大類、19個維度[2],如下表所示:

大資料治理:支撐新一代AI應用落地的基石

2.3 大資料架構管理

當前,各大型企業都已啟動或即將完成大資料平臺建設,基本上都規劃了本企業的大資料架構,在此不再重複。在本處強調三點:

一是需要建立面向多源異構資料、尤其是非結構化資料的自動採集機制,資料來源可能是合作企業,也有可能是熱點網站,需針對不同型別資料定製化開發不同的採集程式,如包裝器、抽取程式等;

二是文字、影象、視訊等非結構化資料,必須與人員、組織、產品等主資料進行關聯,從而通過索引、分析等技術,挖掘非結構化資料的潛在價值;

三是大資料架構應逐漸向“以機器為學習主體”的目標架構階段性演進。與傳統的資料倉儲建設方法類似,前期可根據應用需求,選擇知識圖譜、智慧機器人等應用方向,基於特定領域設計應用場景,逐步建立起針對內外部資料自動採集、整合、分析以及自動學習優化演算法的能力,通過場景驅動逐漸推動大資料應用架構向大資料智慧化架構演進。

2.4 大資料生命週期管理

大資料生命週期管理與傳統資料生命週期管理在流程上比較相似,但大資料環境下的資料清理,與傳統資料清理區別較大。對於傳統資料而言,資料質量是一個很重要的特性,但對於大資料,資料可用性則更為重要,傳統意義上的垃圾資料,也有可能變廢為寶。對於不同的可用性資料,應建立不同的資料質量標準,如應用於財務統計的資料和應用於分析的資料,在質量標準上有所不同,有的需求注重資料全面性但對質量要求不是特別高;有些需求,如審計與風險,則嚴格關注垃圾資料並從中發現問題。因此,大資料應用中不建議直接清理垃圾資料,可通過資料質量分級,不同質量等級的資料滿足不同層次的應用需求。

2.5 大資料服務創新

大資料治理與資料治理最大的區別在於兩者的關注點不同,資料治理主要是為了保證資料能夠反映並還原真實業務,促進資料與業務的一致性,使企業能基於真實的資料環境更好的開展各項業務活動,產生間接價值。但大資料治理更多關注發揮大資料的應用價值,通過大資料深化應用、深度學習演算法模型去發掘隱藏在海量大資料中的規則、模式、關係等知識,從而指導業務部門開展領先於市場競爭對手的高價值、低風險的業務活動;通過支撐新產業和新業態的跨界深度融合,甚至為企業開闢全新的市場空白地帶,促進公司業務的全面創新與高速發展。

3.總結

本文從大資料視角將新一代人工智慧定位為相對於大資料深化應用更高階段的知識提取過程,並指出了兩者的明確區別:以人為學習主體的大資料深化應用階段和以機器為學習主體的新一代人工智慧應用階段;兩者的共同之處都是從大資料到知識轉化過程。在大資料轉化為知識的過程中,以應用場景為驅動,通過大資料治理各項業務活動,促進大資料人工智慧技術的深度融合,釋放“智慧紅利”,推動新一代人工智慧應用逐漸落地。

引用:

[1]桑尼爾.索雷斯.  大資料治理[M]. 匡斌譯. 北京:清華大學出版社,2014.

[2]張紹華,潘蓉,宗宇偉. 大資料治理與服務. 上海科學技術出版社,2016.

【作者簡介】

楊科學,御數坊高階諮詢顧問,2006年碩士畢業於中南大學計算機專業,獲得資料管理專業認證(CDMP)、資訊系統專案管理師認證,主要從事資料治理、資料標準、資料質量、資料模型設計等諮詢和設計工作。先後為金融、電力等行業的多家大型企業提供資料治理諮詢和企業資料模型設計服務工作。


相關文章