資料開放,90%的人搞不清的事情

qing_yun發表於2022-06-15

有好友負責企業資料治理的工作,最近制定了一部企業內的資料開放管理辦法,初稿出來後,就發給各個部門徵求意見了,然後各種意見紛至沓來,令他驚訝的是,大家似乎對資料開放這個概念的理解並不一致,比如:

A部門建議:“公司內部的資料流通不能叫資料開放,應該叫資料共享!”

B部門建議:“系統間的資料流動需要在資料開放管理辦法考慮!”

C部門建議:“報表的開放需要在資料開放管理辦法中予以考慮!”

D部門建議:”部門內的資料流動需要在資料開放管理辦法中予以考慮!“

資料開放這個概念看著簡單,但每個部門每個人似乎都會受到自身背景的影響而對這個概念產生不同的理解,比如搞安全的很容易把資料開放與資料共享、資料交換等概念混為一談,認為這些都是需要在辦法中考慮的。

那麼,資料開放和資料共享有沒有區別?部門內的資料流動是否屬於資料開放的範疇?報表算不算資料開放的形式?

今天就來聊一聊。

在《資料資產管理實踐白皮書(5.0版)》中,我找到了以下的關於資料開放、資料共享及資料交易概念的詮釋:

資料共享是指打通組織各部門間的資料壁壘,建立統一的資料共享機制,加速資料資源在組織內部流動。資料開放是指向社會公眾提供易於獲取和理解的資料,對於政府而言,資料開放主要是指公共資料資源開放,對於企業而言,資料開放主要是指披露企業執行情況、推動政企資料融合等。資料交易是指交易雙方透過合同約定,在安全合規的前提下,開展以資料或其衍生形態為主要標的的交易行為。

資料共享、資料開放、資料交易的區別在於交換資料的屬性與資料交換的主體範圍。對於具備公共屬性的資料,在組織體系內部流通屬於資料共享,如政府機構之間的資料交換,在組織體系外部流通屬於資料開放,如公共資料向社會公眾開放。對於具有私有(商品)屬性的資料,在組織內部流通屬於企業資料共享,如企業部門間資料交換,在組織外部流通屬於資料交易。

《資料治理-工業企業數字化轉型之道》中,也有類似的解釋:

資料共享主要指的是面向企業內部的資料流動,其中由資料應用單位提出企業內部跨組織跨部門的資料獲取需求,由對應資料供給單位進行授權並由資訊部門向該資料應用部門開放資料訪問許可權。而資料開放則指企業向政府部門、外部企業、組織和個人等外部使用者提供資料的行為。

可以看到,資料開放似乎變成了政府公共資料對外開放的專有名詞,但站在企業的角度看自己內部,如果這個企業擁有一個統一的企業資料管理組織,即資料供給組織,它已經歸集了企業所有的資料並且有管理權,那麼就存在一個向各部門開放資料的問題,這理所當然也是資料開放的範疇。

很多企業還沒有企業級的資料管理組織,資料開放的主體並不存在,無所謂資料開放,因此把各個部門間網狀的資料流動叫作資料共享。

但如果像華為一樣,企業已經建立了資料責任人制度,明確了企業資料責任人和領域責任人,這個時候企業資料責任人也需要履行跟政府類似的職能,比如制定資料開放管理辦法,用以規範向各部門開放資料的行為,將以前無序、低效的資料流動(比如資料共享)轉變成有序、高效的資料開放,只有這樣才能充分釋放出資料要素的價值。

那麼,報表下載這種算不算資料開放呢?我們可以先看看業界對資料開放的定義:

世界銀行:

開放資料是指“能被任何人出於任何目的不受限制地進行自由利用、再利用和分發,並最大程度保持其原始出處和開放性的資料”。

G8《開放資料憲章》:

開放資料是指“具備必要的技術和法律特性,從而能被任何人、在任何時間和地點進行自由利用、再利用和分發的電子資料”。

浙江省政府:

公共資料開放是指“公共管理和服務機構面向社會提供具備原始性、可機器讀取、可供社會化利用的資料集的公共服務”。

上海市政府:

公共資料開放是指“公共管理和服務機構在公共資料範圍內,面向社會提供具備原始性、可機器讀取、可供社會化再利用的資料集的公共服務”。

從這些定義了會發現幾個關鍵詞即“原始資料”、“可機器讀取”、“可供社會化利用”,為什麼要強調這些特徵呢?

資料開放的目的是讓別人也能有效利用資料產生價值,但不同層面的資料可供再利用的潛力是不一樣的。就拿政府的資訊公開來講,你說這些公開的資訊有沒有價值,當然有,但這些“資訊”往往經過了分析、加工和解讀,被賦予了特定意義,其再被利用的價值已經很低了,舉個例子:

氣象局告訴你“今天會下雨”,這是一個資訊,但你很難利用這個資訊再進行二次創造,但如果氣象局把得出“今天會下雨”這個結論依賴的原始資料和預測演算法也告訴你,比如溫度,溼度等等,那麼你就可以利用這些原始資料用於更多的用途,比如預測災難。可以說,資料是資訊的底層,資料比資訊具有更大的再利用空間和挖掘潛力。

但如果氣象局只是把溫度,溼度等原始資料透過文件或網頁文字的形式提供出來,由於這些文字資料無法被機器直接讀取,或者需要透過人工或NLP等方法處理後才能使用,這樣成本就太高了,這種資料開放的價值就大打折扣了。

因此,在各國的資料開放實踐中,開放資料通常呈現為以電子化、結構化、可機讀格式開放的資料集。資料集是指由資料組成的集合,通常以表格形式出現,每一列代表一個特定變數,每一行則代表一個樣本單位。

報表雖然也是一種資料流通的方式,但一般不把報表看做資料開放,一方面是因為大多報表資料是面向特定業務高度加工過後的資訊,另一方面是報表往往無法被機器直接讀取,需要一定的轉化處理,很多企業動輒說我有10000張報表,1000個指標,你看我資料的利用很好吧,但數量多並不意味著質量,也許生成10000張報表的基礎只是50張原始表而已,大家都在自己畫的圈裡面內卷。

同樣的,資料視覺化、資料服務、資料產品一般也不屬於資料開放的範疇,因為使用者無法有效獲得視覺化、資料服務、資料產品背後的原始資料集,也無法對這些資料進行再次利用。

很多企業部門間資料開放,資料提供部門由於各種利益的考慮,往往只願意提供彙總資料,不願意提供原始資料,而且要求資料需求部門說明業務用途,這種資料開放的價值其實不大,因為只能定向解決一個特定的業務問題,跟資料開放的目標相去甚遠,企業所以要建立統一的資料管理組織,就是要規範這種問題, 資料共享講得是解決具體問題,資料開放追求的則是價值創造。

當前主流的資料開放形式有兩種,一種是資料集合,另一種就是API。

資料開放是跨組織資料消費的基礎,明確資料開放的定義和範圍,形成大家對資料開放的共識,是推動資料開放能力提升的前提,希望對你有所啟示。

來自 “ 大魚的資料人生 ”, 原文作者:討厭的大魚先生;原文連結:https://mp.weixin.qq.com/s/-uNMetSf2M2m_6qDx0E5Ow,如有侵權,請聯絡管理員刪除。

相關文章