資料要素流通與隱私增強計算的結合實踐
導讀:資料要素流通、隱私計算,都是現在非常熱門的話題。作為業內相對資深的技術方,本次由螞蟻集團帶來的分享交流主要圍繞資料要素流通與隱私增強計算的結合實踐。關注如何把上述熱點概念從頂層設計,從技術向下落地,真正應用到實踐中。如何進行資料治理,怎樣利用工具手段來實現連結、流轉、共享與使用價值的最大化。
分享嘉賓|夏建樹 螞蟻集團 資深架構師
編輯整理|monk 國家管網
出品社群|DataFun
01
現在國家已經把資料要素流轉上升到了非常高的層面。頂層設計方面出臺一系列的法律法規,比如國務院辦公廳、工信部,數字中國規劃,十四五規劃裡已經針對資料要素流通的要求、辦法等提出了相關要求。
這樣的大背景下,在經歷了中國6-7年大規模的網際網路化和智慧化的轉型後,企業手頭積累了很多資料,幾乎中國的每個企業差不多都認為自己的資料是可以變現的,具有資料資產化的價值。但事實上資料要素如何形成資產化卻很難去評估。因為資產化需要把資料變成商品,其中最大的問題在於資料是可複製性的,並且是不可量化的。比如買一條欄位或 ID,複製之後可能從一傳到十,複製到無窮多,在這個過程中,資料本身的資料權屬是否會變化?資料本身的定價有無變化?複製傳導當中資料的邊際成本和邊際收益是否變化?是否涉及到法律問題?
資料雖然最難形成商品,但是卻又是目前國家極力想去將其商品化的物件。我們就應該考慮從資料安全、隱私計算技術,來對資料要素流通進行工具上和制度上的安全提升,構建體系,來實現資料在合規合法前提下流通。
這是今天的第一個話題,即意識已經增強,但是流通無體系的時候,資料市場是相對比較混亂的。
阿里集團應該是國內最早進行隱私計算的,雖然現在很多公司都做隱私計算,但一般都是在 2015、2016 年開始的,之前螞蟻集團都會從外面採購資料來補充自己的業務,2016、2017 年之後開始用隱私計算 psi 來做資料輸出,包括標籤輸出。當然因為基於 psi 所以本身的原始資料是不輸出的,而 psi 隱私求交已經是隱私計算裡面目前使用最廣泛的場景。
坦率說隱私計算並不是一個很高深的東西,國內有很多的機構都在做隱私,但是大家都沒有很嚴謹的把它變成商業化的生意,更多的是從技術、做專案的角度、包裝的角度、創新的角度在做資料高速流轉,包括隱私計算產品互動。嚴重的同質化也導致大家在技術領域沒有代差。國內機構更多的是去補充運算元,或者營造新的概念。大家在造概念、補充實際業務裡不會用到的運算元的時候,往往會忽視商業化,導致的結果是相對比較小的公司拿專案為的是 logo,而一些大的公司可能是因為自己的 bg 或者 bu,在行業裡進行內卷。拿了專案後因為沒有想商業化,所以很少有機構隱私計算專案能夠實現二期、三期、四期不停延展。95% 的客戶都問過我一個問題,就是之前買了一個平臺用不起來,能不能用一些其他工具、體系,幫助我把隱私計算落地?
基於以上背景,其實我們不需要講太多的隱私計算,也不需要講太多的資料治理或者資料安全,而是應該先從客戶角度來考慮,做產品、做資料分析請大家還是把眼光往前看。
舉一個例子叫“百行模式”,百行指的是百行徵信。做隱私計算,包括我們做資料安全治理、資料的二次封裝等,其實都可以參考百行模式。即本身不會對外說我有很多資料,也不會對外說我做了很多的資料標籤輸出或者資料治理。國家現在一直在提倡資料要素變現,資料要素流轉流通,百行模式最大啟發意義是做資料安全或者其他事情都要以綜合型的視角來進行。
綜合型的視角指什麼?
目前有三類資料,第一類叫政府及公共服務類資料,第二類是企業類資料,第三類資料是個人資料。國家發了不同的法律法規來對這三類資料流轉進行限制監管。比如說政府及公用資料只是做共享,不能做商業化。企業的資料相對比較成熟,現在國內應該有200多家做企業的資料技術公司拿著各種企業資料在做各種普惠、產業園區的生意。第三類就是我所講的百行模式。
目前螞蟻集團的錢塘徵信還沒完全落地沒有商業化,所以現在在市面上商業化兩個牌照中有一個就是百行。百行做的是垂直的金融買賣,直接對應的是銀行,所以他做的是裡面各種的資料。我主要分了五類:公共服務類、經營分析類、競爭對手類、產能資源類、需求情況類。這些資料基於客戶的實際場景來進行資料輸入輸出。其實沒有一個對外稱之為“百行分”或者標準的資料產品。
針對銀行而言,比如銀行要放一個A貸款,比如白領貸,就只能給當地的一些他定義為白領的實際使用人,比如公務員、機關企事業單位人員。如果當地一共就只有100萬人,哪這一百萬就是存量客戶或者目標客戶。拿這100萬客戶他自己銀行跑出來的結果,去跟百行要定向的這一百萬客戶本身的標籤和使用者畫像,以及信貸表現。那百行就會基於實際的業務場景來做相對應的資料闡述。因為他本身是有牌照的,所以就已經規避資料問題。並且他會跟上游的資料供應商一起來做資料的二次加工,資料清洗。包括基於上游資料的採集方的一些安全要求。哪些資料能輸出哪些不能輸出?哪些能出域哪些不能出域?哪些是隻能以體系化的區間形式輸入?哪些是完全不能輸出只能用隱匿查詢或者用隱私求交來做?
所以我想給大家提這樣的形式。在資料要素變現或者流轉過程中,我們還是要以業務場景來看。如果沒有業務場景,其實你是賺不到錢的。另外一點需要指出的是,我們做資料探勘,資料清洗及治理管理的時候,因為其實很多銀行都以自己核心業務系統,包括百行本身也有很複雜很完整的資料分析工具,但是各種主題庫、各種垂直行業的業務的專案空間,其實都需要專業業務人員來做設計,並且把業務功能形成一些固化,比如把工作流基於區塊鏈來進行智慧合約化就是一個非常好的區塊鏈變現的場景。
百行模式帶來的感知就是應該怎麼做垂直行業的資料分析、共享。我建議不要去堆太多的功能、標籤、畫像、分類等,而是實際的先找到客戶、然後從客戶去反推我需要做的業務反饋。
03
下圖是螞蟻做的能力供應大圖,基本上涵蓋了資料要素流通全生命週期,包括採集、儲存、分析、流轉、使用、審計。
如果大家熟悉資料要素生命週期,知道傳統上應該最後還有銷燬環節。我們把資料銷燬環節刪除了,原因是我們認為所有資料都是有價值的,所有資料都是要進行審計的。我們所做資料審計功能背後會包括物理銷燬或者相關銷燬機制,具體由分析審計的結果給出結論。
這個大圖中也涵蓋了資料資產可用不可見,可控可計量,甚至還有可回收,因為回收才可以可審計。坦率的說市面上有很多的機構都在做這些事情,比如有的人在做安全領域的水印, 有的人在做脫敏,也有些是基於資料平臺或者資料分析工具來做資料資產地圖,有區塊鏈公司做確權、排程,隱私計算公司能做隱私計算引擎等。客戶一般不會需要一個斷點的功能,尤其目標客群相對近似的情況下。
資料要素流轉中資料管理方是央國企,供應鏈或者已經自成體系的大零售、大物流、大交通相關的核心企業,還有政府、產業園區,還有由政府產業園區牽頭做的資料交易所,目標客戶畫像是非常明確。其實我們需要關注的是客戶實際需要什麼。這些機構本身貼身服務的廠商有多少大家應該非常清楚。單獨的每個能力很難生存,都會跟別人有重疊的地方。所以應該反推的去看客戶其實需要什麼能力補全。
04
建議對於政府、監管機構重點關乎的企業使用者,一般用木桶理論幫著補充短板就可以。比如廣州汽車、車場、機場特別多,工信部汽車司去那邊罰了一個機構的資料安全款項。當地就有另外一家企業就找我問能不能做資料安全管理中臺,把短板補上。
但如果是初創性企業,或者資料交易或者資料要素流轉還沒有想出業務場景時,建議先把企業的長板拉長。相對來說,資料安全、資料分類分級用傳統思路做,資料地圖甚至都可以不做,因為沒有業務。但是要把手頭現在有資料,包括外部生態資料迅速形成一個垂直行業業務畫像,能夠往外進行售賣,進行商品化,就能夠做業務小閉環。
因此給大家的觀點是我們應該倒過來想,不要去講太多的產品功能。尤其對於初創性公司,迅速跑通業務場景,迅速形成變現場景,能夠向上彙報、向外彙報,甚至能夠向資本市場彙報。
我把產品功能形成了下面這六個能力板塊,很多機構其實都會到資料場景落地進行能力補充。給大家的概念是以資料安全+合規諮詢+區塊鏈+隱私計算技術為核心,從域內資料安全流轉到跨域、跨境資料可信流轉,為使用者提供可梯度選擇的資料全生命週期安全管控方案,幫助客戶做比較好的能力補全,而不是說我這有個產品讓企業花點錢把它買去,支援國內、跨國、地方、行業標準落地建設,支援資料要素合規流通與使用。
05
資料的標準化處理、質量處理等基礎資料治理功能,每個大廠都會有較為成熟的商品化產品。我們在資料基礎治理的基礎之上形成了資料要素流通的總體框架。
比如現在要炒一盤菜,先解決的是採購時瞭解菜是不是過期、新鮮?是不是能匹配配菜師傅要求?然後配菜時要基於每個人的口味不同來進行安全篩查,比如有孕婦有東西不能吃,有宗教信仰的不能吃肉食,這個我們叫安全治理。安全基線是不能突破最終採購安全底線的安全治理工具。安全治理工具包括三類,預內管、跨域管 跨境管三塊。安全治理之後才能真正的將資料資產進行流轉。流轉的時候又有兩道工序,第一道工序是對多後設資料融合,融合會涉及到標籤、體系的流轉、資料目錄形成。之後非常重要的是要在確權之後進行授權。很多機構都會忘記授權這個動作。
資料的流轉過程中,首先要對敏感資料進行分類分級,知道哪些能用哪些不能用。還要進行授權處理,包括單次授權、多次授權、長期授權、以及特定場景授權等。因為很多機構授權沒有解決好而導致下架的案例已經很多了。
資料授權怎麼來做?第一是基於區塊鏈,來進行授權鏈路存證。第二個是把授權鏈路和資料開放策略形成策略式的設計。如果鏈路缺乏確權、授權,或者缺乏對敏感資料的處理,比如水印,那需要把這樣的風險監測出來,不管是做旁路阻斷,還是直接做告警阻斷,要把這個功能放進去。之後才能提引擎排程,比如哪些資料是分散式的、集中式的?集中式用可信執行環境或者是直接用同態加密,分散式的是用 mpc、psi ?進行不同的隱私系統邏輯設計。
需要從客戶業務視角出發,發現業務場景裡面要用到哪些資料要素,然後對資料要素進行三個層面的處理,最後直達場景。否則就會出現斷檔,有能力有資料,但是中間沒有做好資料的有效處理,導致最後業務流程走不下去。
灰色板塊是基礎資料治理板塊,藍色板塊是我們的區塊鏈增強隱私計算。需要特別強調的是,增強隱私計算的概念是指在零信任或者在環境不可信的情況同樣可以做隱私計算。增強隱私計算服務是需要把資料安全合規、以及環境、賬號、網路、甚至硬體裝置本身這些因素綜合考慮做隱私計算相關處理,而不是隻買一個隱私計算平臺。
06
1. 資料保護傘
下面介紹我們的一個產品,資料保護傘。它與阿里雲的幾個資料產品都有直接整合,與華為雲、騰訊雲、紫光雲中的大資料平臺都有合作。阿里雲方面主要是與 Dataworks、Dataphin 整合。
這款產品的目的是要解決業務問題,包括資料是什麼,哪些是敏感資料,誰在用這些敏感資料,使用的過程有沒有風險,有沒有管控的工具或手段等等。我們首先發現問題,才會有這些產品,而且這些產品功能相互互動對映。
在資料安全裡靜態脫敏的核心是需要懂業務,要跟業務系統直接對接。做過大量業務系統直接對接的靜態脫敏專案,才可以說靜態透明工具很有效。動態脫敏的核心與靜態脫敏剛好相反,是要能夠拆分下游的業務場景,在介面層或者使用層進行脫敏,在資料底庫不需要脫敏。不同場景裡不同賬戶的資料呼叫、資料分析、應用所需要關注的脫敏細節各不相同。
單個的能力已經有機構在垂直做,那麼螞蟻如何做得更好?最簡單的選擇是把這些能力打包,做全家福。但是全家福這種產品無法讓客戶真正搬運走,除非很便宜。而我們不可能這麼做。我們反過頭來,從產品走向的商業化。舉個例子,我們做血緣圖譜,是動態的,是一個敏感資料的分享、流轉過程審計工具,並不是靜態的資料資產管理工具。它解決的是基於圖計算、語言模型、資料資產嗅探、包括資料資產匿名化、後設資料識別ai模型等,把這些能力集合起來去做敏感資料的識別,包括的結構化資料跟非結構化資料(ocr 識別語言模型)。
敏感資料識別之後,不同業務系統、網路環境、賬號用同樣資料進行使用分析過程中,比如直接呼叫、對映,以及對敏感資料進行的複製、二次分發時,同樣還能識別出來這是一個敏感資料。比如身份證是 18 位,在庫表裡或資料中臺裡, 線下一個 cm 系統需要去調最近一個存量客戶的實際資訊,然後從資料中臺裡面透過標籤撈到存量客戶,然後存量客戶後面的資料欄位裡面有一個欄位就是身份證號,我們認為是高敏感資料。
然後有賬號透過安全的環境下載了這個庫表到一個地方,cm 系統另外一個賬號在原地對該資料前後加了兩位,變成了一個 20 位的資料欄位, 20 位的一串數字,然後對他進行的複製放到了一個 excel 表裡面去,請問你還能夠識別出來什麼賬號在什麼業務系統用了剛剛說最原始的 18 位身份證嗎?目前是沒有的,業內沒有人能做這麼完整的敏感資料流轉過程中的風險識別。目前一般有2種方法進行資料庫脫敏,一種是靜態的資料庫識別,以例項的方式來做,另一種是在閘道器處進行行為識別,一刀切把所有資料進行策略性處理。
而我們其實脫離了資料庫,剛剛說的這麼複雜的場景裡,就需要以血緣圖譜為底層,基於剛剛說的多種能力為演算法模型,支撐幫助客戶,尤其是資料量特別大、本身資料的敏感程度特別高的客戶,比如我們已經落地的能源、電力行業。
舉這個例子是為了說明我們不能單獨去搞一個爆款資料安全產品,或者資料要素流通產品。需要把多種能力進行整合。
可信協作平臺是區塊鏈+隱私計算實現增強隱私計算,實現資料的有效的變通以及變現。
主要包括四方面的內容:
① 基礎功能:包括組網,基礎服務、排程、授權等等,是資料安全產品必要的功能。
② 資料要素管理:無論是集中式的、還是分散式的資料都需要有一個對所有可以用的資料要素的管理工具。比如資料目錄鏈,應用目錄鏈。需要能夠看到實際的業務場景是什麼。
③ 資料開放管控:
資料開放合規檢測:哪些資料是敏感資料?怎樣進行分類分級?需要做怎樣的資料處理?
資料開放策略引擎:怎樣來開放?是公開還是加密形式?加密後是否脫敏?完全不能出去?等開放策略的問題。
開放監測與風險管控:開放過程中的資料安全監測和管控措施工具。
④ 資料協作工具箱:業務場景隱私計算要用哪個工具?是大樣本聯邦學習,或者本身標籤特別少可以用PSI。針對各種場景模板套用各種功能。如果沒有場景模板就需要隱私計算引擎來協助進行。
區塊鏈在其中主要體現在三個方面:
資料目錄授權、確權,包括相關目錄是上鍊的,來保證資料屬主的唯一性。
開放流轉過程,包括申請、審批、授權流轉鏈路日誌上鍊,用來做審計跟溯源。
應用模板上鍊,包括專案的 id、工作流、智慧合約,透過智慧合約來做相關的落地。
所以區塊鏈主要做的就是可信存證、智慧合約兩個功能。
與資料治理有些不一樣,國家目前沒有非常完整的跨境直接查處辦法,一般如果涉及到資料跨境,請先做好自評估,比如 gdpr,cta。因為我們跟石油領域合作比較多,他們需要國外經營採購、煉油,自評估就需要對當地的法律法規非常瞭解。而且法律法規是會變化的,每一次都以專案制的形式請諮詢公司來做會很繁瑣。所以我們進行了法律法規庫的固化,建立法律法規圖譜,同時建立自評估的流程。
此外,在資料的跨境轉移過程當中構建基於資料合規的工具。比如自評估出來結果後,運用哪些加密演算法來做,需要資料脫敏到什麼程度,加鹽的鹽值是多少等等,透過這種形式來做資料跨境合規產品。
07
最後總結一些我們認為有價值的業務場景,供大家參考。
國家一直在提資料迴流,資料迴流到基層做基層治理。政府合作場景中,政務資料治理完畢之後進行可信流轉
2. 政府資料公開-銀政企融資對接場景
政府資料公開之後做銀政企融資對接。目前地方政府機構想到的比較多的實際的隱私計算加區塊鏈的業務場景。需要注意 2 個問題:政務資料不好拿,每個委辦局自己都是資料孤島,憑什麼給?垂直管轄的部門,比如司法檢察院、公安、海關,包括衛健委防疫資料都非常敏感和重要,所以第一個問題是資料如何形成可信的網路來進行共享?第二個是共享之後,各個共享機構的資料質量參差不齊,銀行做放貸業務又是非常標準化的產品,如何進行對接?在這個場景裡要做兩個事情:
第一是如何讓各個委辦局在各個環境裡面,不管用硬體、軟體,用各種水位的資料安全合規措施來保障資料可以共享。共享的概念並不是資料出域,而是可以共享。
第二是資料質量二次挖掘,二次挖掘主要針對金融場景。
3. 目錄鏈應用場景
舉幾個例子,第一個是長三角現在在做一體化的電子身照認證,就是身份證、結婚證,或者營業執照 、行駛證,在長三角包郵區來進行相關的業務操作。這就涉及到電子證照的互認。第二個現在國家在做不動產的登記、包括公共採購登記,由不動產及公共採購交易中心進行,也是現在的非常活躍的場景。這兩個例子中都涉及到不同資料屬主,如何把它形成一個目錄 上鍊,防止出現篡改、不當侵害是比較有價值的。
這個場景目前是最多得到應用的。螞蟻包括現在有很多後起之秀都在做。資料簡單求交、建模,主要是金融場景。或者比較複雜的求交之後的聯合深度學習、記憶學習。
背後當然需要具備以下的能力:
資料治理能力
行業諮詢能力
以上就是螞蟻對於資料要素流轉的觀點。總結成一句話:
不要以技術談技術,不要以專案談專案,而要以實際的業務小閉環為最大的抓手,去實現資料交易、資料共享的真正的落地,幫助客戶挖掘價值。這樣才能夠幫助廠商商業化,整個市場擴充才能走的更穩。
08
Q:資料安全罰款是否有強制或者明確的政策?推動企業做資料安全的動機是什麼?
A:首先各個垂直行業對於資料安全管理要求水位是不一樣的,金融領域最高,工業製造業領域也非常強。但處罰條例裡面的金額是動態的,目標一樣。資料安全管理方面大家大多都還處於初級階段,更關注的是採集端、資料融合端。比如之前工信部做的app合規檢測,檢查了應該是 100 多萬個,下線 1000 多個。罰錢的場景還是以資料採集為核心的。但未來應該會看到今年一月份 gdpr 去罰 facebook 、推特,都是一點幾億的歐元。主要罰違規資料使用場景。所以資料安全管理要做資料分類分級。分類分級解決的是敏感資料分離,分離之後的資料怎麼流轉,哪些場景能夠用到,哪些資料不能進行流轉,或者必須進行匿名化分散式處理。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70024923/viewspace-2931343/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 資料清潔室和隱私增強技術的崛起與影響
- 隱私計算助力資料的安全流通與共享
- 讓資料要素合規高效流通!海南這麼幹!
- Librefox:具有隱私增強功能的FirefoxFirefox
- [踩樓贈書] 新書上市!《隱私計算》——系統揭秘隱私計算,全面駕馭資料要素新書
- RxJava 與 Retrofit 結合的最佳實踐RxJava
- 《資料安全與流通:技術、架構與實踐》新書釋出架構新書
- 隱私計算:保護資料隱私的利器
- 隱私計算資料彙總
- 網易某業務線的計算資源資料治理實踐
- flex與bison的結合使用(計算器例子)Flex
- 基於區塊鏈的隱私計算 - 原理和實踐區塊鏈
- CoreData實踐(二)——設計資料結構資料結構
- 資料治理實踐 | 網易某業務線的計算資源治理
- 資料安全治理及審計合規的最佳實踐XX
- GraphX 在圖資料庫 Nebula Graph 的圖計算實踐資料庫
- 大資料計算:結構化大資料計算的理想模式大資料模式
- PPT實現資料錄入與計算
- 星環科技重磅推出資料要素流通平臺Transwarp Navier
- G7在實時計算的探索與實踐
- 機器學習實踐:如何將Spark與Python結合?機器學習SparkPython
- Typescript結合React實踐TypeScriptReact
- UI設計培訓之如何將設計理論與實踐相結合UI
- 騰訊安全李濱:騰訊雲資料安全與隱私保護探索與實踐
- 洞見科技李博:打造資料流通新模式,讓“資料可用不可見,計算可信可連結”模式
- 第二週 資料計算實現與順序結構程式設計程式(一)程式設計
- 資料庫治理的探索與實踐資料庫
- 雲端計算與虛擬化結合技術分析
- 隱私計算+AI工程技術實踐指南--整體介紹AI
- 企業大資料分析實踐指南、總結與展望大資料
- 企業資料合規實踐的創新思路
- 圖計算 on nLive:Nebula 的圖計算實踐
- 拓撲學與物理學結合,量子計算機正在成為現實計算機
- Datapump資料遷移的實踐總結
- 適合時間序列資料的計算指令碼指令碼
- 銘說 | 淺論資料安全中的隱私計算方法之差分隱私
- 人工智慧與大資料的完美結合人工智慧大資料
- QT繪圖模組與資料庫的結合QT繪圖資料庫