大資料“超能力”:資料安全和隱私該如何保障?

dobigdata發表於2021-09-22

人人都喜歡超級英雄。

不論是超人還是鋼鐵俠,又或者是小蜘蛛和綠巨人,幾乎每一個超級英雄漫畫及電影的粉絲,都曾為其不公遭遇打抱不平:“他們明明是在用超能力做好事,拯救人類的,為什麼電影裡的政府和平民會這麼蠢,總對他們缺乏信任,滿是提防。”

這就是所謂的“葉公好龍”了,因為當你身邊真出現了個能把卡車當皮球一樣拋來拋去的人時,你的反應恐怕也好不到哪兒去,可能也巴不得有政府出面,逼他接受《超級英雄註冊法案》。

超級英雄和現實人類的差距就像人和螞蟻的區別,身為螞蟻,你敢冒險嗎?

這才是現實世界和真實人性面對超出理解且不可控現象時的正常反應,有超能力的人說他們只會把這些能力用在正道兒上,可誰敢百分百相信他們?

再說孰為善何為惡,又有誰能黑白分明地定義清楚?

類似的爭論到了這一步,可能就會有人出來打圓場說,不要較真兒,畢竟這個世界上並沒有超能力,又何必對虛構的人物和故事有這麼強的帶入感呢?

真的嗎朋友?

這個世界真的沒有“超能力”嗎?

說這話的人,一定是忘了“被大資料死死拿捏”的恐懼。

大資料就像威力無比的超能力,在它面前我們都是螻蟻。

網際網路上有一個被複用到濫的文案,大概意思就是:要發財,要早早實現財務自由,就要轉變思路。

拼體力無可厚非,但基本無法出頭;

拼腦力,效率高一些但也有限;

只有擁有資訊差上的優勢,才是正解。

這種優勢,正是資料“超能力”的體現。

資料體量直接導致了資訊差的存在。

這幾年產經界對“資料資產化”概念的探索,實質就是開始把蘊藏海量、高價值資訊的大資料視作一種可以生錢的資產。

大資料“超能力”:資料安全和隱私該如何保障?

在這種觀念的引導下,各行各業都在大力擴充自己的資料儲備,不僅僅是擴充套件容量,還要儘可能地豐富其維度及來源,來強化質量,也就是它們可供挖掘和利用的價值屬性。

這種觀念的影響力之大、見效之快,以至於不僅僅是大企業在修煉它,連街邊的小飯館也搞起了各種各樣的資料收集,消費的時候加個微信,還有用打折的幌子要求你關注他們的公眾號或用小程式點餐都成了常規動作。

可以說在這個時代,資料的資產化已成大勢所趨。誰掌握了更多這樣的資產,誰就有可能賺到更多錢。

而且資料資產化,並不只是說資料更值錢了,還在於資料的應用方法也可以資產化。

今年6月的2021BAAI智源大會上,清華大學國家金融研究院院長朱民就在演講中剖析了資料的經濟學屬性和資產特性,要點有:

  • 資料的虛擬特性,使其可重複使用,且轉移和複製成本為零,非常適於分享;
  • 資料的流通就是知識的流通,這種流通可以讓它創造更大的價值;
  • 資料雖然開始資產化,但資料產權還是模糊的,如果依然沿用“誰採集誰擁有”那一套,資料隱私和安全問題就很難解決。

這幾點還是很好理解的,即資料資產不流通就會形成孤島,影響其價值最大化,但要流通順暢,就必須要以解決資料產權及隨之而來的安全和隱私問題為前提。

如果我們把大資料或資料資產看作超能力的話,這個命題就變成了:我們既期待這種超能力足夠強大,可以造福於大眾,又一定要確保它不會被任何人拿來作惡。

我看超級英雄電影的時候,總在想一個問題,大家動不動就飛天遁地炸大樓,那些樓裡的人,怎麼辦。

畢竟超能力是雙刃劍。

需要關在籠子裡。

讓我們再短暫跳回到超級英雄的劇情中,蜘蛛俠的姨父在臨終前對他說:“能力越大、責任最大。”

很正能量是不是?

不過現實通常是:在能力越大後,能管住自己不濫用這種能力謀私的慾望,也就越難。

這些濫用,有些是有意識的,例如最近被主管機構頻頻點名的“網際網路企業借大資料殺熟”現象,雖然借這種小手段能多收個三五斗,但這還不是真正的危險。

真正的危險,出在那些無意識地,或有意無意的資料洩露上。

正是因為資料的虛擬特性,還有零成本複製和轉移特性,它即使出現了損失或洩露,也很難被察覺,而等到個人隱私滿天飛的時候,再去做溯源,也是千難萬難了。

在這種情況下,資料“超能力”對普通人的打擊效果,或者說不對等性就會充分暴露出來了——單個使用者的資料對掌握它的企業或機構來說只是九牛一毛,但其洩露的後果對這個使用者而言就如同“三體人”對上“地球人”,很可能是降維式、摧毀式的。

甚至你被賣了,你都不知道。

更甚至於,賣掉你,與你無關。

要知道這兩年,光是國外的大牌企業就有幾十家因資料洩露而公開道歉,而國內的洩露現象就不用提了,說一句千瘡百孔、瘋狂側漏,一點都不過分。

咦,前面不是還說企業都把資料當成寶藏當成資產嘛?為什麼資料隱私和安全問題還屢見不鮮呢?

原因其實也很簡單——這種對資料的重視,有相當多數的企業還是停留在口頭上,或者說,只願謀利而不願負責。

國外此前就有個調查,結論是現在坐擁資料最多的網際網路公司,卻普遍認為搞資訊保安是負收益行為,投入越多虧得越多。

他們認為資料安全是一種防衛機制,而預防是沒有辦法計算KPI的,把威脅消滅在剛有苗頭的時候,在老闆眼裡就像是光吃飯不幹活,這直接導致國內外不少靠資料起家的企業在資料安全上基本都有一個較長的空窗期,誰都不願意拿寶貴的發展資金來鞏固資料安全。

而且,我們剛剛還提到“有意無意”,即有些企業雖無意大力投入資料安全,因為遲遲不見收益,卻難免有內鬼蓄意危害資料安全,因為轉手就是真金白銀,這才是最防不勝防的。

面對資料資產化、資料流通分享、資料安全和隱私保護這種千頭萬緒,彼此交織的複雜問題時,當駝鳥或許也是一種態度,大不了數字化不搞了唄。

但回顧人類歷史,大資料可遠不是惟一的“超能力”。

幾乎每種重大技術發明都是某種“超能力”。

對比百多年前的人們,如今的我們活得就像“超人”一樣,僅出行就有汽車、高鐵和飛機,每一樣都能秒殺“八百里加急”。

所以如果大資料或資料資產化是我們進化所必需的“超能力”,那麼迴避是無意義的。

就像能力沒有善惡之分,關鍵是要看如何使用它,或者至少要給它的使用劃出一條底線,即資料隱私和安全一定要獲得保障。

道德是上限,法律是底線。確保資料安全,立法是關鍵。

對大資料產業略有了解的人,可能都聽說過歐盟的《通用資料保護條例》(GDPR),目前全世界範圍內它可能是最嚴苛的資料隱私保護法規。

它到底嚴到什麼地步,我們在這裡不羅列枯燥的法條,就拿德國最大的醫療保險公司AOK正在推進的電子病歷(ePA)做個活生生的例子吧。

ePA頭頂GDPR和德國《患者資料保護法案》(PDSG)的規定,又是用於儲存診斷和治療資料、藥物治療計劃、過敏史和個人健康資訊等高度敏感隱私型資料,因此它將資料產權還給了個人,規定ePA所有資料歸受保的患者自己所有。

患者們不但有權自行決定ePA能儲存自己的哪些資訊及儲存時間是多久,也有權決定有哪些醫生能訪問這些資訊。此外,醫療保險公司通常只有ePA的寫入許可權而不能讀取,且寫入也要經過患者的授權。

這樣一來,ePA先天就兼顧了資料流通方面的靈活性和安全需求,雖然它允許多方訪問其中的資訊,但不同方對資訊有不同程度的訪問許可權,且這些許可權及其期限並不固定,完全由患者說了算。

看起來很完美?

完美的規劃往往夭折在執行中。

沒有“嚴格執法”的“科學立法”就是開玩笑,資料安全保障要想在執行中避免“打折”或“變味”,首先要儘量躲開人的因素。

因為人始終是人,再怎麼努力用制度去限制人,人也做不到百分百的精確,所以在資料安全中要用技術手段跳過不靠譜的人類。

其次,考慮到資料資產的應用是一個閉環,從儲存、傳輸到處理的任何一個環節都可能出現安全隱患,因此也要用技術手段在全鏈路上排除不確定因素,做到全方位的保護。

要做到這兩點,“技術”變成了關鍵詞,可資料安全領域發展了這麼多年,好像到現在為止也沒有任何一項技術能夠確保資料的絕對安全呀。

這個判斷的確不假,不過如果能滿足有機融合和運用多項資料安全技術,匯入先進的基於硬體的安全技術,以及補足資料處理階段的安全防護手段這幾個條件,還是能有立竿見影的效果。

AOK在推進ePA安全技術部署的過程中是怎麼做的?

簡單來說,它的做法就是在既有各類資料安全防護方案的基礎上,重點加持了基於硬體的可信執行環境(TEE)技術。

AOK這一舉措其實就是對上面幾個條件的充分貫徹。

其ePA涉及的資料的儲存和傳輸,都有了相對應的加密技術和安全防護,但這些資料在系統內的讀取和處理,卻需要以純文字或者說明文的形態運作,所以必須要有一個由TEE提供的受特別保護的高安全虛擬區域來防止非授權的應用和使用者的訪問。

在TEE的具體技術實現上,AOK選擇了英特爾的軟體防護擴充套件(SGX)技術,這正是一種基於硬體的、被整合在英特爾CPU中的、主要為資料處理過程提供安全防護的技術。

它可以藉助CPU在記憶體等特定硬體環境中構造出一個可信的“安全隔離區”,用於容納那些需要在處理中被嚴密保護的應用程式碼和資料。

SGX厲害的地方就在於這些隔離區,相當於在系統內創造了一個一個堅固的“城堡”,而且這些“城堡”能獨立於作業系統、虛擬機器、BIOS等系統之外,即使這些底層系統全部淪陷,受保護的程式碼和資料在這些“城堡”的保護下也能盡力擋開竊取或篡改它們的黑手。

SGX還為這些“城堡”的正規出入設定了周全的安保手段,只有真正擁有準入許可權且經過嚴密安保檢查的使用者才能過關。

在AOK ePA的具體實施中,SGX的主要任務就是貼身保護其檔案系統,在它的幫助下,這個系統將授權、文件管理和訪問閘道器結合在一起,確保只有經過身份認證的授權使用者才能與ePA互動。

當然,AOK看中SGX技術也有其他原因,畢竟英特爾今年釋出的、面向主流單路和雙路伺服器系統的全新第三代至強可擴充套件處理器不但整合了這種技術,讓其部署更加順手,還對它進行了強化,讓它最高能在一個雙路系統上支援1TB的加密記憶體區域,也就是上面提到的安全隔離區,有容乃大嘛。

好的技術,不僅國外在用,開始重視資料安全投入的中國企業也在嚐鮮。

看中SGX加密記憶體區域夠大、安全隔離效果夠硬的平安、百度和銀聯等頭部企業也開始或已經將它用於隱私保護機器學習或聯邦學習場景。

由於這些場景通常涉及多方參與的資料協同,如共同進行AI模型的訓練或推理,且每一方都不希望自己提供的資料出現安全問題,但又不得不面對各自的資料和共同訓練使用的模型在處理前會被解密,將暴露在真空中的風險,為了避開一些專門針對記憶體下手,從記憶體裡竊取過路資料的威脅,就離不開像SGX這類技術的保護。

因為對於頭部企業而言,資料安全其實比業務更重要。

後者關乎賺錢多少。

前者是無法計算的價值和責任。

不論未來資料的產權是會明確歸屬其產出者,還是繼續目前“誰收集誰擁有”的潛規則,所有坐擁並享受資料資產收益的企業都不可掉以輕心。

資料的規模越大、質量越高,其洩露的問題就越嚴峻,後果也越惡劣,它傷害的已經不僅僅是普通人,企業再家大業大,也難逃厄運。

現在懈怠一時爽,等到需要一個資料安全反面典型的時候,誰能知道正在建立健全資料安全和隱私保護法規的中國不會出現一個價值700億,甚至更重的罰款案例?

至少有一點已經很明確,那就是中國相關的立法程式正在加速,而且會更加完善,達到逼近歐盟標準甚至可能反超歐盟標準的那種完善,如果企業到那時才開始研究怎麼構建安全陣地,就太遲了。

所以要做資料安全就要從現在開始,從改變規則和升級技術做起,軟體、硬體、人、流程……方方面面都要完善起來。

保護使用者就是保護自己,越是資料發達,越是應該小心翼翼。

野蠻生長的時代過去了,一切都要回歸秩序,不管是為了使用者,還是為了自己,或者為了那永無止境的資料分析和演算法訓練,資料安全是時候跳到工作日程的前面來了。

失去利潤,失去很多。

失去安全,失去一切。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69965091/viewspace-2793134/,如需轉載,請註明出處,否則將追究法律責任。

相關文章