貨拉拉王海華:大資料安全體系建設實踐和思考

網路通訊頻道發表於2023-03-29

資料作為數字經濟時代核心的生產要素,已經成為經濟增長的動力引擎。近幾年,隨著國家相關資料安全法規的陸續出臺,資料安全被提升到了一個新的高度,甚至上升到國家戰略層面。大資料作為企業資料資產的主要載體,是資料安全能力落地的關鍵,同時伴隨著使用場景複雜和技術多樣性等眾多挑戰。

本文分享以貨拉拉大資料平臺的實際落地經驗為基礎,結合真實案例,系統的闡述大資料場景下的資料安全體系建設實踐和方法論思考,包含了覆蓋資料全生命週期的安全規範建設、安全能力建設和系統治理三方面內容,重點講解資料使用場景、技術挑戰難度下的資料(資料庫表、資料包表、資料指標等)分類分級、資料的分級使用和加密儲存、資料災備等實踐思路,最後全面的建設落地資料安全體系,提升資料安全能力成熟度,保障公司資料安全。

▲貨拉拉大資料基礎架構負責人&架構師 王海華

嘉賓介紹:王海華,貨拉拉大資料架構師/基礎架構負責人,現在負責公司大資料部門整體穩定性/安全/國際化和架構團隊。曾在滴滴/餓了麼/拼多多經歷和負責過幾千到幾萬臺的超大規模資料平臺架構。6年以上大資料架構經驗,主要研究方向是大資料安全、大資料平臺產品和系統架構、計算機體系結構和分散式系統等,在以上領域具備大規模的落地實踐經驗。

分享大綱:

1、背景和挑戰

2、大資料安全體系

3、總結與思考

一、背景和挑戰

貨拉拉是一家網際網路物流商城,提供同城/跨城貨運服務,涵蓋從麵包車到17.5米貨車多種車型,使用者一鍵呼叫,司機實時搶單;企業版提供月結賬期、定製配送等服務;零擔物流,提供直達全國、門到門的長途物流運輸服務;汽車租售,滿足司機和企業租車購車需求。

目前,貨拉拉擁有6個以上的業務線,包含跨城、零單、物流以及搬家等。在大資料層面,貨拉拉包含了3個IDC,是一個跨雲、混合雲的架構,包含阿里雲、華為雲以及一些自建的機房。機器數包括儲存量和日均任務數,在業界屬於中等的位置,在快速發展中。

大資料的使命是驅動業務數智化,助力公司業務持續增長。而大量的資料儲存會對我們的資料管控和資料安全帶來一定的挑戰。上圖是貨拉拉的大資料體系,自底向上,分別是基礎層、接入層、平臺層&數倉、服務層、應用層。基礎層和接入層提供最基礎的儲存和接入的能力。在平臺層&數倉層,包含資料研發平臺、資料治理平臺、資料資產。在服務層,面向服務場景開發的大資料應用,包含資料應用支撐服務工具、資料服務工具、資料智慧支撐工具。在應用層,有輔助決策類應用和賦能業務類應用。整個大資料體系是相互依賴、相互支撐的體系。

資料架構自左向右分成資料採集、資料儲存和計算、資料應用三個層面。透過資料採集將日誌資料、埋點資料、交易類資料整合到大資料平臺,先做好資料儲存,然後透過實時和離線鏈路進行資料加工處理,針對實時和離線,我們分別建立了一個數倉體系,最後將加工好的資料會推送到資料應用裡面。

貨拉拉為什麼要做大資料安全?一是因為資料資產保護的要求,二是因為個人資訊保護法、網路安全法、資料安全法、資料安全管理辦法等法律法規的要求。

大資料安全面臨著眾多難點和挑戰,貨拉拉的資料資產型別多, 數量大,涉及的場景多樣,管控複雜度高,攻擊面廣,需要統籌考慮。

貨拉拉要平衡資料安全和業務發展的關係,不同時期,安全的訴求不同。初創期業務為先;爆發期業務發展,安全投入要逐漸增加;穩定期安全投入要追平業務安全的訴求。

針對大資料場景,貨拉拉建立了一套全資料生命週期的安全防護體系,防止資料洩露,滿足合規需求。大資料安全體系建設思路分為“建組織、立規範、建能力、做治理”四個方面。全資料生命週期包括資料採集、資料傳輸、資料儲存、資料處理、資料交換、資料銷燬。

二、大資料安全體系

(一)大資料安全規範

大資料安全體系並不是純粹的技術工作,包含了組織建設、制度規範、技術工具、安全治理等等。資料全生命週期安全防護能力中最重要的是資料處理場景,保證好分級使用,合理合規。

在大資料安全規範方面,資料敏感分類分級結合公司業務場景,同時參考了金融資料安全分類分級標準:《金融資料安全資料安全分級指南》(JR/T 0197—2020)。

公開資料(C1)已透過正規渠道正式對外發布的資料,不會對公司造成影響的資料。

限制資料(C2)不適合對外公開,但是對內部人員訪問基本無限制的資料,一旦發生洩露,不會對資料主體造成直接損害。

商業秘密(C3)公司專有或公司保密的,一旦發生洩露,將顯著影響相關業務的開展,對資料主體造成直接或者間接損害。

核心秘密(C4)具有最高安全屬性要求,一旦發生洩露,可能導致公司法律或商業上造成重大影響和損失。

如何落地敏感分級?針對庫表、報表、指標等資料物件提供分級的規範。庫表可以做到演算法定級為主,人為定級為輔;報表是研發人工定級,報表管理員審批;指標是研發人工定級,指標管理員審批。

庫表安全管理規範的角色定義裡分為直屬負責人、一/二級部門負責人、庫管理員、公司級資料管理員。流程從庫表建立到許可權申請,再到資料使用,資料下載。

關於報表安全管理規範,庫表用於資料研發的場景,而報表用於終端使用場景,經常被下載。下載有特殊的流程管控,結合下載有效期和資料量限制,設定了報表的下載規範。

關於高敏感資料儲存和使用規範,通常針對C3或者C4裡更高敏感的資料。

高敏感資料儲存(入倉加密、高敏明文資料獨立空間儲存)、高敏感資料使用(脫敏使用、解密嚴格審批、解密條數限制)、高敏感資料下載(脫敏下載、解密下載嚴格審批、下載條數限制)。

(二)大資料安全能力建設

數倉庫表安全能力覆蓋庫表許可權全生命週期,支援列級細粒度鑑權,支撐規範落地。首先建表,填寫庫表欄位資訊,然後獲取庫表資訊,申請許可權,最後庫級/表級/列級鑑權。

資料包表安全能力覆蓋報表許可權全生命週期,包含研發、上線、使用等過程。在研發報表方面,我們採用雲桌面,統一入口,統一屬性。報表許可權管理系統中包含報表敏感定級、報表許可權管理、許可權後設資料等。

在高敏感資料加密和脫敏方面,在離線採集和實時採集階段進行區分,線上加密敏感資料匯入加密相容,高敏資料和解密資料獨立空間儲存,加工處理,嚴格審批和流程管控。

大資料系統所面臨的風險和威脅無處不在,人為誤刪、雲機房故障等現象層出不窮,造成核心資料丟失。針對數倉重要原始/結果資料的異地備份,我們自研了一套備份系統,強化了資料災備能力。我們認為,90%以上場景透過資料產品進行資料訪問,10%以下場景直接透過基礎元件或者雲基礎設施訪問。

(三)大資料安全治理

我們開展了專項治理,逐部門逐項治理,最終得到治理結果。每個庫必須有部門歸屬、資料敏感分級。報表歸屬和敏感分級覆蓋率提升,非崗位必需敏感報表許可權回收,跨部門報表許可權批次回收。高敏感資料全量加密、或遷移高密域,脫敏函式推廣和替代解密,非資料研發人員資料研發許可權回收。

三、總結與思考

我們建立了一個大資料安全防護體系:全資料生命週期覆蓋+有效防護方法(規範、能力、治理),有效預防公司的資料洩漏,保護了資料資產,符合國家的安全法規。

總結來看,安全是所有業務0前面的那個1。安全投入需要跟業務投入取得平衡,大資料安全需要資料生命週期全域性和體系化保障,不能只靠區域性點突破。借鑑業界和專業安全團隊最佳實踐,同時結合公司實際情況落地解決問題。

關於未來,貨拉拉將做三件事:一是對標行業,安全能力成熟度從中提升到高;二是安全攻防,避免事故樣本太小能力效果不佳問題;三是產品能力完善,部分線下轉向全面線上化。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31545813/viewspace-2942540/,如需轉載,請註明出處,否則將追究法律責任。

相關文章