乾貨:以資料為中心的多層防禦,集中管控式大資料安全架構

boxti發表於2017-07-05

摘要:大資料已不再是一個單純的熱門詞彙了,隨著技術的發展大資料已在企業、政府、金融、醫療、電信等領域得到了廣泛的部署和應用,並通過持續不斷的發展,大資料也已在各領域產生了明顯的應用價值。

大資料已不再是一個單純的熱門詞彙了,隨著技術的發展大資料已在企業、政府、金融、醫療、電信等領域得到了廣泛的部署和應用,並通過持續不斷的發展,大資料也已在各領域產生了明顯的應用價值。

企業已開始熱衷於利用大資料技術收集和儲存海量資料,並對其進行分析。企業所收集的資料量也呈指數級增長,包括交易資料、位置資料、使用者互動資料、物流資料、供應鏈資料、企業經營資料、硬體監控資料、應用日誌資料等。由於這些海量資料中包含大量企業或個人的敏感資訊,資料安全和隱私保護的問題逐漸突顯出來。而這些問題由於大資料的三大主要特性而被進一步放大:資料量大(Volume)、資料增長快(Velocity)和資料多樣化(Variety)。

現在,當我們說“大資料”的時候,已不再是單指海量的資料了,而是基礎設施(雲伺服器)、應用、資料來源、分析模型、資料儲存和平臺的組合,而正是這些使得大資料安全面臨著不同尋常的挑戰。

與傳統資料安全相比,大資料安全有什麼不同

傳統資料安全技術的概念是基於保護單節點例項的安全,例如一臺資料庫或伺服器,而不是像Hadoop這樣的分散式計算環境。傳統安全技術在這種大型的分散式環境中不再有效。另外,在大規模的Hadoop叢集中,各伺服器和元件的安全配置出現不一致的機率將大大增加,這將導致更多的安全漏洞產生。

大資料平臺儲存著各種各樣的資料,每一種資料來源都可能需要有其相應的訪問限制和安全策略。而當需要整合不同資料來源時,就變得更加難以平衡對資料的安全策略的應用。同時,快速增長的海量資料使得大資料平臺中的敏感資訊和個人隱私資訊無處不在,準確發現和定位敏感資訊並制定針對性的訪問控制策略變得愈加困難,而對敏感資訊的訪問的實時監控也是保障大資料安全的重要任務之一。

最後,大資料技術很少單獨使用Hadoop,而是會結合生態系統中的其它技術元件如HBase,Spark,Impala,Hive,Pig等對資料進行抽取、儲存、處理、計算等。這些技術使得大資料可被訪問和利用,但基本都缺乏企業級的安全特性。以上從平臺、資料、技術視角對大資料安全與傳統資料安全進行了簡單的分析,傳統安全工具沒有為資料多樣化、資料處理及Hadoop的分散式特性而改進,不再足以能保證大資料的安全。

如何建立完善的大資料安全體系

面對複雜的大資料安全環境,需要從四個層面綜合考慮以建立全方位的大資料安全體系:邊界安全、訪問控制和授權、資料保護、審計和監控。

邊界安全:主要包含網路安全和身份認證。防護對系統及其資料和服務的訪問,身份認證確保使用者的真實性及有效性。Hadoop及其生態系統中的其它元件都支援使用Kerberos進行使用者身份驗證。

訪問控制和授權:通過對使用者的授權實現對資料、資源和服務的訪問管理及許可權控制。Hadoop和HBase都支援ACL,同時也實現了RBAC(基於角色的訪問控制)模型,更細粒度的ABAC(Attibute Based Access Control)在HBase較新的版本中也可通過訪問控制標籤和可見性標籤的形式實現。

資料保護:通過資料加密和脫敏兩種主要方式從資料層面保護敏感資訊不被洩露。資料加密包括在傳輸過程中的加密和儲存加密。傳輸過程中的加密依賴於網路安全協議而儲存加密可通過相關加密演算法和金鑰對資料進行加密儲存。資料脫敏是比加密較為折中的辦法,對於大資料時代,該方法將更被更為廣泛的採用。因為收集的海量資料需要相對開放的共享給內部不同團隊或外部機構使用,才能發揮大資料的價值。對於敏感資訊部分可通過脫敏的方式進行處理以保障資訊保安。

審計和監控:實時地監控和審計可管理資料安全合規性和安全回溯、安全取證等。

如何設計大資料安全框架

基於以上四層的安全體系,結合大資料平臺的特性,企業在實踐大資料平臺安全化時,需要有更詳細的架構設計,四層安全體系對應在實際環境中,應是以資料為中心,建立完善的管理制度,先治理好大資料,再從訪問控制和資料保護層面加強對資料使用的安全防護,最後從網路和基礎層加固平臺的安全部署。因此,大資料安全框架需包含以下5個核心模組: 資料管理、身份和訪問管理、資料保護、網路安全、基礎安全。

1af50005d1ac1de43d62

  (一)資料管理

企業實施資料安全的首要任務是先管理好資料,根據業務要求、合規性、安全策略及資料的敏感性,關鍵性和關聯風險對資料進行分類分級管理,有助於對資料保護的基準安全控制做出合理的決策。

從大資料特性層面對資料進行標記(例如分析型別、處理方式、資料時效性、資料型別、資料格式 、資料來源等維度),就知道資料是如何進出大資料平臺,將會被如何使用,會被誰使用,資料是如何儲存的等等,這些都有助於資料發現的管理和對資料訪問控制制定相應的策略。

最後,如果缺乏掌握敏感資料在大資料平臺中存在於哪裡的意識,這將無疑是把資料暴露於風險之下。所以,掌握敏感資料在大資料平臺中分佈情況,並能自動地增量式地發現找到敏感資料,並監控其使用情況,是否受到保護是能否做到全面保護資料安全的關鍵。

(二)身份認證和訪問控制

身份認證是防護資料安全的第一道關卡,通過身份認證確保訪問大資料平臺中的資料、資源和服務的使用者是安全的,大資料生態系統中從Hadoop到HBase、Hive、Pig、Impala、Spark等幾乎都支援利用Kerberos進行身份認證。

Kerberos也可以和企業的AD/LDAP結合以快速建立金鑰分發中心,而無需大資料平臺使用者重新建立使用者組、角色和金鑰等。使用者通過身份認證後可獲得訪問大資料平臺的資格,為進一步控制使用者對資源的訪問許可權,需要通過授權機制來管理不同使用者對不同資源的訪問許可。

Hadoop和HBase及其它元件都在一定程度上支援對訪問的控制,RBAC和ABAC是兩個不同粒度的訪問控制模型,前者是基於角色來進行訪問控制,後者是更為細粒度的控制,可控制到被訪問物件的欄位級別。在制定訪問控制策略時,應依據合規要求,結合敏感資料保護策略、資料使用場景等針對不同資料、不同業務需求制定相應的訪問限制規則,高效利用資料,發揮大資料價值是企業的最終目的。

(三)資料保護

如果說身份認證、授權和訪問控制是確保了對資料訪問的物件的防護和控制,資料保護技術則是從根源層保護資訊保安的最重要和最有效的手段。通過資料保護技術,對大資料的開放共享、釋出、最大化利用等都會有著最直接的積極作用。

資料保護技術的作用不僅侷限於企業內部,它是確保整個大資料產業快速發展的最重要保證。資料保護技術通過對資料利用脫敏、失真、匿名化限制釋出等技術處理後,可讓處理後的資料到達安全交易、開放共享的目的。

而對於企業內部,針對脫敏後的資料,不需再設定複雜的訪問控制限制,可讓更多的分析應用更高效地實施並優化開發專案,讓大資料得到更充分的利用同時,也確保遵從行業/監管資料隱私法令和法規。

(四)網路安全

大資料的網路安全通常是指通過客戶端訪問大資料平臺的連線和大資料平臺中伺服器節點之間的網路通訊安全。 為保證資料在傳輸過程中的安全性,節點之間及客戶端與伺服器之間的通訊都需要進行加密,不同的通訊使用不同的加密方式,Hadoop平臺支援RPC加密,HDFS資料傳輸加密和HTTP通訊的加密。

除了對網路通訊進行加密設定,還可通過使用閘道器伺服器隔離客戶端與大資料平臺的直接訪問來進一步升級網路安全。閘道器伺服器部署在大資料平臺和企業使用者網路域之間,使用者通過登入閘道器伺服器來驗證身份,並由閘道器服務代理使用者對大資料平臺的訪問,同時,該伺服器還可用來提供訪問控制、策略管理。使用者通過登入到閘道器伺服器來執行對大資料平臺的操作,所有的客戶端包括Hive,Pig,Oozie等都可安裝在這臺閘道器伺服器上,這樣使用者就不必登入到大資料平臺中的伺服器節點,從而保護大資料平臺不會受到非法訪問。

(五)基礎安全

前面我們談到了通過各種方式來保證大資料平臺和安全性,包括身份認證、授權、訪問控制、資料保護及網路通訊安全。但大資料平臺仍然有可能會受到非法訪問和特權使用者的訪問。為確保合規性的需要,我們需要對大資料平臺的一切活動進行審計和監控並生成告警資訊,也即是安全事故和事件監控(SIEM)系統。SIEM系統負責對大資料平臺中任何可疑的活動進行收集,監控,分析和生成各種安全報告。

以下是大資料平臺中需要被監控的事件以用來分析識別安全事件:使用者登入和身份驗證事件、HDFS操作、授權錯誤、敏感資料操作、MapReduce任務、通過各種客戶端的訪問如Oozie,HUE等以及異常事件。只有全面的收集在大資料平臺中的一切活動,才有機會捕捉可能會發生的安全事故及進行事後分析時有機會進行回溯分析,追蹤事故根源。

結束語

本篇圍繞大資料平臺對大資料安全的體系和架構設計進行了分析概述,完全實踐本文中所設計的安全架構是一項艱鉅的任務,在實踐過程中,需深入掌握Hadoop自身的安全特性支援,廣泛瞭解開源軟體及商業軟體在資料管理和資料安全上的優勢點,並結合企業現階段對大資料部署的實際情況選擇合適的產品從不同角度保護大資料平臺的安全。 在下次的分享中,會從實踐(In-Action)的角度介紹如何採用合適的開源技術和商業產品來實現大資料平臺安全架構。

本文轉自d1net(轉載)


相關文章