SaaS 模式雲資料倉儲 MaxCompute 資料安全最佳實踐
什麼是 MaxCompute?
MaxCompute 是一款雲原生、高效能的SaaS模式企業級資料倉儲服務,被廣泛用於構建現代化企業資料平臺,開展BI分析、資料化運營、畫像及推薦、智慧預測等應用場景。
MaxCompute 構建在阿里雲大規模計算、儲存資源之上,以Serverless架構提供全託管的線上資料倉儲服務,消除了傳統資料平臺在資源擴充套件性和彈性方面的限制,並最小化使用者的運維投入。
MaxCompute支援多種經典計算模型(批處理、機器學習、互動式分析等)和完善的企業管理功能,藉助MaxCompute,使用者可輕鬆整合和管理企業資料資產,簡化資料平臺架構,加速價值實現。
MaxCompute 企業級安全能力升級
MaxCompute 近期對產品的安全能力進行了全面升級。 釋出的安全能力有:
· 細粒度授權
· 資料加密 (BYOK)
· 資料脫敏(資料保護傘)
· 持續備份恢復
· 跨地域的容災備份
· 實時審計日誌
MaxCompute 安全體系
對於一個企業級的大資料平臺,要應對的安全風險,有三個層次(如圖-1):
1.基礎安全與可信平臺,保障資料中心的物理安全與網路安全,主要包括資料中心保障設施、資料中心安全管控、資料中心的網路安全等幾個維度的建設。
2.大資料平臺的系統安全,主要由訪問控制、安全隔離、風控審計、以及資料保護等子系統構成,為上層安全應用或工具提供平臺能力基礎。
3.資料應用的安全,為使用者提供工具化的資料安全產品,最佳化使用者體驗,幫助使用者更好應對各類資料風險。
(圖-1:大資料平臺安全體系)
近期的MaxCompute安全能力升級,主要新功能覆蓋了訪問控制、風控審計、以及資料保護幾個子系統,如圖-1中“大資料平臺安全”層中,黃色高亮字型部分。本文中,我們將針對幾類主要的資料風險(如圖-2),介紹這些資料風險應對的最佳實踐。在最佳實踐中,將會穿插介紹何時使用、為什麼使用、如何使用這些新功能。
(圖-2:主要資料風險)
如何應對資料誤用
資料誤用是由於非故意的、過失性動作導致的,防止誤用一般指防止資料被不經意間錯誤使用。應對資料誤用的風險,防止資料誤用,核心的一點,就是了解資料,能夠回答這些問題:我有什麼資料,這些資料在哪裡,這些資料是怎麼來的、又被如何使用,等一系列問題。
1. MaxCompute 提供基礎後設資料資訊
MaxCompute 可以幫助使用者很好的回答這些問題。 MaxCompute 平臺構建了統一的後設資料管理,基於統一後設資料和完備的平臺日誌,向使用者提供後設資料和相關日誌資料。 使用者可以基於 MaxCompute 的 Information Schema,構建自己的資料管理應用。
2. 使用資料地圖作為資料管理工具
大多數使用者更希望透過現有的資料管理應用或服務,來了解自己的資料:“DataWorks-資料地圖”就是這樣的應用。 資料總覽、資料明細等資訊能幫助使用者瞭解自己有哪些資料以及資料的明細資訊;產出和使用資訊、血緣資訊,則能幫助使用者瞭解資料的來龍去脈,幫助使用者正確、合理的使用資料。 使正確的資料,被正確的使用在正確的場景下。
(圖-3:使用資料地圖瞭解資料)
如何應對資料濫用
資料濫用指的是對資料的使用超出了其預先約定的場景或目的,資料濫用一般是靠故意的、帶有目的性的動作完成的。而應對資料濫用,最主要的應對是對資料使用做最小化授權,嚴格限制資料的被訪問、使用的範圍。許可權管理的最佳實踐,推薦圖-5中的4大過程:
• 資料分級管理:基於 MaxCompute 的 LabelSecurity 對資料做分類分級管理。
• 授權審批流程:基於 MaxCompute 的 列級別許可權管控能力, 對資料的訪問使用需求,做最小化授權。
• 定期審計:對許可權的申請、審批、使用情況進行分析,做到事前有審批,事後有審計。
• 及時清理:及時清理過期許可權,減少資料風險。
可以依託 MaxCompute 的細粒度許可權體系,使用 Dataworks 等白屏化工具,來實現最小化授權的最佳實踐,應對資料濫用的風險。
- (New) MaxCompute 細粒度許可權體系提供精細化的許可權管理能力
MaxCompute支援不同的授權機制來完成對使用者或角色的授權,包括:
• 自主訪問控制機制 (DAC, Discretionary Access Control):
ACL
• 強制訪問控制機制 (MAC, Mandatory Access Control):
LabelSecurity(標籤安全策略)
• 基於角色的訪問控制機制 (RBAC, Role based Access Control):
角色管理
不論是哪種訪問控制機制,授權鑑權過程中的三個要素是相同的:Action,Object,以及Subject,如下圖。
在此次的MaxCompute 安全能力釋出中,也包括許可權模型的升級,支援更細粒度的授權鑑權,提供精細化的許可權管理能力。 主要新功能有:
• ACL 支援列級別許可權管理,增加Condition支援,增加授權有效期支援;
• 細粒度 Package 內資源許可權管控,對 Package 內的資源可以支援到列級別的許可權管控;
• 增加獨立的 Download 資料下載許可權管理,對更高風險的資料批次下載場景做獨立許可權管控;
• 管理類許可權支援分級授權管理,內建 super administrator 角色來分解project owner 管理負擔;
• 完善 RBAC,LabelSecurity 增加對 Role 的支援;
• 增強對應用端的許可權管理能力。
(圖-4:MaxCompute 細粒度許可權體系)
(橙色高亮字型為此次細粒度許可權能力釋出)
2.使用安全中心進行白屏化許可權管理
MaxCompute 的細粒度許可權體系提供了的實現最小化授權的平臺能力,結合一些白屏化工具,如“DataWorks-安全中心”,則可以提供更好的使用者體驗,讓使用者更方便的實現許可權管理。
(圖-5:使用安全中心做白屏化許可權管理)
安全中心提供便捷的許可權管控功能和視覺化的申請、審批流程,也可以進行許可權的審計和管理:
• 許可權自助申請:選擇所需許可權的資料表/欄位,線上上快速發起申請。
• 許可權審計及交還:管理員可以檢視資料許可權的對應人員,進行審計管理,使用者也可以主動交還不再需要的許可權。
• 許可權審批管理:線上審批授權模式,提供視覺化、流程化的管理授權機制,並可以對審批流程進行事後追溯。
如何應對資料洩露
1.資料生命週期
(圖-6:資料生命週期)
資料洩露可能發生在資料生命週期的多個階段,如資料傳輸、資料儲存、資料處理、資料交換等階段。因此,我們將結合資料生命週期的不同階段來介紹應對資料洩露的最佳實踐。
首先,資料從不同的渠道被採集,經過各類傳輸通道,進入大資料平臺。 在大資料平臺中,經過計算後落盤儲存;資料也會透過資料分享機制,在不同的租戶、業務之間流轉;經過一定週期後,一些資料也會被刪除銷燬。經過處理後的資料,則會透過不同的傳輸通道,被其他資料應用、或者使用者消費。 (如圖-7)。
(圖-7:大資料平臺中的資料生命週期)
2.(New) 應對資料儲存過程中的資料洩露風險 - 使用資料加密(儲存加密)功能
我們首先看一下如何應對資料儲存過程中的資料洩露風險:如磁碟資料被直接訪問,磁碟被獲取,等風險。應對此類情況的措施,是對磁碟資料進行加密,這樣即使資料被惡意獲取,加密後的資料也無法被解讀使用。
此次安全能力升級中, MaxCompute 釋出了儲存加密功能,支援使用者資料的落盤加密:
• MaxCompute接入秘鑰管理系統KMS以保障秘鑰的安全性,支援服務秘鑰和使用者自選秘鑰(BYOK)。
• 使用者可以在建立MaxCompute專案時,配置選擇開啟儲存加密功能(存量使用者可以透過工單申請開通)。
• 支援加密演算法:AES256,國密演算法,等。
• .資料加密後對使用者使用保持透明,各種型別的任務不需額外改變。
3.應對資料資料處理過程中的資料洩露風險 - MaxCompute 安全隔離能力
在資料處理過程中,應對資料洩露的風險則主要在於大資料平臺的安全隔離能力。
MaxCompute 提供獨立的隔離環境用於執行資料處理應用,可以支援完整的UDF種類,支援 Java和Python UDF, 還支援執行如Spark、Flink、Tensorflow 等開源三方計算引擎,提供了多元化的資料處理能力。
(圖-8:MaxCompute 安全隔離能力)
4.應對資料交換(共享)過程中的資料洩露風險 - MaxCompute資料隔離與許可權體系
在資料交換、或者說資料共享過程中,則需要完善的資料隔離能力與許可權管理體系來保障資料安全、防範資料洩露風險。MaxCompute 提供不同層級和維度上的資料隔離與許可權管理機制,以支援多層次的資料保護和資料共享場景。
• 多租戶的資料安全隔離:MaxCompute 支援多租戶的使用場景,針對不同的使用者資料進行資料儲存隔離,使用者資料被離散儲存在分散式檔案系統中,滿足多使用者協同、共享、和安全的需要,做到真正的多租戶資源隔離。
• 租戶內的業務(Project)資料隔離與共享:同一租戶下,不同業務(Project)之間的資料隔離、以及一定程度上的資料共享是非常常見的場景。基於ProjectProtection 保護機制可以實現 Project之間的資料隔離與保護,二Package則能讓使用者更方便同時也更安全的實現跨Project的資料和資源分享。如前文“MaxCompute 細粒度許可權體系提供精細化的許可權管理能力”介紹,此次安全能力升級增加了對Package的資料和資源做細粒度的許可權管理,增強了Package的資料共享和保護能力。
• (New) 應用端資料訪問控制:透過對訪問MaxCompute的的應用增加簽名機制,增強了對應用端訪問控制的管理能力。 例如,只允許特定的應用可以進行授權語句的操作,以避免使用者透過介面或不合規的應用進行非法資料授權操作。
(圖-9:MaxCompute 資料隔離能力)
5.(New) 資料生命週期中的敏感資料保護
應對資料洩露風險中的一個重要主題是敏感資料保護,前文所述在儲存、處理、和交換過程中的風險應對實踐,對敏感資料保護同樣適用。 此外,還有一些針對敏感資料保護這一特定場景的最佳實踐:
• 資料分類分級:使用 MaxCompute 的 LabelSecurity 功能,對資料做安全性的分類分級,對不同類別不同安全等級的資料訪問和使用,進行精細化的許可權管理。
• (New) 資料脫敏:基於安全行業的脫敏實現或應用,結合 MaxCompute 的平臺 UDF 能力,實現不同客戶端資料輸出時的敏感資料脫敏。脫敏實現也可以與資料分類分級結合使用,對不同分類分級的資料做不同的脫敏實現。
(圖-10:敏感資料保護)
(New)用資料保護傘作為敏感資料保護工具
資料保護傘,是基於 MaxCompute 平臺的資料分類分級能力和接入脫敏應用能力、構建的敏感資料保護工具。使用者可以使用資料保護傘對敏感資料進行標識,選擇脫敏演算法,在資料屏顯輸出時進行脫敏。
更多產品說明和使用介紹,詳見《資料保護傘》使用者文件。
(圖-11:敏感資料保護工具 - 資料保護傘)
如何應對資料丟失
除了惡意的資料洩露、資料濫用等風險,資料開發過程中的各種誤操作,偶發的裝置或機房故障,甚或是罕見的災害意外情況,都能造成資料丟失的後果。 應對資料丟失風險的最佳實踐,主要有備份恢復,以及容災能力。
1.(New) MaxCompute 備份與恢復
資料開發過程中,避免不了會有誤操作刪除資料(如Drop/Truncate Table)後需要恢復,或使用“insert into”、“insertoverwrite”語法執行後發現資料有問題需要恢復之前版本。
MaxCompute 近期釋出了持續的備份與恢復能力,系統會自動備份資料的歷史版本(例如被刪除或修改前的資料)並保留一定時間,您可以對保留週期內的資料進行快速恢復,避免因誤操作丟失資料。
(圖-12:MaxCompute 持續備份與恢復能力)
2.(New) MaxCompute 異地容災
MaxCompute 的異地容災能力,更好的提供了在機房故障或意外災害等極端場景下的資料安全保障。
在為 MaxCompute 專案指定備份位置到備份叢集后,MaxCompute 自動實現主叢集與備份叢集的資料複製,達到主叢集與被叢集資料的一致,實現異地資料容災。當發生故障,MaxCompute 專案從主叢集切換到備份叢集后,使用備份叢集的計算資源訪問備份叢集的資料,完成服務的切換和恢復。
(圖-13:MaxCompute 異地容災)
善用審計,應對各類資料風險
至此,我們已經介紹了在資料開發和使用過程中,應對各類資料風險的實踐。我們把非常重要的、適用於各類資料風險應對的一個實踐,放在最後介紹:善用日誌,構建預警和審計能力。
MaxCompute 提供了完善的歷史資料和實時日誌:
• Information Schema:提供了專案後設資料及使用歷史資料等資訊。PRIVILEGES 和 HISTORY 類的檢視,可以幫助使用者對資料許可權使用、任務執行等維度做分析審計。
• (New) 實時審計日誌功能:MaxCompute 完整記錄了使用者的各項操作行為,如DDL、授權、任務執行等各類事件,滿足實時審計、問題回溯分析等需求。
基於 Information Schema 和 實時審計日誌,使用者可以構建自己的資料風控和審計體系。Information Schema 去年就已上線,下文將主要介紹新發布的實時審計日誌。
當然,並不是所有的使用者都計劃自己構建風控和審計工具,這種情況下,可以直接使用 Dataworks 中的已有產品,進行風控和審計。優點是無需使用者二次開發、開箱即用,缺點則是定製的彈性較小。
1.(New) 實時審計日誌
敏感資料是否被過度使用?資料訪問許可權是否被過度授予?是否有異常如計劃外高頻的資料訪問?在資料安全保障中,管理者常常需要回答這些問題。 MaxCompute 審計日誌可以幫助回答這些問題。
MaxCompute完整地記錄使用者的各項操作行為,並透過阿里雲ActionTrail服務將使用者行為日誌實時推送給ActionTrail。使用者可以在ActionTrail中檢視和檢索使用者行為日誌,同時透過ActrionTrail將日誌投遞到日誌服務專案或指定的OSS Bucket中,滿足實時審計、問題回溯分析等需求。
ActionTrail針對作業(Instance)、表(Table)、函式(Function)、資源(Resource)、使用者(User)、角色(Role)和授權(Privilege)等事件的多種操作行為進行審計,詳細功能說明和使用介紹,詳見《審計日誌》使用者文件。
(圖-14:MaxCompute 審計日誌)
**2.使用 DataWorks 中的審計工具**
使用者也可以使用 Dataworks 的已有產品,進行資料安全的風控和審計:
• 在前文中介紹的安全中心,可以提供許可權的審計。
• 資料保護傘也提供了風控和審計能力,如圖-15。
(圖-15:使用資料保護傘做風控和審計)
小結
小結的同時呼應開篇,我們再次來看企業級大資料平臺三個層次的資料安全保障體系。 這次我們把 MaxCompute 的安全能力按資料生命週期的6個階段來重新組織,如圖-16。幫助大家更好理解,在不同的資料生命階段,應該採用哪些實踐來實施安全保障。圖-16中的黃色高亮部分,則標識了此次 MaxCompute 安全能力升級中的新功能。
(圖-16:基於大資料平臺構建資料什麼週期的安全保障)
作為 SaaS 模式下的雲資料倉儲,MaxCompute 具備領先的安全能力,也透過了國際、歐洲、國內的多項安全合規認證,如國際主流認證ISO系列、SOC1/2/3、PCI,歐洲主流認證C5,國內主流認證安全等級保護2.0,等。 阿里雲整體的安全合規認證,詳見《阿里雲信任中心-合規認證》頁面。 歡迎大家使用 MaxCompute,構建企業級的大資料安全。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31550522/viewspace-2709362/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- SaaS模式雲資料倉儲MaxCompute企業級安全能力升級模式
- 持續定義 Saas 模式雲資料倉儲+實時搜尋模式
- Hadoop資料遷移MaxCompute最佳實踐Hadoop
- 中小銀行資料倉儲建設 | 最佳實踐
- 迪斯尼樂園詮釋資料倉儲最佳實踐(下)WE
- 迪斯尼樂園詮釋資料倉儲最佳實踐(上)VE
- 騰訊安全姬生利:《資料安全法》下,雲上資料安全最佳實踐
- 資料庫安全最佳實踐:基本指南資料庫
- Spring Boot資料儲存最佳實踐 - AhadSpring Boot
- 構建實時資料倉儲首選,雲原生資料倉儲AnalyticDB for MySQL技術解密MySql解密
- 雲資料建模:為資料倉儲設計資料庫資料庫
- 《Greenplum構建實時資料倉儲實踐》簡介
- 基於Greenplum,postgreSQL的大型資料倉儲實踐SQL
- 雲端資料倉儲的模式選型與建設模式
- 美團DB資料同步到資料倉儲的架構與實踐架構
- MaxCompute資料倉儲在更新插入、直接載入、全量歷史表三大演算法中的資料轉換實踐演算法
- 企業級雲資料庫最佳實踐資料庫
- 資料倉儲應該用什麼方案——資料倉儲實施方案概述
- 滴滴資料倉儲指標體系建設實踐指標
- 資料倉儲上雲那些事兒
- 資料庫倉庫系列:(一)什麼是資料倉儲,為什麼要資料倉儲資料庫
- Oracle資料倉儲的實時資料採集XSOracle
- .NET Core MongoDB資料倉儲和工作單元模式實操MongoDB模式
- 資料湖 vs 資料倉儲 vs 資料庫資料庫
- 騰訊資料平臺 SaaS 化實踐
- 基於MaxCompute的數倉資料質量管理
- 資料治理:管理資料資產的最佳實踐框架框架
- MaxCompute多租戶資料安全體系
- 淺談資料倉儲和大資料大資料
- 資料湖會取代資料倉儲嗎?
- 談談資料湖和資料倉儲
- 資料倉儲 - ER模型模型
- 資料湖+資料倉儲 = 資料湖庫架構架構
- 聚焦資料安全,探索最佳實踐 |《資料安全專刊》第二期正式釋出
- 雲端儲存安全標準和最佳實踐
- PHP最佳實踐之資料庫PHP資料庫
- 開源分散式支援超大規模資料分析型資料倉儲Apache Kylin實踐-上分散式Apache
- 開源分散式支援超大規模資料分析型資料倉儲Apache Kylin實踐-下分散式Apache