資料水印技術的獨門絕技:為資料安裝可追蹤“ID”,資料洩露溯源追責有章可循
1 背景
資料洩露問題的嚴峻程度逐年升高。據Risk Based Security(RBS)機構在2020年Q3季度的報告,2020年1月至9月全球公開披露的資料洩露事件有2953起,是2019年同時段事件數量(6021起)的49%;然而涉及的洩露資料記錄數量高達361.07億條,相比2019年同時段的洩露記錄(83.54億)上漲了332.21%,創歷史新高。總體來說,2020年全球資料洩露狀況不容樂觀。
近年來,資料洩露事件不僅與駭客攻擊、伺服器配置不當有關,內部人員洩露也成為一個重要的原因。例如,2020年4月,浙江某銀行因員工違規洩露使用者資訊被處罰;同年5月,江蘇警方破獲一起內部員工販賣銀行個人金融資訊的案件,涉及記錄50,000多條;8月,調查發現某公司內部員工與外部不法分子勾結導致40萬條個人資訊洩露。另外,疫情期間收集的個人資訊由於內部人員主動外發原因導致的資料洩露頻頻發生。2020年1月,超7000武漢返鄉人員的個人資訊被洩露,其中包括公民的身份證號碼、電話號碼、具體家庭住址、列車資訊等;同年7月,山東青島某醫院6000餘人的就診名單發生洩露,涉及患者的詳細個人資訊。
資料的價值性與變現能力導致資料黑灰產愈發猖獗,暗網每天活躍著各類洩露資料的交易。洩露溯源是從源頭上根治黑灰產與資料洩露問題的關鍵。溯源一方面可以幫助企業瞭解內部安全管理與技術措施的薄弱環節,另一方面對實施犯罪行為的洩露者可以起到心理威懾的作用,從而有效減少類似事件的發生。然而,面對暗網或公開網路等環境中的資料洩露事件,多數情況下無法做到準確溯源——是誰洩露的?在哪裡洩露的?是什麼時間洩露的?
資料庫水印作為一種在學術界被深入研究的資料安全技術,被公認是有效解決以上溯源痛點問題的重要手段,近年來在工業界也得到足夠的重視與關注。下面聚焦該技術的機制原理、應用場景兩個層面進行介紹。
2 資料水印原理概述
資料庫水印(簡稱資料水印)是一種將標識資訊(如版權資訊、機構/員工ID)透過一定的規則與演算法隱藏在結構化資料中的技術。隱藏後資料庫的使用價值幾乎不變。其主要用於版權保護或洩露追蹤溯源(本文關注後者)。廣泛地說,資料庫水印屬於數字水印的其中一個分支。除資料庫水印外,根據嵌入載體不同,數字水印還包括影像水印、影片水印、音訊水印、文字水印和軟體水印等。其中,最早的數字水印技術是應用在影像領域中,即影像水印發展較為成熟。資料庫水印技術在安全需求驅動下,近年來得到快速發展與應用。下面從資料庫水印的方案框架、評估指標、水印攻擊和典型演算法四個方面對其進行全面概述與介紹。
資料庫水印是將水印資訊(資料量少)隱藏到資料庫載體(資料量比較大)中,有兩種隱藏方式:一種是隱藏在資料庫的檔案頭中,另一種是隱藏在資料庫包含的關係表中,通常指的後者,本文指代也是該方式。
具體如何將水印資訊隱藏到資料庫(關係表)中呢?其方案框架如圖1所示。它包括水印嵌入端和提取端,包括兩個核心演算法:水印嵌入演算法和水印提取演算法。
需注意的是,在資料洩露過程中,由於洩露主體可能會有意或無意對資料庫進行一些操作,比如對資料庫的元組進行隨機抽樣、選擇部分列、修改資料庫的某些值或對格式進行調整,這些操作通常稱為水印攻擊(後續將介紹),通常會對水印資訊造成一定影響,這要求設計的水印嵌入/提取演算法具有一定強度的魯棒性,即遭受攻擊後同樣能提取/檢測到正確的水印資訊。
2.2 評估指標
評估一個資料庫水印演算法的效能優劣通常主要由以下的三個指標進行判定:
透明性。也稱為不可感知性,包括主觀不可感知性和客觀不可感知性,前者是指使用者主觀體驗不出資料庫一些變化;後者由數學指標進行定義,比如均值和均方差的改變率,改變率越小,不可感知性/透明性越好。
魯棒性。在溯源場景也稱為溯源成功率,是指遭受各類攻擊後仍然能正確提取水印的能力。透過多種水印攻擊測試,結合提取水印位元的誤位元速率或檢測的相關性值進行綜合評估。
嵌入容量。資料庫可以嵌入的水印位元資訊數量,通常使用每個元組可嵌入的水印位元數或總嵌入量指標進行評估。
數字庫水印指標三個基本指標:透明性、魯棒性和嵌入容量是相互矛盾、相互影響的關係,三者不可能同時達到最優,如圖2所示。比如設計一個魯棒性強的資料庫水印系統,意味著需要增強水印訊號,那麼意味著將破壞更多原始資料庫訊號,透明性將減弱。
除此以外。在實際應用中,資料庫水印還需要考慮以下兩個指標:
安全性。攻擊者在沒有掌握金鑰情況下,不能提取到隱藏的水印資訊、不能破壞水印資訊、且不能偽造或替換非法的水印資訊。相比魯棒性指標,安全性指標考慮範疇更大、要求更嚴。
實用性。是指演算法的應用效果,包括嵌入/提取演算法的執行效率,所需的記憶體空間。
2.3 水印攻擊
資料庫水印攻擊的目的是破壞水印資訊或使得水印檢測結果失效。攻擊者在獲得資料庫的全部或部分使用價值的前提下,對資料庫執行一些攻擊操作,主要包括:
修改攻擊(Alteration attack):對資料庫的屬性值進行部分修改。
刪除攻擊(Deletion attack):也稱為抽樣攻擊,選擇資料庫的部分元組或部分屬性列。
插入攻擊(Insertion attack):在資料庫插入新的記錄或者增加新的屬性列。
置換攻擊(Permutation attack):改變資料庫的元組順序。
混淆攻擊(Obfuscated attack):在已有的含水印資料庫中嵌入一個新的偽造水印。
複合攻擊(Multifaceted attack):綜合前面提到兩種或以上攻擊方法。
2.4 嵌入方法
資料庫水印演算法一方面需要更好地將水印標識資訊隱藏到資料庫中,另一方面需要滿足嵌入後的透明性——僅允許一定範圍內失真,因此它本質上可看成一個帶約束條件的最最佳化問題。從訊號角度看,資料庫水印嵌入過程可用看成一個大訊號疊加了一個小訊號,經過有噪通道後,如何檢測到小訊號——小訊號的編解碼問題。根據水印嵌入過程是否需要改變原始資料庫的元組的屬性值和格式,嵌入方法主要可分為兩大類:
1) 基於元組修改的水印嵌入演算法:實質上,任何水印資訊可編碼轉換成一連串由“0”和“1”組成的位元字串。針對元組的數值屬性(如年齡、時間戳)和類別屬性(如身份證號、地址資訊等)兩種類別,嵌入方法又可再分為兩種子類別:
二是類別屬性的嵌入方法:類別屬性不能直接修改數值編碼,一種思路是嵌入資料庫使用者不易察覺的字元或標點,比如透過在類別屬性值末尾嵌入回車符、換行符表示“0”“1”,以及嵌入不同的空格數量等,常見嵌入規則如表1所示;另一種思路是基於語義的近義詞進行嵌入,首先構建關鍵詞的近義詞庫並確立順序,嵌入過程根據約定規則嵌入“0”或“1”位元。
表1 資料庫類別屬性的常見嵌入規則
2)基於偽行/偽列的水印嵌入演算法:不同於第一類,該類演算法無需修改原有資料庫元組,而是首先生成偽行或偽列,然後在新資料中按照一定規則嵌入水印。
偽行水印:先基於元組各項屬性的資料型別、資料格式、取值範圍的約束條件生成多個偽造的行,然後將水印按前面所述的數值屬性或類別屬性嵌入規則嵌入水印位元。
偽列水印:偽造新的屬性列,包括數值屬性列或類別屬性列,生成的偽列應儘可能與該關係表的其他屬性相關,不容易被攻擊者察覺,然後將水印位元嵌入到偽造的新列中。
水印提取是水印嵌入的逆過程,為了提高水印抵抗攻擊的能力(魯棒性),可採取重複嵌入,或者引入糾錯編碼機制進行嵌入。
3 資料庫水印與兩類洩露溯源場景
針對洩露溯源的目標主體不同,資料庫水印溯源包括兩類場景:企業員工的洩露溯源和企業機構的洩露溯源。
3.1 針對企業員工的洩露溯源
資料作為企業的重要資產,每天有大量資料在頻繁互動,包括商業資料、財務報表使用者和個人資訊,它們以資料庫(關係表)、Excel和CSV等形式儲存和傳輸和處理。檔案的頻繁互動增加了資料洩露的風險,比如員工將下載的資料檔案上傳至網際網路(比如公開網盤、論壇)、非法下載資料售賣給第三方,離職員工惡意下載資料等。
資料洩露後的溯源是一項重要的任務,一方面有利於瞭解安全管理與措施的薄弱環節,另一方面可起到心理威懾作用,追究責任,杜絕類似事件再次發生。針對企業員工的洩露溯源場景如圖3所示,任何員工下載資料到本地時,會觸發水印嵌入器將水印資訊(如員工ID、時間戳等)自動地嵌入到下載資料庫(關係表)中。當資料發生洩露時,企業可提取水印資訊,透過匹配與關聯分析,溯源取證洩露者的標識ID,以及下載時間等資訊。
圖3針對企業內部員工的洩露溯源應用場景
3.2 針對組織機構的洩露溯源
在大資料時代,資料開放、共享、交換、釋出等場景需求變得越來越多。其中包括以下一些典型場景:
政府部門資料共享場景:包括從中央到地方的縱向資料共享,以及省市地區之間橫向資料共享。
企業之間的資料共享:多家企業將自身的資料進行融合,聯合進行資料探勘與機器學習任務。
研究性質的資料釋出:金融/醫療將限制開放給科研機構、以及高校,進行資料統計與資料分析。
商業性質的資料外包:企業有一批資料,外包給第三方進行資料分析或處理。
資料開放共享能促進資料價值的釋放,然而也帶來更多的資料洩露風險。
同一份資料的共享(或多次分發過程)往往涉及到多個資料接收機構,若其中一方由於安全失責原因導致了資料洩露,資料洩露後如何正確溯源到真正的洩露方呢?
這是溯源的第二類場景,如圖4所示:分發機構在原始資料庫嵌入不同的水印資訊(如機構ID、時間戳)給不同的接收機構。一旦發生相關的資料洩露,分發機構可提取洩露資料庫的水印資訊,透過溯源取證,進而對洩露主體進行追責。從合規視角看,針對組織機構的洩露溯源可促進資料接收方落實資料安全保護責任,強化接收方實施相應級別的安全措施。
圖4針對組織機構的洩露溯源應用場景
4 小結
隨著數字化轉型的深入推進,企業內部大量資料在頻繁互動,同時企業間有大量的資料共享、交換的需求。然而,資料流通給資料安全帶來巨大的挑戰,其中潛在的資料洩露風險是首要面臨的安全問題。本文介紹的資料庫水印技術,在資料洩露前在結構化資料(關係表)載體中隱藏水印標記資訊;在資料洩露後可提取水印,可作為洩露主體(包括針對企業員工、組織機構)溯源追責的有效技術手段,可積極促進資料的流動與共享。另一方面,資料庫水印技術在一定程度上可以起到心理威懾作用,強化資料接收機構的安全保護意識與責任。
實際上,資料庫水印技術相比影像水印技術,仍然處於理論與技術發展階段,目前仍有一些關鍵問題有待解決: 結合資料庫的資料實用性約束,通用資料庫水印模型的設計; 針對分類屬性或短文字屬性的魯棒水印嵌入方法; 如何設計不依賴資料庫主鍵的水印嵌入和提取演算法; 資料庫水印系統如何對不同水印引數、金鑰以及額外資訊進行有效管理等。
參考文獻
Risk based security, 2020 Q3 Report: Data Breach QuickView:
https://pages.riskbasedsecurity.com/hubfs/Reports/2020/2020%20Q3%20Data%20Breach%20QuickView%20Report.pdf
綠盟科技《網路安全觀察2020》,http://blog.nsfocus.net/wp-content/uploads/2021/01/The-Observed-of-Cyber-Security-2020.pdf.
綠盟科技《擁抱合規、超越合規:資料安全前沿技術研究報告》,http://blog.nsfocus.net/wp-content/uploads/2021/01/data_security_advanced_technology_research_NSFOCUS_1228.pdf.
Sion R, Atallah M, Prabhakar S. Rights protection for relational data. IEEE transactions on knowledge and data engineering, 2004, 16(12): 1509-1525.
Sion R, Atallah M, Prabhakar S. Rights protection for categorical data. IEEE transactions on knowledge and data engineering, 2005, 17(7): 912-926.
Shehab M, Bertino E, Ghafoor A. Watermarking relational databases using optimization-based techniques. IEEE transactions on knowledge and data engineering, 2007, 20(1): 116-129.
相關文章
- 搭建資料追蹤系統2019-03-02
- ChatGPT資料洩露,技術細節公佈2023-03-28ChatGPT
- 什麼是資料洩露?哪些問題可導致資料洩露2023-09-22
- 利用Zipkin追蹤Mysql資料庫呼叫鏈2019-03-04MySql資料庫
- HDC2021:華為DTM助力無程式碼資料追蹤2021-11-16
- Java動態追蹤技術探究2019-03-01Java
- 淺談動態追蹤技術2019-04-18
- 分散式鏈路追蹤技術2022-03-15分散式
- 四種會話追蹤技術2020-12-23會話
- APP資料洩露該怎麼去排查和溯源2022-07-14APP
- 大資料技術 - OneData - OneID (ID-Mapping)2023-02-01大資料APP
- 如何用Python追蹤全球各地新冠肺炎資料?2020-03-22Python
- 註解列印日誌和資料鏈路追蹤2022-03-11
- 深度分析| 資料防洩露技術再次“翻紅”的思考與建議2023-03-09
- 資料許可權技術驗證2018-08-28
- 電力資料:追蹤全球電力市場轉型2024-08-20
- 資料治理:資料整合的關鍵技術2023-12-14
- 資料探勘技術2024-06-02
- 松下承認嚴重資料洩露,涉技術檔案和客戶敏感資訊2021-11-30
- 可口可樂遭洩露161GB資料2022-04-27
- 資料洩露的隱性成本2022-02-24
- 大資料技術之大資料概論2019-06-23大資料
- 資料洩露層出不窮,擎天Enclave如何守住資料安全的“大門”2022-10-13
- 大資料資訊時代,如何防止資料洩露,大資料防洩漏解決方案2018-11-01大資料
- 2023年令人震驚的資料洩露統計資料2023-12-28
- 使用mtrace追蹤JVM堆外記憶體洩露2023-09-23JVM記憶體洩露
- 10個最熱門的大資料技術2019-06-28大資料
- 鏈路追蹤技術的應用及實踐2020-07-09
- 大資料技術之資料採集篇2019-06-19大資料
- 大資料技術 - Kyuubi2024-03-05大資料
- 大資料技術 - SuperSQL2023-05-08大資料SQL
- 大資料技術 - Directus2023-12-18大資料
- 大資料技術 - Druid2023-12-05大資料UI
- 資料隱藏技術2020-08-19資料隱藏
- 大資料技術 - Ververica2023-01-11大資料
- 大資料技術 - Phoenix2023-01-09大資料
- 大資料技術 - Azkaban2023-01-06大資料
- 大資料技術 - Airflow2023-01-06大資料AI