人工智慧資料安全白皮書_2019

發表於2019-08-16
版權宣告 本白皮書版權屬於中國資訊通訊研究院安全研究所,並受法律保護。轉載、摘編或利用其它方式使用本白皮書文字或者觀點的,應註明“來源:中國資訊通訊研究院安全研究所”。違反上述宣告者,中國資訊通訊研究院安全研究所將追究其相關法律責任。

人工智慧作為引領新一輪科技革命和產業變革的戰略性技術,已成為世界主要國家謀求新一輪國家科技競爭主導權的關鍵領域。隨著政府人工智慧戰略佈局的落地實施,全球人工智慧發展正進入技術創新迭代持續加速和融合應用擴充深化的新階段,深刻改變著國家政治、經濟、社會、國防等領域的執行模式,對人類生產生活帶來翻天覆地的變化。

資料作為驅動本輪人工智慧浪潮全面興起的三大基礎要素之一,資料安全風險已成為影響人工智慧安全發展的關鍵因素。與此同時,人工智慧應用也給資料安全帶來嚴峻挑戰,如何應對人工智慧場景下的資料安全風險日漸成為國際人工智慧治理的重要議題。部分國家已率先探索人工智慧資料安全風險的前瞻研究和主動預防,並積極推動人工智慧在資料安全領域應用,力求實現人工智慧與資料安全的良性互動發展。

本白皮書從人工智慧資料安全的內涵出發,首次提出人工智慧資料安全的體系架構,在系統梳理人工智慧資料安全風險和安全應用情況的基礎上,總結了國內外人工智慧資料安全治理現狀,研究提出了我國人工智慧資料安全治理建議。

目 錄
一、 人工智慧資料安全概述
(一) 人工智慧安全
(二) 人工智慧資料安全內涵
(三) 人工智慧資料安全體系架構
二、 人工智慧資料安全風險
(一) 人工智慧自身面臨的資料安全風險
(二) 人工智慧應用導致的資料安全風險
(三) 人工智慧應用加劇的資料治理挑戰
三、 人工智慧資料安全應用
(一) 人工智慧與資料安全治理
(二) 人工智慧在資料安全治理中的應用
四、 國內外人工智慧資料安全治理動態
(一) 國內外人工智慧資料安全戰略規劃情況
(二) 國內外人工智慧資料安全倫理規範情況
(三) 國內外人工智慧資料安全法律制定情況
(四) 國內外人工智慧資料安全技術發展情況
(五) 國內外人工智慧資料安全標準規範情況
五、 人工智慧資料安全治理建議
(一) 明晰發展與安全並舉的治理思路
(二) 引導社會遵循人工智慧倫理規範
(三) 建立人工智慧資料安全法律法規
(四) 完善人工智慧資料安全監管措施
(五) 健全人工智慧資料安全標準體系
(六) 創新人工智慧資料安全技術手段
(七) 培養複合人工智慧資料安全人才

一、 人工智慧資料安全概述

(一) 人工智慧安全

當前,由人工智慧引領的新一輪科技革命和產業變革方興未艾,正在對經濟發展、社會進步、國家治理等方面產生重大而深遠的影響。世界主要國家和全球產業界高度重視並積極佈局,人工智慧迎來新的發展浪潮。然而,技術進步往往是一把“雙刃劍”,本專案組在《人工智慧安全白皮書(2018 年)》中提出人工智慧因其技術的侷限性和應用的廣泛性,給網路安全、資料安全、演算法安全和資訊保安帶來風險,並對國家政治、軍事和社會安全帶來諸多挑戰。與此同時,人工智慧因其突出的資料分析、知識提取、自主學習、智慧決策等能力,可在網路防護、資料管理、資訊審查、智慧安防、金融風控、輿情監測等網路資訊保安領域和社會公共安全領域有許多創新性應用。為有效管控人工智慧安全風險並積極促進人工智慧技術在安全領域應用,可從法規政策、標準規範、技術手段、安全評估、人才隊伍、可控生態等方面構建人工智慧安全管理體系。

clipboard.png

(二) 人工智慧資料安全內涵

1、人工智慧與資料

人工智慧與資料相輔相成、互促發展。一方面,海量優質資料助力人工智慧發展。現階段,以深度學習為代表的人工智慧演算法設計與優化需要以海量優質資料為驅動。谷歌研究提出,隨著訓練資料數量級的增加,相同機器視覺演算法模型的效能呈線性上升。牛津大學國際發展研究中心將大資料質量和可用性作為評價政府人工智慧準備指數的重要考察項。美國歐亞集團諮詢公司將資料數量和質量視為衡量人工智慧發展潛力的重要評價指標。另一方面,人工智慧顯著提升資料收集管理能力和資料探勘利用水平。人工智慧在人們日常生活和企業生產經營中大規模應用,獲取、收集和分析更多使用者和企業資料,促進人工智慧語義分析、內容理解、模式識別等方面技術能力進一步優化,更好地實現對收集的海量資料進行快速分析和分類管理。而且,人工智慧對看似毫不相關的海量資料進行深度挖掘分析,發現經濟社會執行規律、使用者心理和行為特徵等新知識。基於新知識,人工智慧進一步提升對未來的預測和對現實問題的實時決策能力,提升資料資源利用價值,優化企業經營決策、創新經濟發展方式、完善社會治理體系。

2、人工智慧資料安全

資料安全是人工智慧安全的關鍵。資料成為本輪人工智慧浪潮興起發展的關鍵要素。人工智慧演算法設計與優化需要以海量優質資料資源為基礎。資料質量和安全直接影響人工智慧系統演算法模型的準確性,進而威脅人工智慧應用安全。與此同時,人工智慧顯著提升資料收集管理能力和資料價值挖掘利用水平。人工智慧這些能力一旦被不當或惡意利用,不僅威脅個人隱私和企業資產安全,甚至影響社會穩定和國家安全。而且,人工智慧、大資料與實體經濟不斷深度融合,成為推動數字經濟和智慧社會發展的關鍵要素。人工智慧大規模應用間接促使資料權屬問題、資料違規跨境等資料治理挑戰進一步加劇。

人工智慧為資料安全治理帶來新機遇。人工智慧驅動資料安全治理加速向自動化、智慧化、高效化、精準化方向演進。人工智慧自動學習和自主決策能力可有效緩解現有資料安全技術手段對專業人員分析判斷的高度依賴,實現對動態變化資料安全風險的自動和智慧監測防護。人工智慧卓越的海量資料處理能力可有效彌補現有資料安全技術手段資料處理能力不足的缺陷,實現對大規模資料資產和資料活動的高效、精準管理和保護。人工智慧賦能資料安全治理,助力資料大規模安全應用,將有力推動經濟社會數字化轉型升級。

基於以上分析,專案組認為,人工智慧資料安全內涵包含:一是應對人工智慧自身面臨和應用導致及加劇的資料安全風險與治理挑戰;二是促進人工智慧在資料安全領域中的應用;三是構建人工智慧資料安全治理體系,保障人工智慧安全穩步發展。

(三) 人工智慧資料安全體系架構

clipboard.png

基於對人工智慧資料安全內涵分析,專案組提出覆蓋人工智慧資料安全風險、人工智慧資料安全應用、人工智慧資料安全治理三個維度的人工智慧資料安全體系架構。其中,人工智慧資料安全風險是人工智慧資料安全治理的起因, 包含人工智慧自身面臨的資料安全風險,人工智慧應用導致的資料安全風險,人工智慧應用加劇的資料治理挑戰。本白皮書重點分析人工智慧相關特有資料安全風險與治理挑戰。人工智慧資料安全應用是人工智慧技術用於資料安全治理, 包含人工智慧技術在精準化資料安全策略制定、自動化資料資產安全管理、智慧化資料活動安全保護以及高效化資料安全事件管理方面的應用。人工智慧資料安全治理是應對人工智慧資料安全風險和促進人工智慧資料安全應用的體系化方案, 包含國家戰略、倫理規範、法律法規、監管政策、標準規範、技術手段、人才隊伍等方面。

二、 人工智慧資料安全風險

(一) 人工智慧自身面臨的資料安全風險

訓練資料汙染可導致人工智慧決策錯誤。資料投毒通過在訓練資料里加入偽裝資料、惡意樣本等破壞資料的完整性,進而導致訓練的演算法模型決策出現偏差。資料投毒主要有兩種攻擊方式:一種是採用模型偏斜方式,主要攻擊目標是訓練資料樣本,通過汙染訓練資料達到改變分類器分類邊界的目的。例如,模型偏斜汙染訓練資料可欺騙分類器將特定的惡意二進位制檔案標記為良性。另外一種是採用反饋誤導方式,主要攻擊目標是人工智慧的學習模型本身,利用模型的使用者反饋機制發起攻擊,直接向模型“注入”偽裝的資料或資訊,誤導人工智慧做出錯誤判斷。隨著人工智慧與實體經濟深度融合,醫療、交通、金融等行業訓練資料集建設需求迫切,這就為惡意、偽造資料的注入提供了機會,使得從訓練樣本環節發動網路攻擊成為最直接有效的方法,潛在危害巨大。在自動駕駛領域,資料投毒可導致車輛違反交通規則甚至造成交通事故;在軍事領域,通過資訊偽裝的方式可誘導自主性武器啟動或攻擊,從而帶來毀滅性風險。

執行階段的資料異常可導致智慧系統執行錯誤。一是人為構造對抗樣本攻擊,導致智慧系統產生錯誤的決策結果。人工智慧演算法模型主要反映了資料關聯性和特徵統計,而沒有真正獲取資料因果關係。針對演算法模型這一缺陷,對抗樣本通過對資料輸入樣例新增難以察覺的擾動,使演算法模型以高置信度給出一個錯誤的輸出。對抗樣本攻擊可實現逃避檢測,例如在生物特徵識別應用場景中,對抗樣本攻擊可欺騙基於人工智慧技術的身份鑑別、活體檢測系統。2019 年 4 月,比利時魯汶大學研究人員發現,藉助一張設計的列印圖案就可以避開人工智慧視訊監控系統。二是動態環境的非常規輸入可導致智慧系統執行錯誤。人工智慧決策嚴重依賴訓練資料特徵分佈性和完備性,人工標記資料覆蓋不全、訓練資料與測試資料同質化等原因常常導致人工智慧演算法泛化能力差,智慧系統在動態環境實際使用中決策可能出現錯誤。特斯拉汽車自動駕駛系統曾因無法識別藍天背景下的白色貨車,致使發生致命交通事故。

模型竊取攻擊可對演算法模型的資料進行逆向還原。人工智慧演算法模型的訓練過程依託訓練資料,並且在執行過程中會進一步採集資料進行模型優化,相關資料可能涉及到隱私或敏感資訊,所以演算法模型的機密性非常重要。但是,演算法模型在部署應用中需要將公共訪問介面釋出給使用者使用,攻擊者可通過公共訪問介面對演算法模型進行黑盒訪問,依據輸入資訊和輸出資訊對映關係,在沒有演算法模型任何先驗知識(訓練資料、模型引數等)情況下,構造出與目標模型相似度非常高的模型,實現對演算法模型的竊取,進而還原出模型訓練和執行過程中的資料以及相關隱私資訊。新加坡國立大學 Reza Shokri 等針對機器學習模型的隱私洩露問題,提出了一種成員推理攻擊,在對模型引數和結構知之甚少的情況下,可以推斷某一樣本是否在模型的訓練資料集中。

開源學習框架存在安全風險,可導致人工智慧系統資料洩露。人工智慧開源學習框架實現了基礎演算法的模組化封裝,可以讓應用開發人員無需關注底層實現細節,大大提高了人工智慧應用的開發效率。谷歌、微軟、亞馬遜、臉書等企業都發布了自己的人工智慧學習框架,在全球得到廣泛應用。但是,人工智慧開源學習框架整合了大量的第三方軟體包和依賴庫資源,相關元件缺乏嚴格的測試管理和安全認證,存在未知安全漏洞。近年來,360、騰訊等企業安全團隊曾多次發現TensorFlow、Caffe、Torch 等深度學習框架及其依賴庫的安全漏洞,攻擊者可利用相關漏洞篡改或竊取人工智慧系統資料。

(二) 人工智慧應用導致的資料安全風險

人工智慧應用可導致個人資料過度採集,加劇隱私洩露風險。隨著各類智慧裝置(如智慧手環、智慧音響)和智慧系統(如生物特徵識別系統、智慧醫療系統)的應用普及,人工智慧裝置和系統對個人資訊採集更加直接與全面。相較於網際網路對使用者上網習慣、消費記錄等資訊採集,人工智慧應用可採集使用者人臉、指紋、聲紋、虹膜、心跳、基因等具有強個人屬性的生物特徵資訊。這些資訊具有唯一性和不變性,一旦被洩露或者濫用會對公民權益將造成嚴重影響。2018 年 8 月,騰訊安全團隊發現亞馬遜智慧音響後門,可實現遠端竊聽並錄音。2019 年 2 月,我國人臉識別公司深網視界曝出資料洩露事件,超過 250 萬人資料、680 萬條記錄被洩露,其中包括身份證資訊、人臉識別影象及 GPS 位置記錄等。鑑於對個人隱私獲取的擔憂,智慧安防的應用在歐美國家存在較大爭議,2019 年 7 月,繼舊金山之後,薩默維爾市成為美國第二個禁止人臉識別的城市。

人工智慧放大資料偏見歧視影響,威脅社會公平正義。當前,人工智慧技術已應用於智慧政務、智慧金融等領域,成為社會治理的重要輔助手段。但是,人工智慧訓練資料在分佈性上往往存在偏差,隱藏特定的社會價值傾向,甚至是社會偏見。例如,海量網際網路資料更多體現我國經濟發達地區、青壯年網民特徵,而對邊遠地區以及老幼貧弱人群的特徵無法有效覆蓋。人工智慧系統如果受到訓練資料潛在的社會偏見或歧視影響,其決策結果勢必威脅人類社會的公平正義。在社會招聘領域,美國 Kronos 公司的人工智慧僱傭輔助系統讓少數族裔、女性或者有心理疾病史的人更難找到工作;在金融徵信領域,科技金融公司 Zest 的人工智慧信用評估平臺 ZAML,採集分析使用者網路行為來判定使用者的信用值,曾經錯誤判定不能熟練使用英語的移民群體存在信用問題。

人工智慧技術的資料深度挖掘分析加劇資料資源濫用,加大社會治理和國家安全挑戰。通過獲取使用者的地理位置、消費偏好、行為模式等碎片化資料,再利用人工智慧技術進行深度挖掘分析,能夠預測使用者的喜好和習慣,進而對使用者進行分類,可實現更加精準的資訊推送。基於資料分析的智慧推薦可帶來使用者便利、企業盈利和社會福利,但是也加劇了資料濫用問題。一是在社會消費領域,可帶來差異化定價。“大資料殺熟”實現對部分消費者的過高定價,甚至進行惡意欺詐或誤導性宣傳,導致消費者的知情權、公平交易權等權利受損。2018年,我國滴滴、攜程等均爆出類似事件,根據使用者特徵實現對不同客戶的區別定價,社會負面影響巨大。二是在資訊傳播領域,可引發“資訊繭房”效應。人們更多接收滿足自己偏好的資訊和內容,限於對世界的片面認知,導致社會不同群體的認知鴻溝拉大,個人意志的自由選擇受到影響,甚至威脅到社會穩定和國家安全。2018 年曝光的“Facebook 資料洩露”事件中,美國劍橋分析公司利用廣告定向、行為分析等智慧演算法,推送虛假政治廣告,進而形成對選民意識形態和政治觀點的干預誘導,影響美國大選、英國脫歐等政治事件走向。基於人工智慧技術的資料分析與濫用,給數字社會治理和國家安全等帶來嚴峻安全挑戰。

人工智慧技術可提升網路攻擊的智慧化水平,進而實施資料智慧竊取。一是可用來自動鎖定目標,進行資料勒索攻擊。人工智慧技術可通過對特徵庫學習自動查詢系統漏洞和識別關鍵目標,提高攻擊效率。英國網路安全公司 Darktrace 分析顯示,整合人工智慧技術的勒索軟體可自動瞄準更具吸引力的目標,劫持工業裝置、醫療儀器等相關執行資料勒索贖金,受害者為使系統和裝置重新上線執行而被迫支付贖金。二是自動生成大量虛假威脅情報,對分析系統實施攻擊。人工智慧通過使用機器學習、資料探勘和自然語言處理等技術處理安全大資料,能夠輔助自動化地生產威脅情報,攻擊者也可利用相關技術生成大量錯誤情報以混淆判斷。美國 McAfee 公司指出,“提高噪聲基底(noise floor)”技術可對特定環境進行情報轟炸,給威脅情報分析系統的判斷模型製造大量的主動錯誤資訊,造成威脅情報過載,迫使系統重新校準以過濾掉假警報,通過這一過程,攻擊者可瞭解防禦邏輯並伺機發起真正的攻擊,進而竊取系統資料。三是自動識別影象驗證碼,竊取系統資料。影象驗證碼是一種防止機器人賬戶濫用網站或服務的常用驗證措施,通過解決視覺難題來驗證人類使用者,以有效區分攔截惡意程式,保護系統資料安全。但是,人工智慧技術已實現對驗證碼的有效破解。美國 Vicarious 公司開發的基於概率生成模型的驗證碼識別演算法,在標準的 reCAPTCHA 測試中,可成功解開三分之二的驗證問題4。2017 年,我國浙江省破獲了全國第一例人工智慧犯罪,案件中黑客利用人工智慧識別圖片驗證碼的正確率高達 95%以上,在此平臺被打掉前的 3 個月已經提供驗證碼識別服務 259 億次。

基於人工智慧技術的資料深度偽造將威脅網路安全、社會安全和國家安全。人工智慧可利用收集的訓練資料進行特徵學習,生成逼真的虛假資訊內容。特別是近年來基於生成對抗網路(GAN)的“DeepFakes”(深度偽造)技術應用,使得“換臉”虛假視訊的製作門檻不斷降低,大量深度偽造資料內容開始湧現。我國也出現了徐錦江版“海王”,楊冪版“黃蓉”等逼真虛假視訊。目前,深度偽造 2.0 概念已被提出,相比於之前的換臉,深度偽造 2.0 可模仿人的行為舉止、聲音和習慣動作,更難以區分真假。2019 年 6 月,Facebook 一段祖克伯的假視訊傳播迅速,視訊裡的人從長相、聲音、穿衣、手勢以及說話時的動作神情都與真人無異。深度偽造資料內容的大量生成和傳播,將給網路安全、社會安全和國家安全帶來嚴重風險。一是降低生物特徵識別技術可信度,提升網路攻擊能力。基於影象特徵的人臉識別技術和基於聲紋的語音識別技術均屬於典型的生物特徵識別技術,在非接觸式身份認證、大流量或自動化安全檢測等領域已開展規模化應用。但目前識別偽造音視訊存在技術難度,降低了生物特徵識別技術的可信度,給網路攻擊提供了新手段。二是造成人際間的信任危機,威脅倫理和社會安全。隨著換臉換聲技術的不斷進化,偽造圖片和音視訊的成本會不斷降低,各種惡意偽造的圖片和音視訊資訊將大量湧現,會侵犯公民肖像權等個人權益,甚至用於敲詐勒索、偽造罪證等不法活動,從而造成社會信任危機,對倫理道德和社會穩定構成嚴重威脅。三是通過製作虛假新聞影響政治輿論,進而威脅國家安全。國內外惡意勢力可利用基於人工智慧的換臉換聲技術偽造政治領袖和公眾人物的新聞視訊,普通民眾根本無法辨別真假,此類虛假視訊內容的大量擴散與傳播,可對社會輿論生態造成惡劣影響,引發民眾騷亂甚至國內動亂,威脅國家安全。2019 年 6 月,由於擔心深度偽造對 2020 年美國大選的災難性影響,美國眾議院已經開始考慮修訂現行法案,在立法層面打擊相關行為。

(三) 人工智慧應用加劇的資料治理挑戰

人工智慧提升資料資源價值,資料權屬問題更為突出。一是個人層面,資料權屬體現為公民的資料權利,個人隱私保護面臨挑戰。使用者個人隱私資訊含金量高,是人工智慧技術與產業發展的重要驅動。相關機構在利用使用者資料追求自身利益時往往忽視使用者個人隱私權益。近年來,個人隱私洩露重大事件連續發生,順豐快遞、華住酒店、萬豪酒店等均出現數億使用者資訊洩露事件。另外,網際網路使用者在使用社交平臺、網路直播、線上遊戲等應用的過程中,會產生海量社交關係資料和使用者行為資料等,這類資料在權利歸屬上存在爭議,但已成為人工智慧企業進行演算法設計和產品研發的重要支撐。二是行業層面,資料權屬體現為企業的資料產權,資料壟斷損害行業整體發展。人工智慧技術使資料經濟價值越發凸顯,資料已成為企業的核心資產,相關企業積極儲備資料資源,並阻止競爭對手獲得資料,力圖壟斷資料資源來最大化企業利益。我國曾爆發華為與騰訊、順豐與菜鳥之間的資料糾紛事件。資料產權之爭將加劇資料壟斷。一方面,科技巨頭依託網路覆蓋和使用者規模,加強資料匯聚;另一方面,人工智慧中小企業獲取資料的渠道受限,資料資源匱乏。企業在資料產權沒有被廣泛認可,以及資料流動環節存在安全風險的前提下,無論是從維護自身利益角度還是從遵守法律法規角度,都不願將自身資料進行共享,這將導致初創企業和研究機構在演算法設計和優化過程中無資料可用,損害我國人工智慧行業整體發展。

人工智慧凸顯資料的戰略地位,資料違規跨境衝擊國家安全。當前,世界主要國家都制定了人工智慧發展戰略,對資料的依賴快速上升,資料作為國家基礎性戰略資源的地位更加突出。為快速積累資料,科技企業通過向消費者提供特定領域免費應用、使用政府公開資料以及進行產業上下游資料協同等方式獲取儘可能多資料。以臉書、谷歌為代表的美國科技巨頭,依託其龐大使用者規模和強大資料抓取工具,在全球範圍內進行資料收集,強化資料資源優勢,推進自身人工智慧發展,加劇資料違規跨境流動風險。與此同時,2018 年 3 月,美國發布《澄清境外資料的合法使用法案》(CLOUD 法案),為美國執法機構訪問在美國境內運營的企業儲存在海外的使用者資料提供明確授權,促使資料管轄權和跨境流動爭議進一步加大,威脅我國網路主權和國家安全。

三、 人工智慧資料安全應用

(一) 人工智慧與資料安全治理

人工智慧和資料安全治理互利互補,人工智慧技術賦予資料安全治理智慧,資料安全治理為人工智慧技術發展提供前驅動力。人工智慧技術的發展為資料安全治理提供底層通用技術支撐,取代資料安全治理中大量重複性、長期性、粗略性人類勞動,使資料安全治理向自動化、高效化、精準化、智慧化演進。與此同時,資料安全治理工作的開展能提升資料質量,促進資料安全流通和合規使用,為人工智慧提供高質量資料集,從而為人工智慧技術發展提供前驅動力。具體表現為以下五個方面。

一是人工智慧技術可更加準確地理解資料,促進資料安全治理精準化。資料量的豐富為人工智慧提供特徵廣泛的訓練資料集,使人工智慧模型更加精確。算力的提升使人工智慧具備實時資料處理能力,支援在更大範圍內及時監測和處理資料,並持續改進樣本庫,減少樣本過少或漏報帶來的運算誤差。以神經網路為代表的的深度學習技術的發展可以大力提升資料分類分級精準度和資料內容識別準確率。例如,2012 年神經網路演算法只有 5 層,而 2018 年可以做到 1200 多層,在人臉識別領域最高可達一億分之一的誤識率。

二是人工智慧技術可取代人類重複性勞動,促進資料安全治理自動化。2018 年李開復在《人工智慧》一書中指出,人工智慧將在 15年內具備取代 40-50%崗位的技術能力,主要集中在重複性勞動、有固定臺本和對白內容的各種互動、不需與人進行大量面對面交流的工作領域。在資料安全治理領域中,傳統的資料特徵標註需要大量人力反覆篩選和識別,人工智慧可以取代人類自動對資料按照內容進行識別和新增標籤。在網路安全防護方面,隨著網路攻擊手段的智慧化升級,傳統的依賴手動過程以及靜態規則和簽名的資料傳輸網路安全保護方法正在失效,人工智慧技術可以通過自我學習自動更新安全規則,及時檢測出新型網路威脅。

三是人工智慧技術直擊資料安全治理痛點,促進資料安全治理智慧化。資料資產不清晰、資料和知識難以關聯、資料安全管理策略更新不及時是資料安全治理中常見問題。與傳統資料安全治理相比,人工智慧技術可通過精準分級分類自動梳理資料資產,基於統一的管理標準形成後設資料,通過智慧搜尋、關聯查詢手段,形成資料關聯關係圖譜,對資料安全風險進行智慧評估、量化和預測,輔助形成更合理的安全管理策略。例如,IBM 的大資料安全智慧系統實時運用人工智慧技術實現了資料的智慧高速查詢、實時異常檢測、自動確定事件根源並開展核查。騰訊的智慧大資料治理系統基於基礎知識庫實現針對不同型別資料的自動感知、智慧推薦轉換等智慧處理功能,人工智慧技術使資料安全治理智慧化。

四是人工智慧技術可提升系統效率,促進資料安全治理高效化。人工智慧可以充分利用自然語言處理、影象識別、語音識別、視訊處理等技術彌補傳統資料處理耗時長、效率低等弱項,提升系統效率。例如人工智慧技術可以對非結構化資料進行高效分析處理,將過去需要幾周乃至幾個月才能完成的工作縮短到幾個小時之內完成,使資料安全治理高效化。華為將機器學習技術用於大資料分析平臺,其在中國移動等多個專案的實踐表明,資料治理效率提升超過 40%,資料準備週期從月降為小時級,大資料分析應用上線週期從月降到周,同時高效資料治理也提升了資料質量,高質量資料佔比提升 40%以上。

五是資料安全治理促進高質量資料集生成,驅動人工智慧技術發展。高質量資料集是提升人工智慧演算法準確性、模型合理性和產品先進性的至關重要的因素,只有當人工智慧系統能夠獲取更為準確、及時、一致的高質量資料,才能提供更高效、更可靠的智慧化服務。近年來,隨著政府、企業對資料質量管理的重視,資料質量工具市場穩步增長。據 Gartner 釋出的 2018 年資料庫魔力象限報告顯示,2017年資料質量軟體工具市場達到 16.1 億美元,比 2016 年增長 11.6% 。資料安全治理是提升資料質量的必要途徑,是促進人工智慧全面發展和應用的基礎保障。

(二) 人工智慧在資料安全治理中的應用

2018 年 5 月,Gartner 釋出資料安全治理(Data SecurityGovernance,簡稱 DSG)框架,提出了從管理層到技術層、從機制體制到技術工具、全方位覆蓋整個組織架構的完整資料安全治理鏈條。Gartner 指出,直接從資料生命週期環節入手並不合理,需要先確定組織架構,建立管理問責制和決策權,對不同等級的風險制定不同的策略,再利用技術工具對資料全生命週期進行安全風險控制管理,最後對安全風險進行評估並回到第一步重新糾編,形成資料安全治理閉環。2018 年 5 月,中國網信聯盟指導下的資料安全治理委員會發布《資料安全治理白皮書》,提出一個通用的資料安全治理框架,將框架分為資料安全治理機制、資料全生命週期管理和資料安全技術部署三個部分。國內外主流資料安全治理框架的思路是相通的,均是以策略機制為入口,以資料全生命週期管理為基礎,以技術工具為支撐的多方位治理體系。

本白皮書借鑑國內外主流資料安全治理框架並結合人工智慧資料安全應用經驗,將人工智慧在資料安全治理領域的應用分為資料安全策略制定、資料資產安全管理、資料活動安全保護、資料安全事件管理四個階段。人工智慧技術可應用於資料安全治理的各個階段,但主要是促進細分領域應用優化升級,距離體系化的智慧資料安全治理還有很大差距。如圖 3 所示,人工智慧資料安全治理細分領域包括資料安全策略、資料分級分類、資料質量管理、資料本體安全保護、資料活動網路安全保護、資料流轉行為分析、資料安全風險評估、不良資訊治理、網際網路反欺詐、打擊資料黑產等。

clipboard.png

1、資料安全策略制定

傳統的策略制定過程中用來輔助決策的日誌資料和警報數量巨大,決策者難以快速處理,因此傳統方式主要依賴人的直覺和經驗。人工智慧技術具備海量資料採集和分析能力,可根據訓練模型進行自我學習並做出相應的判斷,使管理更精細、決策更智慧,因此智慧決策系統應用非常廣泛。基於人工智慧的決策系統能大大提高資料安全治理策略的時效性和合理性,在資料安全風險管理策略、資料合規性要求、分級保護策略的制定等方面輔助管理者快速、科學、合理地制定策略,為資料安全治理提供智慧化的解決方案。例如,2017 年 12月,百分點集團釋出智慧政府決策系統 Deep Governor,該系統匯聚行業專家知識,結合 6 大類 50 餘種社會經濟發展綜合決策模型,推動政府科學決策水平和決策能力現代化,助推“資料治國”。

2、資料資產安全管理

一是在資料分級分類方面,可以通過應用機器學習、模式聚類、自然語言處理、語義分析、影象識別等技術,提取資料檔案核心資訊,對資料按照內容進行梳理,生成標註樣本,經過反覆的樣本訓練與模型修正,可以實現對資料自動、精準的分級分類。例如,我國網路安全初創企業思睿嘉得利用無監督機器學習引擎分析大量未經標註的原始文件集,自動按照內容進行主題梳理,並通過人工干預靈活調整語義相似度,獲得滿意的聚類效果,從而實現對資料的精準分級分類。浙江省旅遊資訊中心聯合廈門杜若科技公司開展了浙江省旅遊度假區資訊的資料治理試點,將旅遊大資料納入人工智慧系統,對結構化資料進行開放式訓練,對資料進行分級分類並實現基於自然語言的資料管理。

二是資料質量管理方面,在開展資料質量核查過程中,人工智慧技術與傳統根據預置規則進行核查的方式相結合,可以僅針對少量核心核查規則,利用機器學習演算法進行深度分析,定位資料質量原因、預測資料質量問題,形成知識庫,進一步增強資料質量管理能力。例如,谷歌將人工智慧引入醫療行業,通過重塑醫療資料層級為醫療巨頭提供更高質量的結構化資料,建立新資料管道,助力醫療健康資料基礎設施建設。億信華辰的資料質量管理平臺 EsDataClean,Informatica 的資料治理工具 Data Director 以及 IBM 的通用資料治理產品 Stewardship Center 等均在業界處於領先地位,通過人工智慧技術的使用極大減少了人力投入和過程干預,提升了資料質量管理效率,也為後續的模型訓練提供了更多高質量資料。

3、資料活動安全保護

一是資料本體安全保護方面包括資料脫敏、資料防洩漏、資料加密等。資料脫敏方面,在資料分級分類的基礎上,結合資料合規性規則智慧生成脫敏特徵庫,並與敏感資料識別智慧關聯,實現智慧發現和自動脫敏,有效降低敏感資料洩露風險。亞馬遜的智慧識圖工具Rekognition 可以輔助醫務人員進行醫學影象脫敏。資料防洩漏方面,加州伯克利大學團隊運用人工智慧技術開發了一款手機 APP,能夠自動掃描手機相簿內的裸露照片,改為加設密碼存在該 APP 中,並進一步從相簿與雲空間刪除,徹底防止私密照片外洩。資料加密方面,谷歌大腦成功開發出兩個獨立的人工智慧加密演算法,不但能夠防範第三方破解,而且還能夠自我學習,破解其他人工智慧加密演算法。

二是資料活動網路安全保護方面,基於人工智慧的網路安全防護手段相比傳統基於靜態規則的方法具有持續進化能力。新威脅的產生不斷為訓練集加入新的資料,通過人工智慧演算法和模型調優,可以快速查閱每個可疑檔案數以百萬計的特徵,智慧識別最輕微的程式碼衝突;對內外部網路流量中的後設資料進行關聯分析,實時檢測異常流量;利用龐大的關聯處理能力並行監測海量資料點,實時生成風險預測,發現並阻止裝置或網路攻擊。

惡意程式碼分析方面,中科院軟體所提出基於文字分類技術的惡意程式碼檢測工具“飛鼠”系統,能夠對大量惡意程式碼樣本進行及時、高效和準確檢測,同時也具有一定的泛化能力,能夠檢測一定的未知樣本。大連市公安局提出了基於人工智慧技術的惡意程式碼變種檢測技術,將惡意程式碼對映為影象,提取影象特徵,建立人工智慧模型,利用惡意程式碼家族影象樣本集訓練檢測模型,能夠快速識別惡意程式碼變種及其家族,有效提高了檢測效率和準確率。

邊界安全防護方面,2018 年 11 月,華為釋出業界首款智慧防火牆,內建基於人工智慧的高階威脅檢測引擎,支援加密流量免解密威脅檢測,通過聯動雲端為企業提供智慧化的網路邊界防護,威脅檢出率達到 99%以上。2019 年 4 月,新華三集團釋出人工智慧防火牆業界新品,採用高效能的雙 GPU 加雙 CPU 的人工智慧硬體架構,提供每秒萬億次的運算能力,結合數十種人工智慧演算法的軟體開放平臺,實現全面感知、深度學習和智慧防護,改變了傳統安全運維難、發現慢和響應差的狀況。

入侵威脅監測方面,騰訊安全團隊基於真實執行行為、系統層監控和人工智慧晶片檢測,利用神經網路演算法和演算法模型雲端訓練自主研發了騰訊 TRP-AI 反病毒引擎。該引擎具有抗免殺、高效能、實時防護、可檢測 0Day 病毒等優勢,可自動化訓練,大大縮小了查殺週期和運營成本,可使病毒檢測覆蓋率達到 90%,檢測準確率高達 99%。2017 年,IBM 釋出用於網路安全領域的 “沃森”人工智慧系統,能夠提供雲和端威脅的感知應對能力。

三是資料流轉行為分析,通過自然語言處理、機器學習、聚類演算法對採集的基礎資料進行行為建模,多維度勾勒出使用者行為特徵,形成使用者畫像知識圖譜,實現智慧化使用者行為分析。同樣,通過人工智慧技術也可以對資料傳輸行為進行智慧統計和關聯分析,繪製資料流轉動態圖譜,有利於跟蹤敏感資料走向,分析資料安全態勢。例如,榮之聯推出的智慧商業情報大資料平臺依託人工智慧技術建立使用者行為資料計算模型和情感交換計算模型,通過使用者行為資料流轉分析來預測使用者行為可能性。

四是資料安全風險評估,經過訓練後的神經網路演算法能夠解決具有相似特點的風險評估問題,通過對風險因素的學習,可以自動實現從輸入到輸出的複雜對映關係,對優劣性受多種因素綜合影響的事物作出合理的綜合評價,從而減少傳統專家評估過程中主觀分數的片面性影響。例如思維世紀推出基於人工智慧技術的資料安全評估解決方案,對資料全生命週期中各個環節的資料脫敏狀態、應用通道、使用行為等因素進行智慧關聯分析,得出資料安全風險評估結果,並根據評估結果進一步優化資料安全管理策略。

4、資料安全事件管理

人工智慧技術由於其普適性、自學習、高效性等特點能夠在資料處理環節應對更加複雜的資料結構和資料環境,得出更加嚴謹和穩固的模型和推演結果,完成更自主的資訊捕捉、更智慧的分析判斷和更智慧的服務。在資料安全事件管理中,利用人工智慧技術對網路中的資料進行自動爬取和深度挖掘分析,能夠提高網路中敏感資料、有害資訊的自動發現和識別效率,實現資料安全事件智慧監測和預警。結合使用者行為畫像和資料安全態勢圖譜,人工智慧技術能夠對資料安全事件的源頭進行追溯,從而輔助管理部門採取相應措施實現快速處置,顯著提升資料安全事件的管理水平。

不良資訊治理方面,百度推出的“人工智慧+廣告打假”僅 2018 年上半年處理了 145.4 億條有害資訊,其中佔比居前兩位的是淫穢色情類和賭博類,分別為 51.04%和 16.63%。2019 年阿里巴巴推出“人工智慧謠言粉碎機”,通過分析使用者畫像、與知識圖譜裡的權威知識庫作匹配驗證等步驟實現對新聞內容的智慧可信度識別,在特定場景中的準確率已達到 81%。中國資訊通訊研究院基於所積累的標準樣本庫,開展對淫穢色情、涉恐涉暴等違法資訊識別的建模訓練,初步實現基於人工智慧技術的不良資訊檢測能力,識別準確率在 97%以上,比傳統方式提升了 17%,識別速度是傳統方式的 110 倍。2018 年 2 月,英國內政部宣佈了一項新的智慧內容識別工具,利用人工智慧技術線上自動檢測網際網路平臺上的恐怖分子宣傳內容,精確度達到 99.995%。

網際網路反欺詐方面,我國人工智慧初創企業第四正規化開發的“人工智慧+金融”服務平臺,構建了億級別的高維機器學習模型,能夠高效、精準識別欺詐交易,智慧反洗錢。該平臺在某銀行線上 B2C交易欺詐防控準確率達 83%,較傳統專家規則方式提升 316% ,比專家規則多識別欺詐交易 58.8%,降低 30%的交易案宗稽核成本。阿里自研的“錢盾”反詐預警系統,利用人工智慧技術助力警方預警攔截詐騙事件,9 個月內勸阻 8.7 萬人,止損 6.9 億元。中國資訊通訊研究院使用人工智慧技術多維度分析不同的可疑特徵,有效實現了網際網路詐騙行為的識別和預警,其中涉詐網站識別準確率達到 95%,涉詐賬號識別準確率達到 90%,仿冒 APP 識別準確率達到 92%。

打擊資料黑產方面,騰訊守護者計劃基於長期積累的人工智慧技術能力,引入多維度的動態驗證機制對抗資料黑產。運用人工智慧技術協助警方刑事打掉“快啊答題”、“光速打碼”兩個團伙,這兩個團伙是國內最大的利用人工智慧破解識別驗證碼的打碼黑產團伙。

總之,人工智慧技術已在資料安全治理的細分領域開展諸多應用,但是人工智慧技術並不是萬能的,構建可管、可控、可信的資料安全治理技術支撐體系仍面臨諸多挑戰。歐洲市場研究和諮詢服務公司kbv research 2017 年釋出市場研究預測報告指出,資料安全市場將每年以 18%的複合增長率發展,估計 2023 年將達到 209 億美元;若以在 2023 年達到全球 20%的 GDP 來看,中國市場規模將達到大約 400億元人民幣,未來人工智慧在資料安全治理領域仍存在很大應用潛力。然而,同樣要理性認識到,人工智慧作為一項新興的底層通用技術,並不是為某一項應用特製,因此並不能解決資料安全治理的所有難題。例如在資料運營活動的網路安全防護技術手段方面,人工智慧技術並不適用於某些 APT 攻擊的場景,有些 APT 攻擊針對性強,攻擊行為的成功往往是孤例,不足以支援海量攻擊樣本庫生成,傳統方式在此類場景仍然十分有效。資料安全治理是一個全球性的話題,除人工智慧技術以外,網路環境安全防護能力的升級、資料安全治理政策和規則的制定等都影響資料安全治理的效果和能力。

四、 國內外人工智慧資料安全治理動態

當前,世界主要國家均在人工智慧發展戰略、倫理規範方面提出人工智慧資料安全相關規劃和基本原則,但相關法律法規還不夠細化完善,安全技術研究方興未艾,安全標準也處於制定初步階段,人工智慧資料安全治理工作任重道遠。

(一) 國內外人工智慧資料安全戰略規劃情況

世界主要國家把發展人工智慧作為提升國家競爭力、維護國家安全的重大戰略,加緊出臺規劃和政策,力圖在新一輪國際科技競爭中掌握主導權。在資料安全方面,各國結合本國實際國情和人工智慧發展情況,在相關發展戰略中形成有針對性的規劃建議。

1、美國:推動訓練資料集建設,加強資料安全風險應對

一是推進高質量訓練資料集的建設與開放。2016 年 10 月,美國連續釋出《為人工智慧的未來做好準備》和《國家人工智慧研究和發展戰略規劃》兩份報告,提出實施“人工智慧公開資料”計劃,實現大量政府資料集的公開,增強高質量和完全可追溯的聯邦資料、模型和計算資源的可訪問性,並開發用於人工智慧訓練、測試的公共資料集。2019 年 2 月,美國總統川普簽署《人工智慧倡議》發展規劃,進一步指示加強聯邦政府、機構的資料、演算法和計算機處理資源對人工智慧研發人員和企業的開放。二是加強對資料安全問題的應對。2019 年 6 月,美國發布新版《國家人工智慧研發與發展戰略計劃》,要求所有機構負責人審查各自聯邦資料和模型,注重保護資料安全、隱私和機密性。

2、歐盟:細化人工智慧資料規則,關注個人資料與權益保護

2018 年 3 月,歐洲政治戰略中心釋出《人工智慧時代:確立以人為本的歐洲戰略》,戰略中認識到歐洲人工智慧發展面臨資料短缺和資料偏見等問題,提出擴大人工智慧系統所需資料來源,設計利於歐洲資料收集、使用和共享的監管方案,確保《通用資料保護條例》(GDPR)個人資料保護要求實施的建議。2018 年 4 月,歐盟委員會發布《歐盟人工智慧》發展戰略,建議公共政策應鼓勵更廣泛地分享私人資料,並遵守關於個人資料保護的法律政策。為最大程度地促進資料流轉和分享,歐盟委員會將修訂公共部門資訊開放指令,出臺私營部門資料分享指南,修訂科研資訊獲取和儲存建議,以及出臺醫療健康數字化轉型政策。2018 年 12 月,為落實《歐盟人工智慧戰略》,歐盟釋出《人工智慧協調計劃》,將提供更多資料、確保信任等作為關鍵領域發力,並提出必須遵從《通用資料保護條例》的關鍵原則。

3、英國:強化資料安全監管,規範資料資源開發利用

2016 年 11 月,英國政府科學辦公室釋出《人工智慧:未來決策制定的機遇與影響》。報告指出,為了促進負責任的創新和獲得公眾的信任,同時為投資者和發明者創造一個好的環境以及為科技發展爭取合理的資料使用,英國政府必須採用負責任的態度和積極應對的監管方式。2018 年 4 月,英國政府釋出《產業戰略:人工智慧領域行動》,提出改進現有的資料基礎設施:釋出更高質量的公共資料,設立地理空間委員會以改進對地理空間資料的訪問,為資料共享和使用提供法律保障等。在資料安全方面,提出開發公平、安全的資料共享框架:與公私部門的主要資料持有者及資料科學社群合作,確定資料共享障礙;與業界合作探索安全、公平的資料傳輸框架與機制。

4、日本:構建資料驅動與知識驅動融合型人工智慧,鼓勵協同開展資料安全與隱私保護技術研究

2018 年 4 月,日本釋出第五版《下一代人工智慧和機器人核心技術開發計劃》,進行下一代人工智慧研釋出局。計劃提出,探索構建資料驅動與知識驅動融合型人工智慧,將知識與資料相融合,輔助人類進行推理與決策;開展下一代人工智慧框架與核心模組研究,研究兼顧資料安全與隱私保護的資料獲取技術,探討複雜問題和複雜場景下人工智慧多模組融合效率與效能提升的方法。同時,加大從美國引進人工智慧人才的力度,促進雙方青年共同開展研究,在資料安全、隱私保護等方向培養下一代研究人員。

5、印度:充分挖掘本國人工智慧發展優勢,關注資料安全和隱私保護

2018 年 6 月,印度釋出《人工智慧國家戰略》報告,指出印度人工智慧發展的優勢與問題,特別關注軍事安全與道德隱私領域,並就印度人工智慧國家戰略的構建提出了框架方案。報告認為,印度人工智慧發展的目標在於成為發展中國家的人工智慧中心,基於成熟的軟體行業,印度多元的文化環境將為推進人工智慧發展帶來意想不到的貢獻。關於資料偏差,報告指出資料偏差導致的演算法決策缺乏中立性,建議“識別內建偏差,評估其影響,並找到減少資料偏差的方法”。關於資料保護,報告建議建立資料保護框架和部門監管框架,並促進採用國際標準。關於隱私保護,報告呼籲“採取適當的措施來緩解隱私洩露風險,並強調使用人工智慧情況下采取更高標準的隱私保護的重要性”。

6、我國:高度重視資料集建設,推進人工智慧安全應用,防範人工智慧資料風險

一是高度重視基礎資料集建設,推進資料開放。2016 年,發改委釋出《網際網路+人工智慧三年行動實施方案》提出加快建設文獻、語音、影象、視訊、地圖等多種類資料的海量訓練資源庫和基礎資源服務公共平臺。2017 年 7 月,國務院印發《新一代人工智慧發展規劃》,指出“重點建設面向人工智慧的公共資料資源庫、標準測試資料集、雲服務平臺等”以及“完善落實資料開放與保護相關政策,開展公共資料開放利用改革試點,支援公眾和企業充分挖掘公共資料的商業價值,促進人工智慧應用創新”。2017 年 12 月,工信部發布《促進新一代人工智慧產業發展三年行動計劃(2018-2020 年)》提出“到2020 年人工智慧產業支撐體系基本建立,具備一定規模的高質量標註資料資源庫、標準測試資料集建成並開放”以及“加強行業對接,推動行業合理開放資料”。二是推進人工智慧安全應用。《新一代人工智慧發展規劃》提出,促進人工智慧在公共安全領域的深度應用,推動構建公共安全智慧化監測預警與控制體系。《行動計劃》提出,推動人工智慧先進技術在網路安全領域的深度應用,加快漏洞庫、風險庫、案例集等共享資源建設。三是加強人工智慧資料風險防範。《新一代人工智慧發展規劃》在促進人工智慧發展的同時,關注人工智慧資料安全風險,提出“強化資料安全與隱私保護,為人工智慧研發和廣泛應用提供海量資料支撐”以及“促進人工智慧行業和企業自律,切實加強管理,加大對資料濫用、侵犯個人隱私、違背道德倫理等行為的懲戒力度”。

綜合看,我國人工智慧發展戰略對人工智慧資料安全進行了整體規劃。但是與國外相比,我國在戰略落地實施中存在如下問題:一是在資料集建設過程中,政府和行業資料開放力度不足,缺乏有影響力的公共資料集。二是在資料安全治理實踐中,側重人工智慧在安全領域應用,人工智慧資料安全風險防範的技術研究和手段建設相對滯後。

(二) 國內外人工智慧資料安全倫理規範情況

國外先進國家較早重視人工智慧資料安全倫理原則。在企業層面。谷歌提出的人工智慧“七原則”包含隱私原則:給予通知和同意的機會,鼓勵具有隱私保護的架構,並提供適當的透明度和對資料使用的控制。微軟提出的人工智慧“六原則”包含“隱私與保障”原則:在設計人工智慧時,必須要考慮智慧隱私保護,必須要有先進的、值得信賴的保護措施,確保個人和群體的隱私資訊保安。在行業層面,2017年 1 月,阿西洛馬人工智慧 23 原則形成併發布,霍金、馬斯克等近四千名各界專家簽署支援。關於隱私保護方面,相關原則要求人工智慧系統分析使用資料時,人類應當擁有對其自身產生的資料的訪問、管理以及控制的權利;並且人工智慧基於個人資料的應用不能削減人們真實的或者感知上的自由。在國家和地區聯盟層面。2018 年 4 月,英國議會發布《英國人工智慧發展計劃、能力與志向》,提出了“人工智慧不應用於削弱個人、家庭乃至社群的資料權利或隱私”等 5 項人工智慧基本道德準則。2019 年 4 月,歐盟委員會發布了《可信賴人工智慧倫理指南》,指出人工智慧系統必須確保隱私和資料保護,這既包括使用者提供的資訊,也包括使用者在和系統互動過程中生成的資訊,同時確保收集的資料不會用於非法地或不公平地歧視使用者的行為。

我國近年來加強人工智慧資料安全倫理研究與制定。在企業層面,2019 年 7 月,騰訊、曠視科技等企業相繼釋出人工智慧倫理準則。騰訊人工智慧倫理報告《智慧時代的技術倫理觀——重塑數字社會的信任》指出,人工智慧技術倫理觀包含技術信任、個體幸福和社會可持續三個層面。其中,個體幸福要求確保人人都有追求數字福祉、幸福工作的權利,在人機共生的智慧社會實現個體更自由、智慧、幸福的發展。曠視科技《人工智慧應用準則》明確提出,人工智慧解決方案的開發及使用過程中,需嚴格保護使用者的個人隱私、保障資料安全。在行業層面,2018 年 9 月,《人工智慧安全發展上海倡議》在世界人工智慧大會期間釋出。倡議提出人工智慧發展需要保障使用者的資料安全,不得以犧牲使用者隱私為代價,需要加強資料保護立法,豐富人工智慧的技術路線,不斷強化人工智慧應用中的使用者隱私保護。2019年 5 月,《人工智慧北京共識》釋出,包含“實現人工智慧系統的資料安全”、“避免資料與平臺壟斷”、“建立合理的資料與服務撤銷機制”等內容。2019 年 6 月,中國人工智慧產業發展聯盟釋出《人工智慧行業自律公約(徵求意見稿)》,“保護隱私”原則要求,堅持以合法、正當、必要的原則收集和使用個人資訊,加強對未成年人等特殊資料主體的隱私保護,強化技術手段,確保資料安全。在國家層面,2019 年 6 月,國家新一代人工智慧治理專業委員會發布《新一代人工智慧治理原則——發展負責任的人工智慧》,將“尊重隱私”作為八項原則之一,要求人工智慧發展應尊重和保護個人隱私,充分保障個人的知情權和選擇權;在個人資訊的收集、儲存、處理、使用等各環節應設定邊界,建立規範;完善個人資料授權撤銷機制,反對任何竊取、篡改、洩露和其他非法收集利用個人資訊的行為。

可以看到,伴隨人工智慧技術和應用發展,我國日益重視人工智慧倫理規範研究,國家、行業和企業層面均已形成人工智慧資料安全倫理規範。但是,由於相關倫理原則大多為近期釋出,加之長期以來社會公眾對個人資料保護的意識觀念和重視程度存在較大差異,導致人工智慧資料安全倫理的社會影響力受限,尚未真正形成社會共識。

(三) 國內外人工智慧資料安全法律制定情況

界主要國家的資料管理和隱私保護法案促進人工智慧行業健康發展。一是資料安全要求得到明確細化,指導人工智慧行業合規實踐。2018 年 5 月,歐盟《通用資料保護條例》(GDPR)頒佈,建立了使用者個人資訊訪問、修正和刪除請求相關機制,賦予歐盟使用者控制個人資料的權力,成為各國制定個人資訊保護法案的重要參考。其後印度《2018 年個人資料保護法案(草案)》、巴西《通用資料保護法》、美國《2018 年加州消費者隱私法案》等紛紛效仿《通用資料保護條例》(GDPR),對資料處理者的個人資料的收集和使用行為加以明確規範,促使人工智慧行業進一步規範資料收集和使用行為。二是努力平衡資料權利保護與資料開放流動,促進人工智慧發展。2018 年 11 月,歐盟通過《非個人資料在歐盟境內自由流動框架條例》,致力於為企業和公共部門清除歐盟內部非個人資料自由流動障礙。2018 年 12 月,美國國會通過《開放政府資料法案》,要求聯邦機構必須以“機器可讀”和開放的格式釋出任何“非敏感”的政府資料並使用開放許可協議。三是為人工智慧資料安全監管提供了法律依據。各國個人資訊保護法案對企業違規列出明確處罰規定,可作為行政部門進行人工智慧資料安全監管的有力依據,對相關企業產生威懾效應。2019 年 1 月,法國資料保護機構(CNIL)依據《通用資料保護條例》(GDPR)對谷歌開出 5000 萬歐元罰單。2019 年 7 月,美國聯邦貿易委員會(FTC)對“劍橋分析事件”的 Facebook 處以 50 億美元罰款。四是相關法案通過資料匿名化加強人工智慧資料保護。為了避免個人資料被挖掘和濫用,歐盟《通用資料保護條例》(GDPR)、日本《個人資訊保護法》等通過資料匿名化的方式進行個人資料保護。資料匿名化能夠降低人工智慧資料洩露風險,有利於人工智慧行業健康發展。

我國立足現有法律基礎,加速完善資料安全保護立法。一是我國現行法律涉及人工智慧資料安全相關內容,具備一定法律基礎。在國家法律層面,2009 年,《刑法修正案(七)》首次將特定主體的個人資訊保護義務與責任寫入刑法,規定了出售、非法提供公民個人資訊罪和非法獲取公民個人資訊罪。《刑法修正案(九)》根據打擊個人資訊犯罪的實際需要,將罪名調整為“侵犯公民個人資訊罪”。2012 年,《全國人民代表大會常務委員會關於加強網路資訊保護的決定》明確了網路服務提供者的義務和責任,並賦予政府主管部門必要的監管手段,以保護公民個人資訊保安。2016 年,《網路安全法》增加了最少夠用原則、資訊權利人刪除權、知情權、更正權等新規定,實現了與國際規則和歐美個人資訊保護立法理念接軌。2019 年 1 月,《電子商務法》正式實施,提出個人資訊收集和使用儲存的最小化、將使用者知情強化為使用者明示同意等細化要求。現有法律為人工智慧領域資料安全保護提供了基本依據。在部門規章層面,為落實國家法律法規管理要求,政府部門重點針對個人資訊保護出臺相應管理檔案,保護個人資訊保安和個人資訊主體合法權益。工業和資訊化部《電信和網際網路使用者個人資訊保護規定》進一步明確電信業務經營者、網際網路資訊服務提供者收集、使用個人資訊的規則和資訊保安保障措施。公安部《公安機關網際網路安全監督檢查規定》明確規定了網際網路安全監督檢查過程中的個人資訊保護要求和處罰措施等內容。二是加速推進資料安全保護立法和人工智慧專門立法。我國目前正在多層面推進資料安全和個人資訊保護法律法規等規範制定,加速完善相關保護和監管規則,既包括國家層面的基本立法,如《資料安全法》、《個人資訊保護法》,也包括部委層面的規章和規範性檔案,例如最近公開徵求意見的《資料安全管理辦法》、《個人資訊出境安全評估辦法》等。同時,全國人大常委會表示,已把人工智慧方面立法列入抓緊研究專案,努力為人工智慧的創新發展提供有力的法治保障。

整體來看,我國目前尚未形成體系完善的人工智慧資料安全法律法規,並且,資料安全和個人資訊保護立法相對滯後,相關規定散落在《民法總則》、《網路安全法》、《電子商務法》等法律法規中,亟需針對當前新技術和新業態發展,加速完成資料安全和個人資訊保護的頂層立法,為人工智慧健康發展提供法律支撐。

(四) 國內外人工智慧資料安全技術發展情況

主要國家積極推進人工智慧資料安全技術研究。一是加大人工智慧資料安全相關研究資金投入。2018 年 9 月,美國國防高階研究計劃局(DARPA)投資 20 億美元啟動 AI Next 專案,致力於開發第三代人工智慧技術。其中,包括對抗性人工智慧和高效能人工智慧等。對抗性人工智慧防止輸入異常資料造成的智慧系統執行錯誤;高效能人工智慧可降低演算法對訓練資料的強依賴性。二是加強人工智慧資料安全基礎理論研究。重點研究減少訓練資料量的人工智慧基礎理論方法。遷移學習研究將已訓練好的模型引數進行遷移,來提升新模型訓練效率,使人工智慧系統在不收集大量原始資料的情況下解決新問題,通過減少資料需求量來降低資料安全風險。聯邦學習研究在客戶端利用本地資料進行分散式訓練,從而資料不用上傳至伺服器,在不洩露使用者個人資料的情況下更新人工智慧演算法模型,有效保證資料安全性。谷歌 Gboard 利用聯邦學習,基於分散獨立裝置的資料、詞彙大大提升了推薦準確性。三是積極攻克人工智慧資料安全關鍵技術。重點加強人工智慧資料加密技術研究。差分隱私研究提升人工智慧系統的使用者隱私保護能力,使人工智慧系統資料集包含噪聲,確保特定使用者個人隱私的機密性。蘋果公司將差分隱私技術應用於智慧終端產品,用以保護使用者隱私資訊。同態加密研究使人工智慧系統直接使用加密後的資料訓練模型,且不會影響模型的有效性和可用性。

我國研究機構和企業同步開展人工智慧資料安全技術研究,在部分領域取得較好進展。2018 年 7 月,清華大學創業公司瑞萊智慧成立,研究實現減少標註資料數量、決策可解釋、模型安全可靠相關技術,團隊近年來開發的“珠算(ZhuSuan)”概率程式設計庫,可減少實際場景中需要的標註數量。第四正規化公司作為國內遷移學習實踐領跑者,已將遷移學習演算法應用到公司核心產品“先知”平臺,並在醫療領域實現落地應用。2019 年 6 月,微眾銀行人工智慧團隊開源全球首個工業級的聯邦學習框架 FATE,並將相關成果貢獻給 Linux 基金會,加強了我國在人工智慧資料安全領域的行業地位,加快聯邦學習技術在資料安全方面的落地程式。

由上可見,針對人工智慧資料安全風險,相關技術研究正處於起步階段。美國等西方國家憑藉先發技術優勢,加大研發投入,提升人工智慧安全能力。我國作為數字經濟大國和人工智慧先行國家,需從國家層面加強規劃引領和資金投入,維護資料安全,保障基於信任和安全的資料流動,促進人工智慧資料安全技術研究應用。

(五) 國內外人工智慧資料安全標準規範情況

國際標準化組織積極研究人工智慧資料安全相關標準,ISO/IECJTC1 SC42 WG3 人工智慧可信標準組正在開展人工智慧風險管理、人工智慧的可信度概覽等標準研製。IEEE 標準協會對涉及人工智慧道德規範的倫理標準進行研究,包括 P7002 資料隱私處理、P7004 兒童和學生資料治理標準、P7005 透明僱主資料治理標準與 P7006 個人資料人工智慧代理標準等。IEEE P3652.1 聯邦學習基礎框架與應用工作組已開展聯邦學習的相關標準化工作。區域和國家標準化組織開始重視人工智慧資料安全標準,2019 年 5 月 1 日,美國國家標準與技術研究院(NIST)釋出人工智慧標準化計劃綱要,將人工智慧資料安全與隱私保護相關標準化納入人工智慧可信標準領域。

我國全國資訊保安標準化技術委員會(SAC/TC260)、中國通訊標準化協會(CCSA)等標準化組織積極推進人工智慧資料安全相關標準制定工作。TC260 在生物識別、智慧終端、大資料、個人資訊保護等領域開展了資料安全相關標準化工作。在生物識別領域,開展了《資訊保安技術 指紋識別系統技術要求》與《資訊保安技術 虹膜識別系統技術要求》標準研製,對生物識別系統的資料保護能力提出要求;在移動智慧終端領域,開展了《資訊保安技術 移動智慧終端個人資訊保護技術要求》標準研製,對移動智慧終端中的個人資訊與資料保護能力提出要求;在大資料領域,開展了《資訊保安技術 大資料服務安全能力要求》標準研製,對人工智慧相關的大資料安全能力提出要求。在個人資訊保護領域,開展了《資訊保安技術 個人資訊保安規範》標準研製,明確了個人資訊的收集、儲存、使用、共享的合規要求,為人工智慧行業資料安全和隱私保護提供重要參考。在人工智慧安全領域,中國電子技術標準化研究院牽頭開展人工智慧安全標準框架研究以及《資訊保安技術 人工智慧演算法安全指南》標準研製,將人工智慧資料安全列為重要研究內容。CCSA 在生物識別、人工智慧終端、人工智慧服務平臺、資料安全保護等領域開展了資料安全相關標準化工作。在人工智慧終端領域,開展《人工智慧終端產品 個人資訊保護要求和評估方法》與《人工智慧終端裝置安全環境技術要求》標準研製,對人工智慧終端的個人資訊保護與終端裝置環境的安全能力提出要求。在人工智慧服務平臺領域,開展《人工智慧服務平臺資料安全要求》標準研製,對人工智慧服務端的資料安全管理與評估提出要求。在資料安全保護領域,成立資料安全特設組,整合資源對資料分級分類、資料安全合規性要求等重要標準進行研究制定。

目前,國內外人工智慧資料安全以及隱私保護標準大都處於制定階段,我國在《資料安全法》和《個人資訊保護法》尚未出臺的情況下,相關標準起到了行業指引作用,得到業界重視。但是,人工智慧安全標準體系尚未形成,人工智慧資料安全收集、使用和共享等關鍵技術標準尚未形成,亟需構建人工智慧資料安全標準體系和發展規劃,並加快制定實施。

五、 人工智慧資料安全治理建議

當前,人工智慧處於技術發展和應用普及快速迭代時期,人工智慧資料安全風險不斷凸顯,安全應用逐步深化,問題挑戰與發展機遇相伴而生。我國作為數字經濟大國和人工智慧先行國家,需堅持發展與安全並重的治理思路,以倫理規範為引導,以法律法規為底線,以安全監管為約束,大力推進標準建設、技術發展和人才培養等工作,全面提升我國人工智慧資料安全的綜合治理能力,有效保障我國數字經濟和智慧社會的健康穩步發展,維護人民利益和國家安全,確保人工智慧資料安全、可靠、可控。

(一) 明晰發展與安全並舉的治理思路

一是推進人工智慧資料資源建設,在發展中解決安全問題。建立健全適合我國國情的資料流通共享機制,推動政府和行業資料開放,培育規範資料交易市場,鼓勵不同市場主體安全的進行資料交換,構建支撐我國人工智慧產業發展的優質資料資源,在發展中規避資料偏見、資料權屬等人工智慧資料安全問題。二是加強人工智慧資料安全治理能力,以安全促進發展。基於人工智慧資料安全風險研究,依託現有資料安全管理機制和技術手段,加大人工智慧應用場景下資料安全防護技術研究,同時,促進人工智慧技術在資料安全治理與網路攻防對抗等領域中的應用,實現人工智慧資料安全風險的提前感知和預防,規避訓練資料汙染、資料智慧竊取等資料安全風險,促進人工智慧安全發展。

(二) 引導社會遵循人工智慧倫理規範

一是加強人工智慧倫理原則的社會宣貫。針對我國人工智慧治理機構、行業和企業釋出的人工智慧倫理原則,加強社會宣傳教育,加大社會影響範圍,真正形成社會共識,使其成為人工智慧參與方在設計、研發、使用、治理過程中的潛在道德觀念,提升人工智慧使用者人群特別是青少年的個人資料和權益保護意識,降低人工智慧發展過程中可能存在的資料安全倫理風險。二是積極參與國際人工智慧倫理規範制定。通過聯合國、G20、亞太經合組織、上合組織等國際平臺,積極開展國際對話與合作,在充分尊重各國人工智慧治理原則和實踐的前提下,貢獻我國人工智慧資料安全治理思路,推動形成具有廣泛共識的國際人工智慧資料安全倫理規範。

(三) 建立人工智慧資料安全法律法規

一是推進人工智慧和資料安全相關立法工作。在國家層面,推進《資料安全法》、《個人資訊保護法》以及人工智慧相關法律出臺,明確人工智慧資料安全法律原則,確立不同參與主體在人工智慧生命周人工智慧資料安全白皮書(2019 年) 中國資訊通訊研究院38期各階段所享有的資料權利與承擔的安全責任,設立人工智慧資料安全問責制和救濟制度,並對人工智慧相關資料過度採集、偏見歧視、資源濫用、深度偽造等突出問題進行規制,為人工智慧資料安全管理提供基本法律依據。二是完善人工智慧資料安全相關部門規章。依據國家相關法律,結合人工智慧在不同領域應用中的特點,針對各領域關鍵突出人工智慧資料安全風險,制定和細化相關部門規章,提出對所屬領域的人工智慧演算法設計、產品開發和成果應用等過程中資料安全要求。三是開展人工智慧資料安全執法。加強對人工智慧資料收集、使用、共享等高風險環節安全執法,特別是對資料過度採集、資料資源濫用、侵犯個人隱私、違背道德倫理等行為加大執法懲戒力度,創新和規範人工智慧資料安全事件調查取證方法和程式,促進人工智慧資料安全法律和規章有效落地執行。積累執法經驗並總結不足,形成反饋機制持續完善相關法律和部門規章。

(四) 完善人工智慧資料安全監管措施

一是開展人工智慧資料安全監督懲戒。依照國家法律法規,政府部門針對資料過度採集、資料偏見歧視、資料資源濫用等人工智慧資料安全風險,通過線上線下多種方式實施監督檢查,及時發現和防範安全隱患。針對基於人工智慧的網路攻擊、深度偽造等嚴重不良行為,利用技術手段監測和社會公眾監督等方式,及早發現,降低危害,加強懲戒。二是開展人工智慧資料安全檢測評估。依託行業組織或者第三方機構,構建人工智慧資料安全檢測評估平臺,制定人工智慧產品、應用和服務的資料安全檢測評估方法和指標體系,研發安全檢測評估人工智慧資料安全白皮書(2019 年) 中國資訊通訊研究院39工具集,通過測試驗證提升人工智慧產品安全性和成熟度,降低人工智慧資料安全風險。通過檢測評估強化企業的資料安全與隱私保護,為人工智慧研發和廣泛應用提供海量資料支撐。

(五) 健全人工智慧資料安全標準體系

一是完善我國人工智慧資料安全標準體系,加快急需重點標準研製。在我國人工智慧安全標準框架下,加快研製人工智慧資料安全標準體系,制定人工智慧資料安全標準推進計劃。重點加快推進人工智慧資料安全評估、人工智慧平臺資料安全保護、自動駕駛使用者隱私保護等行業急需重點標準研製工作。二是優化我國人工智慧資料安全標準化組織建設。推動國家資訊保安標準化技術委員會、中國通訊標準化協會等國家及行業標準化組織成立人工智慧安全研究組,促進國家、行業和團體標準化組織聯合有序推進人工智慧資料安全標準出臺。三是加強國際人工智慧資料安全標準化工作。組織國內企業、科研院所等多方力量加強研究儲備,在IEEE、ISO/IEC、ITU等國際標準化組織中聯合發聲,提出更多人工智慧資料安全相關提案,貢獻更多中國力量和方案,實質性參與和主導人工智慧資料安全相關國際標準工作。

(六) 創新人工智慧資料安全技術手段

一是加強人工智慧資料安全保護基礎理論研究和技術研發。利用國家專項和社會基金引導產學研各界聯合開展人工智慧資料安全風險產生機理和防禦理論的研究,並突破小樣本學習、聯邦學習、差分隱私等人工智慧資料安全保護核心關鍵技術。二是建設完善我國人工智慧開源學習框架,提供保障資料安全的人工智慧基礎研發平臺。鼓人工智慧資料安全白皮書(2019 年) 中國資訊通訊研究院40勵企業建設完善人工智慧開源學習框架,增強框架內建資料安全設計和技術措施。並且通過我國市場優勢,加快培育自有人工智慧開源平臺共享應用生態圈和產業鏈。三是促進人工智慧在資料安全領域中的應用。鼓勵人工智慧企業和資料安全企業充分發揮各自優勢,通過成立聯合實驗室、共同投資等多種方式,開展人工智慧技術在資料安全治理領域的應用研究和產品技術研發。

(七) 培養複合人工智慧資料安全人才

一是完善學校人工智慧資料安全教育。鼓勵高校儘快形成人工智慧與網路資訊保安交叉學科的人才培養模式,組建和壯大人工智慧安全師資隊伍,促進國內外人工智慧安全學生和教師共同開展研究,擴大人工智慧資料安全人才培養規模、提高人工智慧資料安全人才培養質量。二是加大企業人工智慧資料安全人才培養。鼓勵企業內部創辦培訓機構,或與科研機構、高校等建立聯合人工智慧資料安全培訓基地,加強企業人員人工智慧資料安全管理和技術能力培訓。三是加強國外人工智慧資料安全人才引進。制定人才政策引進專項人才,支援高校或企業引進世界一流人工智慧資料安全領軍人才;鼓勵企業通過資本運作等方式吸納掌握核心技術的人工智慧資料安全團隊。

致 謝

本白皮書在撰寫過程中得到了中國資訊通訊研究院政策與經濟研究所、泰爾終端實驗室以及深圳市騰訊計算機系統有限公司、阿里巴巴(中國)有限公司、北京位元組跳動科技有限公司、網易(杭州)網路有限公司等單位的大力支援,特此感謝!

報告原文連結
報告PDF版下載連結

相關文章