IJCAI 2020 | 港科大、微眾銀行:推薦系統中的隱私威脅與對策

特邀精选發表於2020-07-20

本文介紹的是由微眾銀行聯合香港科技大學研究員高大山、譚奔、鞠策、鄭文琛和楊強教授共同完成,被國際人工智慧頂會IJCAI 2020下設聯邦學習專項研討會(FL-IJCAI’20)錄用的論文《Privacy Threats Against Federated Matrix Factorization》。該論文提供了推薦系統領域一類最常用演算法的聯邦化方案,為聯邦推薦系統落地提供快速便捷的技術路徑。

全文地址:https://arxiv.org/abs/2007.01587

推薦系統廣泛應用於眾多日常生活場景中。從電商購物、線上影片到新聞流,推薦系統已然成為智慧時代的關鍵技術。隱私保護問題隨著推薦系統對個人資料需求的增加而變得愈發重要。聯邦學習作為一種解決隱私問題的重要技術,透過在各個參與方本地訓練模型並交換引數,來實現在隱私資料不出本地的前提下,多方合作構建推薦系統。但是簡單的引數傳遞仍然存在隱私洩漏的風險。微眾銀行AI營銷團隊聯合香港科技大學研究了不同聯邦推薦場景下推薦系統中的潛在隱私風險,並提供瞭解決方案。

推薦系統的資料孤島困境

推薦系統技術在商業社會中為國內和國際眾多科技巨頭騰訊,Google等公司帶來海量的營收。在電商購物與短影片推送等眾多業務場景中,推薦系統根據收集到的使用者資料為不同使用者推送個性化的內容,已然成為智慧時代的關鍵技術。 

傳統上,為了訓練高效能的推薦系統,一家公司需要收集足夠多的使用者資料。然而,由於“使用者-商品”互動的稀疏特點,單個公司很難收集到足夠的資料來訓練滿意的推薦模型。近年來頒佈的GDPR(通用資料保護條例)和CCPA(加州消費者隱私法案)等資料安全法律法規又嚴格限制了公司間的使用者資料共享,使得公司間共享使用者資料充滿風險,阻礙推薦系統的發展。

聯邦學習作為一種新的機器學習正規化,使得不同參與方可以在不洩露隱私資料的前提下協作構建一個智慧系統。同時解決了隱私保護與資料稀缺問題。儘管聯邦推薦技術可以透過參與方之間交換引數的方式避免原始訓練資料洩露和傳輸,但訓練聯邦模型過程中交換的引數依然可能洩露參與方的隱私資料。微眾銀行AI營銷團隊聯合香港科技大學深入研究推薦系統中,建立聯合模型時,面對交換明文引數的潛在隱私風險,針對性地使用加密技術避免隱私洩漏。特別的,以矩陣分解推薦演算法為例,在不同的推薦場景下,展示了一個誠實但好奇的參與方如何在明文引數交換過程中竊取使用者的隱私評分資料,並討論了幾種隱私保護技術以抵禦隱私洩露風險。

明文聯邦矩陣分解為什麼洩露隱私?

我們假設有A,B兩個參與方進行聯邦推薦建模。資料分佈有以下兩種情況。

橫向聯邦矩陣分解

IJCAI 2020 | 港科大、微眾銀行:推薦系統中的隱私威脅與對策圖1.橫向聯邦矩陣分解資料分佈場景

兩個參與方持有相同的“使用者-商品”互動矩陣,每個參與方有互動矩陣的一部分觀測值。參與方希望透過聯邦學習將所有觀測到的使用者行為(如評分)用於訓練一個聯邦推薦模型。當使用{使用者, 商品, 行為}表示一條記錄時,每個參與方持有所有使用者與商品的特徵矩陣。參與方在本地完成引數梯度計算與模型更新。僅在模型整合過程中計算A、B特徵矩陣的平均值。

IJCAI 2020 | 港科大、微眾銀行:推薦系統中的隱私威脅與對策圖2. 橫向聯邦矩陣分解訓練過程好奇的參與方可以根據模型聚合前後的梯度變化解算出另一方更新的模型梯度。由於“使用者-商品”互動矩陣的稀疏性,對於一次梯度更新,模型的每一個梯度往往來自一個商品或使用者。因此,根據解算出的梯度資訊,好奇的參與方可以容易地透過比對商品特徵矩陣與使用者特徵矩陣的梯度來推測出另一方用於模型訓練的{使用者,商品}對。在推測出對方的“使用者-商品”互動資訊後,好奇的參與方可以容易地計算出對方訓練資料的使用者行為資料。

IJCAI 2020 | 港科大、微眾銀行:推薦系統中的隱私威脅與對策圖3. 橫向聯邦矩陣分解隱私威脅自此,好奇的參與方可以僅透過分析本地模型與更新後的全域性模型,就獲取另一個參與方的模型資料,和用於訓練的“使用者-商品”原始資料。另一方的模型隱私與資料隱私遭都到了嚴重的洩露。

縱向聯邦矩陣分解

在縱向聯邦推薦中,推薦方A持有“使用者-商品”互動矩陣,輔助資料提供方B持有使用者或商品的輔助資訊,例如使用者生日、性別、行為等,商品的價格、分類等。當參與方B持有使用者輔助資料的時候,在進行聯邦學習前,兩個參與方需要根據使用者ID進行樣本對齊。IJCAI 2020 | 港科大、微眾銀行:推薦系統中的隱私威脅與對策圖4. 縱向聯邦矩陣分解資料分佈場景為了訓練縱向聯邦推薦模型,輔助資料提供方B需要在本地計算使用者中間特徵,併傳送給推薦方A。而推薦方A不需要向B傳送任何資料或引數。因此,推薦方A沒有隱私洩漏風險,而輔助資料提供方B把每個使用者的中間特徵洩露給A。同時,在此縱向聯邦場景下,由於樣本對齊的需要,使用者對齊過程中的共有使用者ID洩露造成了新的隱私威脅。

IJCAI 2020 | 港科大、微眾銀行:推薦系統中的隱私威脅與對策圖5. 縱向聯邦矩陣分解訓練過程及隱私威脅聯邦矩陣分解中的隱私保護對策

既然明文形式聯邦矩陣分解技術會帶來潛在的參與方模型與訓練資料洩露風險,我們應當如何防範潛在的隱私攻擊呢?

對於橫向聯邦矩陣分解,由於聯邦模型聚合前後的梯度資訊會洩露參與方的訓練資料,因此我們要確保每輪更新後的全域性模型一直處於加密狀態。

對於縱向聯邦矩陣分解,只有輔助資料提供者向推薦方傳送中間特徵結果。為了保護輔助資料提供者的隱私,我們對傳送的中間結果加以保護。

目前主要有三種隱私保護技術可以解決聯邦矩陣分解中隱私洩露的問題:密碼學方法、混淆方法和基於硬體的方法。

密碼學方法一般使用同態加密(homomorphic encryption,HE)和多方安全計算(secure multiparty computation,MPC)技術來保護中間傳輸引數。使用密碼學方法的橫向聯邦矩陣分解每一輪更新後的全域性模型以及本地模型都始終處於加密狀態。在縱向聯邦中,輔助資料提供者傳送的使用者中間特徵被加密。IJCAI 2020 | 港科大、微眾銀行:推薦系統中的隱私威脅與對策圖6. 基於同態加密的聯邦矩陣分解混淆方法使用諸如差分隱私(differential privacy,DP)等技術對更新的引數新增噪聲,以防好奇的參與方推測訓練資料。然而對於聯邦矩陣分解,由於“使用者-商品”互動矩陣的稀疏性,加入可以有效保護隱私的噪聲往往會使得模型變得不可用。IJCAI 2020 | 港科大、微眾銀行:推薦系統中的隱私威脅與對策圖7. 基於差分隱私的聯邦矩陣分解基於硬體的方法利用可信執行環境(trusted execution environment,TEE)來在一個隔離的安全環境中執行聯邦學習。所有引數在不可以被直接訪問的可信計算環境中完成更新。相比於密碼學方法,基於硬體的TEE無法給出安全證明,一旦發生漏洞,將難以透過軟體修補。同時TEE依賴於參與方都信任的中心化的遠端硬體認證服務,如果該認證服務被攻擊,那基於TEE隱私保護方案對程式執行過程中的抗篡改性也無法保證。

IJCAI 2020 | 港科大、微眾銀行:推薦系統中的隱私威脅與對策圖8. 基於可信執行環境的聯邦矩陣分解總結

推薦系統中的隱私保護問題隨著推薦系統對個人資料需求的增加而變得愈發重要。聯邦學習作為一種解決隱私問題的重要技術,可以實現隱私資料不出本地的前提下多方合作構建推薦系統。微眾銀行AI團隊聯合香港科技大學研究了交換明文引數進行聯合建模的潛在隱私風險。針對每一種場景,我們展示了一個誠實但好奇的參與方如何在引數交換過程中竊取其他參與方的模型以及使用者的隱私評分資料,討論瞭如何使用同態加密、多方安全技術、可信執行環境等隱私保護技術來建立聯邦推薦模型並規避隱私風險。

本文所探討的問題皆來自於微眾銀行AI營銷業務實踐,基於聯邦學習技術,微眾銀行AI營銷團隊首創了以聯邦廣告、聯邦推薦等核心技術和平臺為特色的高效安全的金融營銷解決方案,覆蓋營銷全鏈路,有效解決金融行業資料安全與營銷效率難題,同時開源開放技術能力,連線行業夥伴。

文中提到的技術細節可以參考我們放在ArXiv的文章https://arxiv.org/abs/2007.01587

工程實現細節可在我們的開源演算法庫FedRec(https://github.com/FederatedAI/FedRec)中找到。

相關文章