大資料及人工智慧飛速發展的今天,法律法規和信任問題嚴重阻礙了企業之間的資料流通,資料孤島問題像一隻無形的手擋在了企業之間,因為缺乏有價值的資料合作,各行業使用者獲取成本居高不下。為了滿足企業間資料安全共享、釋放資料價值,助力業務創新,騰訊“神盾-聯邦計算”平臺應運而生!
面向資料安全與隱私保護的多方計算技術研究最早可追溯到上世紀70年代,而新興的聯邦學習概念在國內從2019年開始蓬勃發展。
“神盾-聯邦計算”平臺的成型也正是這個時期,經過2-3個月系統評測、安全演算法評測及現場答辯,2019年12月“神盾-聯邦計算”代表騰訊獲得了信通院頒發的基於多方安全計算的資料流通產品證書,全國首批獲得該證書的團隊只有5家。目前神盾正在主導信通院聯邦學習標準制定。
騰訊“神盾-聯邦計算”平臺應運而生
大資料及人工智慧飛速發展的今天,法律法規和信任問題嚴重阻礙了企業之間的資料流通,資料孤島問題像一隻無形的手擋在了企業之間,因為缺乏有價值的資料合作,各行業使用者獲取成本居高不下,銀行信用卡不良使用者佔比全面上升,金融信貸稽核成本陡增,AI發展也遭遇前所未有的瓶頸,為了讓這些企業在合法合規、安全、高效無損的基礎上進行資料合作,騰訊“神盾-聯邦計算”平臺應運而生!
這是一個主要基於聯邦學習、多方安全計算(MPC)、區塊鏈、可信計算等安全技術的分散式計算平臺,產品針對機器學習演算法進行定製化的隱私保護改造,保證資料不出本地即可完成聯合建模,最大化各個合作企業的資料價值:
根據合作雙方的實際場景需求,其上層可以覆蓋風控、營銷、推薦、AI等主流業務,同時“神盾-聯邦計算”也將扮演業務與資料之間橋樑的角色,撮合有資料需求的業務方和有價值變現的資料方之間展開合作。
產品首先在聯合建模的資料格式規範、安全求交、特徵工程、演算法引數除錯等細節進行了細緻的打磨,然後在處於聯邦底層核心地位的資料安全與隱私保護技術相關領域做了深入的基礎研究,取得了多項突破性的成就,處於行業領先地位。
這其中包含非對稱聯邦概念的首創及落地、安全資訊檢索方案的首創及落地 ,涵蓋同態加密、不經意傳輸、隱私集合求交在內的多項MPC技術的創新及應用、主流聯邦學習協議的效率優化、精度提升及可信中間方的剝離改造、單向聯邦網路策略的推進等,下面將簡要介紹其中幾項重要突破。
首創非對稱聯邦學習框架
在縱向聯邦學習的標準流程中,兩個跨特徵的參與方需要執行以下兩個操作:
1. ID對齊
主要依託隱私求交 [2,3] (Private Set Intersection, PSI) 技術 ,在各參與方處輸出所有輸入的樣本ID集合的交集。
2. 加密模型訓練
各參與方以前文提到的輸出交集為基礎,計算、通訊基於原始資料集計算的加密中間變數。
在前沿的聯邦學習圈,大量的研究工作投入到加密模型訓練中,包括新聯邦協議的設計[4]、聯邦通訊機制的優化[5, 6]、聯邦激勵系統的設計[7],卻鮮有對 ID對齊的系統性研究。
實際的縱向聯邦學習的場景中,我們發現,往往其中一方的ID集合較少,並且具有較強的業務屬性,是ID擁有方希望保護的資訊。但是ID較少的參與方卻不得不在ID對齊操作中暴露出這些ID,顯得較為“弱勢”。
例如,聯盟中的信貸公司為了實現風控預測,需要將其客戶的違約記錄輸入聯邦學習系統中,而每一條這種違約記錄的獲取都是該類公司以鉅額的經濟損失作為交換,屬於最高等級的商業機密。
為了解決這個問題,將ID、特徵、標籤三要素的全方位隱私保護放在產品第一要位,徹底解除高敏感領域的資料安全擔憂,我們在聯邦學習領域首創非對稱聯邦學習概念,首度發明Asymmetrical-PSI、Genuine-with-Dummy等技術,支撐起一條完整的非對稱加密實體對齊 + 非對稱加密特徵工程 + 非對稱加密模型訓練聯邦學習資料鏈路。我們將在FL-IJCAI20國際會議上展示部分相關工作[8]。
首創面向聯邦成果分享的安全資訊檢索技術
非對稱聯邦解決了訓練過程中樣本ID洩漏的問題,但在生產線上查詢環節依然會因查詢行為洩漏使用者清單。若通過返回全量預測分數來保護查詢方使用者清單,則不便於按量計費,商業上存在障礙。
神盾聯邦計算平臺深度結合業務場景和需求,首創面向聯邦成果分享的安全資訊檢索技術,解決聯邦學習應用的重要隱私性問題,做到樣本預處理-資料探勘-聯邦推理-聯邦成果安全分享的完整、新型安全資訊流。安全資訊檢索技術解決了聯邦學習工程實踐中的多方成果共享問題,填補聯邦學習系統執行的最後一塊短板。
安全資訊檢索協議基於Pohlig-Hellman交換加密技術和MPC中的不經意傳輸 (Oblivious Transfer) 技術,強有力保障聯邦成果傳送方精準分享目標客戶群推理結果,全方位保護聯邦成果接收方的目標客戶群隱私。神盾聯邦計算平臺已憑藉該項成果遞交多項國家專利申請。
首創具語義安全性高效能同態加密技術
初次使用聯邦學習系統的使用者可以明顯感知到,聯邦學習與Spark MLlib, Tensorflow等面向擴充套件性的傳統分散式機器學習框架的效能差異,從而對如此“低效”的聯邦服務產生一些疑惑。
神盾聯邦計算平臺從聯邦學習的核心隱私保護技術——同態加密入手優化聯邦服務的效能,首創了具有語義安全性的高效能同態加密技術。在單元測試中,我們的成果計算效率相比現有的同態加密提升千倍以上;整個模型的訓練耗時也可以節省87%以上。
同態加密是當前工業界廣為應用的若干聯邦協議中最為通用和便攜的安全多方計算技術之一,它能夠在保護隱私的前提下,輕易解耦資料提供方角色和計算方角色,完美契合聯邦學習的面向隱私保護的分散式計算本質。
同態加密的研究吸引了廣泛學者,大量的工作投入到支援運算層數深、運算型別多、安全等級高的各類同態密碼研究中[9-11]。然而,受限於現代計算機處理器的效能和實際業務場景的高時效、低時延要求,即使大幅提升伺服器配置的前提下,許多完備卻複雜的同態密碼並不能在令人滿意的時間內、在足夠大的資料集上、完成足夠多輪的聯邦建模訓練,這是使用者感知聯邦學習與傳統分散式建模系統效能差異較大的核心因素。
為了通過改進底層同態加密的方式提速聯邦學習,我們借鑑了經典的對稱密碼Affine Cipher的群運算型別和非對稱密碼ElGamal的多元組密文混淆思想,全球首創隨機化迭代型仿射密碼 (Randomized Iterative Affine Cipher, RIAC)。我們的成果RIAC在保留了經典同態密碼的運算次數隱蔽性和語義安全性的前提下,大幅提升同態運算效率,處於國內相關技術的領先梯隊。神盾聯邦計算平臺已憑藉該項成果遞交多項國家專利申請。
首創地位對等的分散式安全聚合技術
在一個聯邦學習系統中,資料隱私的保護依賴於其內部的各種安全子協議,例如對加法、乘法、聚合等操作的聯邦子協議[13, 14]。其中,聚合技術能夠在保護各參與方資料隱私的前提下,完成對分佈在各方的模型更新所需引數(如梯度、殘差等)、模型估計(如權重)和模型預測值等中間變數的中心化。
安全求和 (Secure Summation) 協議是聚合協議最為直觀的實現之一,也是眾多安全聚合技術的基準測試方案之一。
目前在學業界廣泛流行的安全求和實現方案包括高效安全求和協議[15]、同態加密[10, 11]、祕密分享[16]、面向隱私保護的共識協議[17, 18]等,但在聯邦協議的應用中,這些已有協議存在各種問題,包括共謀的威脅[15]、計算複雜較高[10,11,18]、精度損失[17]、完全去中心化 (full decentralization) 問題[10, 11]、動態環境問題[19]等。
遺憾的是,幾乎沒有求和協議針對聯邦學習的這類要求做深入研究。我們首創面向隱私保護的演化式求和協議[12],以完全去中心化的結構,於無限時間內,在參與方裝置頻繁登入、登出的動態環境中,執行安全性好、準確率高、恢復力強的安全求和服務,作為聯邦學習系統中的可靠子程式,適用於聯邦學習協議中的各類安全聚合需求。在2020年4月,我們的該項成果發表在IEEE Intelligent Systems期刊上。
首創單向聯邦網路策略
市面主流聯邦學習產品及開源框架,均需要建模雙方的網路雙向互通,但這在銀行等資料安全極度敏感的行業會引來網路安全擔憂,如果開放了外界訪問銀行內部網路的入口,黑客就有可能通過掃描開放埠,偽造資料包來源IP等手段發起惡意攻擊。
因此,如果能夠只開放出口許可權而不開放入口許可權,則能讓資料和網路環境的安全性大大增強。基於此特性,銀行、互金等敏感行業可以通過動態出口IP,動態埠對映等手段讓黑客無從下手,保護網路及資料安全。同時,也讓資料合作容易通過合規審查,合作更容易開展。
騰訊“神盾-聯邦計算”平臺首創聯邦單向網路架構,合作雙方中對安全更為敏感的一方可以使用單向模式,即只開放網路出口許可權而不開放入口許可權。神盾提供的單向聯通架構經測試,對執行效果和效能無任何影響,同時能夠大大提高資料安全性。
騰訊神盾攜手PowerFL、FATE
PowerFL是騰訊TEG出品的無需可信第三方的聯邦學習平臺,在開源的智慧學習平臺Angel之上構建,其中包括但不僅限於縱向聯邦學習的系統框架和各類演算法,神盾和PowerFL是騰訊“聯邦學習”開源協同Oteam的合作伙伴,一開始就在在基礎框架、聯邦演算法、應用研究等不同方向進行合作研究。
作為聯邦學習全球首個工業級開源專案,FATE在同一時期也很快就進入神盾團隊的視野,經過大半年在聯邦技術和應用上的合作探討,雙方在2019年9月成立聯合專案組,基於聯邦學習進行了一系列的產品共同研發和迭代優化,在技術研究及行業應用標準方面雙方也開展了深度合作,使得隱私保護下的資料合作不再困難。
基於同PowerFL、FATE的共同研究,神盾重新設計基於聯邦學習、MPC及區塊鏈等技術的聯邦產品架構並沉下心來打磨細節。在現在的騰訊“神盾-聯邦計算”上,一個略懂演算法的新手使用者不需要編寫任何指令碼,也可以通過簡單設定輕鬆完成整個聯邦建模過程。
除此之外,前文提到的眾多神盾高價值工作還同時貢獻到FATE開源社群,團隊核心成員也在2019年成為FATE開源社群首位一級貢獻者。
騰訊神盾引入重量級資料合作伙伴TalkingData
神盾首先承載了一個聯邦計算平臺的使命,它能滿足有資料合作需求的企業之間安全地完成聯合建模,但是大家都知道有價值的資料才是這一切的關鍵,銀行有優質使用者樣本及資金流資料特徵,遊戲發行商有優質玩家的樣本,線上教育機構有分類教育使用者樣本及特徵,網際網路巨頭有巨量使用者行為特徵,怎樣撮合這些企業進行有價值的資料合作成了神盾的又一個使命。
簡單來說就是在神盾這個平臺上任何資料需求方都能快速地找到高價值的合作伙伴,而任何進行資料合作的企業都能通過神盾-聯邦計算平臺完成安全的資料合作。
TalkingData是中國領先的資料智慧服務商,產品負責人閆輝跟騰訊大資料團隊有不解的淵源,在精準營銷、EMR、ES、統計分析、BI精細化運營、企業畫像等多個產品上都有深入的探討和合作,當然聯邦學習這個大資料前沿領域也不例外。
雙方一致認同聯邦學習的價值,於2020年初達成戰略合作伙伴關係,TalkingData願和騰訊“神盾-聯邦計算”一起為客戶提供豐富、安全、多維度的聯邦資料服務。
這些都只是一個開始,騰訊“神盾-聯邦計算”團隊任重道遠,在其願景“讓企業之間的資料合作不再困難!”上還有很遠的路要走,但為了給各行各業帶來更好的資料合作環境、為了給企業帶來更高的市場增長空間、為了給使用者更好的服務,團隊將不畏艱險勇往直前。
參考文獻:
[1] Yang, Qiang, et al. "Federated machine learning: Concept and applications." ACM Transactions on Intelligent Systems and Technology (TIST) 10.2 (2019): 1-19.
[2] Pohlig, Stephen, and Martin Hellman. "An improved algorithm for computing logarithms over GF (p) and its cryptographic significance (Corresp.)." IEEE Transactions on Information Theory 24.1 (1978): 106-110.
[3] De Cristofaro, Emiliano, and Gene Tsudik. "Practical private set intersection protocols with linear complexity." International Conference on Financial Cryptography and Data Security. Springer, Berlin, Heidelberg, 2010.
[4] Cheng, Kewei, et al. "Secureboost: A lossless federated learning framework." arXiv preprint arXiv:1901.08755 (2019).
[5] Liu, Yang, et al. "A Communication Efficient Vertical Federated Learning Framework." arXiv preprint arXiv:1912.11187 (2019).
[6] Zhuo, Hankz Hankui, et al. "Federated reinforcement learning." arXiv preprint arXiv:1901.08277 (2019).
[7] Wang, Tengyun, et al. "A revenue-maximizing bidding strategy for demand-side platforms." IEEE Access 7 (2019): 68692-68706.
[8] Liu, Yang, Xiong Zhang, and Libin Wang. "Asymmetrically Vertical Federated Learning." arXiv preprint arXiv:2004.07427(2020).
[9] Rivest, Ronald L., Len Adleman, and Michael L. Dertouzos. "On data banks and privacy homomorphisms." Foundations of secure computation 4.11 (1978): 169-180.
[10] Paillier, Pascal. "Public-key cryptosystems based on composite degree residuosity classes." International conference on the theory and applications of cryptographic techniques. Springer, Berlin, Heidelberg, 1999.
[11] Gentry, Craig. "Fully homomorphic encryption using ideal lattices." Proceedings of the forty-first annual ACM symposium on Theory of computing. 2009.
[12] Liu, Yang, et al. "Distributed Privacy Preserving Iterative Summation Protocols." arXiv preprint arXiv:2004.06348(2020).
[13] Bonawitz, Keith, et al. "Practical secure aggregation for privacy-preserving machine learning." Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security. 2017.
[14] McMahan, H. Brendan, et al. "Federated learning of deep networks using model averaging." (2016).
[15] Clifton, Chris, et al. "Tools for privacy preserving distributed data mining." ACM Sigkdd Explorations Newsletter 4.2 (2002): 28-34.
[16] Damgård, Ivan, et al. "Multiparty computation from somewhat homomorphic encryption." Annual Cryptology Conference. Springer, Berlin, Heidelberg, 2012.
[17] Mo, Yilin, and Richard M. Murray. "Privacy preserving average consensus." IEEE Transactions on Automatic Control 62.2 (2016): 753-765.
[18] Ruan, Minghao, Huan Gao, and Yongqiang Wang. "Secure and privacy-preserving consensus." IEEE Transactions on Automatic Control 64.10 (2019): 4035-4049.
[19] Wang, Jianyu, and Gauri Joshi. "Adaptive communication strategies to achieve the best error-runtime trade-off in local-update SGD." arXiv preprint arXiv:1810.08313 (2018).
看騰訊技術,學雲端計算知識,關注「雲加社群」