內容來源:華為開發者大會2021 HMS Core 6 AI技術論壇,主題演講《MindSpore聯邦學習框架解決隱私合規下的資料孤島問題》。
演講嘉賓:華為MindSpore聯邦學習工程師
大家都知道,人工智慧的發展離不開廣泛的資料支撐。資料是基礎,也是關鍵。但行業中小規模、碎片化,亦是大規模、高質量的資料都很難獲取,涉及到工程、監管和隱私合規多方面的問題。這也就導致人工智慧產業面臨資料孤島挑戰,比如企業獲得使用者資料越來越難、企業內不同部門資料難合作、同行業企業資料難以共享、跨行業資料難以發揮價值等。
聯邦學習:打破資料孤島,建立新一代的技術生態
面對資料孤島,人工智慧應該怎樣發展呢?聯邦學習是一個能夠確保資料隱私合規及模型效能的有效解決方案。
聯邦學習最早由谷歌在2016年提出,一方面它是一個機器學習框架,能夠有效幫助多個機構在滿足使用者隱私保護、資料安全和政府法規的要求下,進行資料使用和機器學習建模。另一方面,聯邦學習也是一種商業模式,更像是“共同富裕”的策略,能夠帶動跨領域的企業級資料合作,催生基於聯合建模的新業態、新模式。
一般業內將聯邦學習分為橫向聯邦學習、縱向聯邦學習和聯邦遷移學習三種。橫向聯邦學習適用於使用者重疊較少,資料特徵重疊較多的場景,比如谷歌最早應用在智慧手機輸入法聯合建模上;縱向聯邦學習適用於使用者重疊較多,資料特徵重疊較少的場景,比如一些業務垂直性強的行業;對於使用者重疊和資料特徵重疊都比較少的場景,我們則可以採用聯邦遷移學習來建模。
那麼,聯邦學習在落地企業級應用時,一般會遇到哪些挑戰呢?
首先是隱私安全。當前聯邦學習還存在較多的安全隱患,例如投毒攻擊、對抗攻擊以及隱私洩露等。
其次是模型準確性。在安全業務下的樣本不均衡、缺少資料標籤等問題,會導致聯邦聚合的效果不理想。另外,自動駕駛、醫療等行業的應用對模型精度也提出了更高的要求。
再次是通訊效率。當面臨千萬級大規模異構終端部署時,需要應對網路不穩定、負載突變等複雜場景。大量本地模型更新的上傳會對通訊網路造成巨大的頻寬負擔。壓縮演算法雖然能夠顯著降低通訊資料大小,但會嚴重影響模型精度。通訊效率和模型精度之間的平衡成為較大挑戰。
MindSpore聯邦學習框架:端雲協同,全場景統一架構
2021年6月,聯邦學習框架開源。MindSpore聯邦學習框架專注於橫向聯邦學習,支援千萬級大規模異構終端部署場景,提供高效能、高可用的分散式聯邦聚合計算。在隱私安全方面,資料不出裝置,就可以完成本地訓練。模型引數上傳之前,我們還會提供多方安全計算,進行加密。在聯邦效率提升方面,我們提供同步和非同步兩種聯邦模式。此外,MindSpore聯邦學習框架靈活易用,一行程式碼就可以切換單機訓練與聯邦學習模式。下面,我將從三個維度詳細介紹MindSpore聯邦學習框架的核心技術——
1、 安全演算法增強隱私保護。傳統聯邦學習框架雖然資料不出端,但模型明文共享仍存在隱私洩露風險。MindSpore聯邦學習框架支援基於多方安全計算和差分隱私的高效聯邦安全聚合,增強了隱私保護能力。目前,這兩種演算法各有優勢,開發者可以結合具體的應用場景選擇。
2、 混合聯邦訓練方案提升準確性。在實際應用場景中,使用者資料在客戶端裝置上往往沒有標籤,影響最終模型訓練的準確性。對此,我們提供一種混合聯邦訓練方案,分為橫向半監督學習和細粒度引數分解兩種。前者將無監督學習、有監督學習結合橫向聯邦學習,在保護使用者隱私的同時解決端側沒有標籤資料的痛點;後者則根據模型和優化器的引數功能和規模,將引數分解成不同部分,再對其使用不同的傳遞和訓練策略及方法,減少通訊開銷大的問題。
3、 限時通訊裝置解決長尾效應。在大規模並行的場景下,跨裝置聯邦學習的客戶端數量眾多且高度不可靠,因此每個訓練迭代存在客戶端響應不及時甚至“掉隊”而導致的長尾效應,繼而影響聯邦學習整體訓練效能。對此,我們提供限時通訊裝置。在每輪訓練迭代中增加計時裝置 ,保證計時時間視窗內的請求可以被正常處理,消除長尾效應,減少等待時間,提升訓練效率。另外,時間視窗可以根據實際情況進行動態調整。
MindSpore聯邦學習框架的兩個應用場景
MindSpore聯邦學習框架適用於終端廣告的個性化推薦場景。傳統的廣告場景會面臨許多問題與挑戰,比如使用者畫像上,雲側無法獲取手機端更豐富的特徵;隱私合耦上,由於GDPR等法案對使用者資料的管控,資料無法上傳至中央伺服器,導致傳統鏈路無法打通;推薦效率上,從廣告請求到最終廣告展示需要經過諸多環節,這需要強大的工程架構來提高服務的時效性和穩定性。
MindSpore端雲協同方案中的Cross-Device聯邦學習框架可以打破使用者與廣告平臺的資料壁壘,資料不用上雲亦可實現聯合建模。同時,我們通過小樣本學習演算法,充分利用端上使用者特徵資料及資源優化PCVR預估模型,提高廣告轉化率。在隱私合規的前提下,我們還支援端雲協同的聯合建模,以實現使用者標籤挖掘;在廣告定向基礎上於端側進行二次推薦,提高廣告轉化效果。
MindSpore聯邦學習框架適用於企業採集並上傳大量圖片、視訊資料的場景。假設某公司的城市管廊專案,需要在站點上部署一些攝像頭,用來做安全監控。傳統方式是攝像頭採集的視訊資料上傳到分控中心,分控中心做完資料預處理後,再傳至總控中心。這一過程可能會出現兩個問題:大量的資料上傳會造成很大的頻寬開銷,成本也隨之提高;資料中往往包含人臉和車輛等敏感資訊,存在資料洩露的風險。
如何解決問題呢?MindSpore端雲協同方案的Cross-silo聯邦學習框架可以在每個站點做本地模型訓練和推理,既能保證使用者資料安全,還能控制頻寬成本。
最後,希望開發者們可以持續關注MindSpore聯邦學習框架,和我們一起構建聯邦學習的生態技術,謝謝!
瞭解更多詳情>>
訪問華為開發者聯盟官網
獲取開發指導文件
華為移動服務開源倉庫地址:GitHub、Gitee
關注我們,第一時間瞭解 HMS Core 最新技術資訊~