聯邦學習城市應用實戰指南

帶你聊技術發表於2023-01-29

導讀:本文將為大家分享聯邦學習在城市應用實戰的一些經驗。

主要內容包括:

  • 聯邦學習與隱私計算是什麼

  • 聯邦學習架構

  • 聯邦學習在城市中的案例

  • 現狀與未來

分享嘉賓|呂長彬 京東科技 軟體開發工程師

編輯整理|李曉 網易

出品社群|DataFun


01

聯邦學習與隱私計算是什麼

1. 隱私計算

隱私計算是一種在資料不可見的情況下,讓資訊進行有價值流通的工程體系。
隱私計算應用分為可信計算環境、多方安全計算、聯邦學習三個主要的流派。

聯邦學習城市應用實戰指南

  • 可信計算環境:主要是硬體方面的技術。其效能、通用性和安全性都比較高,但缺點是開發部署困難,需要硬體廠商的支援。
  • 多方安全計算:在無可信第三方情況下,透過多方安全完成某種協同計算,也就是參與者各完成計算的一部分,最後的結果是由部分參與者掌握或公開的共享,主要優點是安全性高,通用性高,但計算和通訊的開銷比較大。多方安全計算包含了秘密分享、不經意傳輸、混淆電路、零知識證明、同態加密等技術,各項技術的優缺點可以參考上圖中的表格。
  • 聯邦學習:結合了密碼學和分散式計算,基於可信環境實現多方協作的機器學習,在人工智慧領域開闢了新的天地。聯邦學習是綜合運用多方安全計算、差分隱私、同態加密方法,用於 AI 模型訓練和預測。聯邦學習在效能、通用性和安全性上都是中等,可信方可以採用可信計算環境。

2. 聯邦學習
透過一個業務場景來說明聯邦學習是什麼。資料公司 A 與資料公司 B 共同合作提升風控模型精度。合併方式包括線下合併和線上聯合建模。
模型訓練:

聯邦學習城市應用實戰指南

02

聯邦學習架構

1. 聯邦學習的功能架構

聯邦學習城市應用實戰指南

  • 應用場景:主要包括信用、金融、營銷、公安。
  • 資料服務:是對上層應用的支撐,包括特徵庫、模型庫、畫像庫、標籤庫、指標庫。
  • 跨域應用:包括跨域訓練、跨域推理、跨域分析、資料共享。
  • 安全加密:涉及到全鏈路加密、硬體加密,以及安全多方計算。
  • 聯邦演算法:支援聯邦 Boosting、聯邦森林、聯邦神經網路、聯邦隔離森林、聯邦極端森林、聯邦邏輯迴歸、聯邦線性迴歸、混合演算法。
  • 特徵工程:主要是對相關演算法的支撐與抽取,包括 ID Mapping、聯邦資料清洗、聯邦資料取樣、聯邦特徵分箱、聯邦特徵轉換、聯邦特徵選擇、OneHot Encoder。
  • 資料接入:底層資料包括本地、MySQL、API、Oracle、HDFS 等多種資料來源的支撐。
  • 專案管理:包括建立成員角色等基礎管理。
  • 模型生命週期管理:在模型整個訓練週期內,包括驗證報告、模型釋出、版本管理、推斷記錄、部署等功能。
  • 訓練任務週期管理:包括狀態同步、狀態啟停、實時日誌、流量監控。

2. 聯邦學習的技術架構

聯邦學習城市應用實戰指南

聯邦學習的技術架構包括應用層、服務層、任務訓練層、演算法層、資料預處理、資料來源、執行環境。

  • 應用層:包含地塊打分、信用評級、受災應急、金融服務、安全交換服務等服務場景,有聯邦查詢、聯邦數字閘道器和聯邦知識融合提供支撐。
  • 服務層:包含從應用模型,到推理,再到資料共享服務。
  • 任務訓練層:包括多方協同、元件通訊、任務管理、資訊仲裁、監控和日誌。底層有排程系統來支撐。
  • 演算法層:支援八大基礎聯邦演算法。
  • 資料預處理層:包括資料來源的管理、後設資料、資料 ETL,到資料異構交換,最後輸入計算引擎進行儲存和計算。
  • 資料來源:支援所有主流資料來源。
  • 執行環境:適配雲主機、物理機、虛擬機器和容器雲平臺等環境。

3. 聯邦學習——資料流轉

聯邦學習城市應用實戰指南

我們還是透過一個具體場景去了解一下聯邦學習資料流轉的過程。
資料公司 A 和資料公司 B 進行風控模型的聯合訓練。黃色閘道器節點 A就是資料公司 A,藍色閘道器節點 B 是資料公司 B。仲裁節點是對相應的資料進行整體的對齊,包括資料交換。為什麼要獨立出仲裁節點?主要的目的是為了安全,因為資料對齊和資料交換存在一些隱含的資料保密的安全措施,有一些做法是把仲裁節點合併到閘道器節點 A,由它進行聯合訓練。閘道器節 A 相當於主節點進行訓練,把閘道器節點 B 收集到節點 A 上。而我們把仲裁節點獨立出來,可以交給第三方託管去安全的執行。
第一步,資料匯入,閘道器節點 A 和閘道器節點 B 同時把資料匯入到本地節點計算框架,交由模型進行處理。第二步,對傳送的資料進行預處理對齊,以及對訓練梯度的儲存。第三步,模型透過 SDK 操作函式,之後進行加密傳輸。第四步,交換資料臨時加密儲存。第五步,到達仲裁節點,進行交換資料的儲存,儲存之後仲裁節點會把相應的資料匯入本地分散式計算進行儲存與計算。第六步,把相應的資料透過 SDK 再加密傳回閘道器節點 A 和閘道器節點 B。第七步,它們會進行相關的加密資料儲存。最後是把相應的結果資料儲存都儲存在物件層進行資料儲存。儲存的檔案可以作為推理或資料共享的方式出去。
4. 聯邦學習——安全策略
(1)傳輸安全
多種加密策略:

  • 普通模式:OAuth2,RSA+動態 AES
  • 加強模式:金融級加密(ACES 內部自研)、支援國密演算法,任務級別隔離
  • HTTPS 協議進行網路安全通訊傳輸
  • IP 白名單校驗

(2)硬體安全
SGX 硬體級安全技術,模型存放於可信執行環境,免受軟體攻擊和記憶體訪問攻擊。
(3)資料儲存和計算安全

  • 資料計算過程加密混淆,即用即銷
  • 資料儲存靜態加密,生命週期完成及時刪除

(4)資料安全
HASH+隨機碼+RSA安全資料對齊方式,採用支援同態加密、差分隱私、混淆電路等多種、安全多方計算加密方式。
(5)部署安全

  • 一鍵部署:安裝包混淆,目錄摘要與授權。
  • MD5 進行一致性比較,防止部署過程中篡改。

03

聯邦學習在城市中的案例
1. 城市中案例——應用場景

聯邦學習城市應用實戰指南

城市中的案例主要包括信用打分、精準營銷、風險管理、智慧選址等場景。從上圖中可以看出更多的典型應用透過聯邦學習打破資料孤島,實現聯合建模。
2. 城市中案例——風控場景
金融業務運作中,風控是必不可少的,如果風控模型不完善,壞賬則會增加造成損失,聯邦學習對不同平臺的多維度資料學習完善模型,達到更精準目的。城市中的風控場景針對金融業務運作流程如下圖所示。

聯邦學習城市應用實戰指南

3. 城市中案例——智慧選址
智慧選址專案是京東和運營商聯合建模,進行地塊智慧打分的實際場景。運營商對營業廳的選址是基於經驗和成本,為了讓營業廳選址更加合理,京東的綜合物流等資料,可以與運營商形成知識互補和模式互補。原始資料都保留在本地,互動的只是相關的梯度模型,共同對地址打分。透過與執行商合作,幫助運營商有效的對地塊進行評估,多維度完成選址。

聯邦學習城市應用實戰指南

4. 城市中案例——信用城市
每個城市都包括居民衣食住行的資料,企業投貸融價的資料,以及政府醫批企政資料,這些資料是比較多的。政府企業稅務資料與企業資料進行聯邦學習,透過信用卡評分的模型來達到企業信用的輸出。透過在城市中部署城市作業系統,根據城市的信用資料,對企業信用進行評估,完成打分,幫助城市有效利用信用分。

聯邦學習城市應用實戰指南

04
現狀與未來
1. 現狀
(1)聯邦學習的框架和標準化制定

  • IEEE 聯邦學習標準專案,首批核心成員單位制定標準。
  • 國內最早進行聯邦學習技術研究、產品化落地的企業之一。

(2)聯邦學習平臺產業化建設
聯邦數字閘道器是智慧城市作業系統聯邦學習平臺。
(3)對多方安全計算的積極探索
支援同態加密、差分隱私、混淆電路等多種、安全多方計算加密方式。

聯邦學習城市應用實戰指南

IEEE 聯邦學習標準專案是國際上首個針對人工智慧協同技術框架訂立標準的專案。我司團隊作為國內最早進行聯邦學習技術研究、產品化落地的企業之一,作為首批核心成員單位制定標準。

聯邦學習城市應用實戰指南

我們的關鍵技術自主研發,包括:

  • 底層通訊協議
  • 聯邦學習演算法
  • 11 項專利申請、3 篇國際論文 、1 項軟著、1 項安全資質

2. 未來展望

  • 豐富的資料資源是聯邦學習最大的基石
  • 打破傳統企業機構的資料邊界,利用聯邦學習達到資料知識共享
  • 發現使用者需求並將聯邦學習產業應用落地
  • 達成各行業聯手,共建全行業的聯邦學習生態


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70024922/viewspace-2933156/,如需轉載,請註明出處,否則將追究法律責任。

相關文章