AI落地遭“卡脖子”困境:為什麼說聯邦學習是解決良方?

AIBigbull2050發表於2019-09-29
  2019-09-29 11:43:40
AI落地遭“卡脖子”困境:為什麼說聯邦學習是解決良方?

作者 | Just

出品 | AI科技大本營(ID:rgznai100)

毋庸置疑,在業界對人工智慧(AI)應用落地備受期待的時期,資料這一重要支點卻越來越成為一個“卡脖子”的難題。

AI落地需要資料來最佳化模型效果,但大部分企業不會輕易把資料無條件提供給AI公司使用,因為資料某種程度上是它們賴以生存的底牌,這也導致少數巨頭公司壟斷大量資料,而小公司很難獲得資料的局面,另一方面,由於法律法規對資料隱私保護的規定,資料融合難上加難。資料孤島問題似乎成了無法解開的死結,人工智慧落地程式嚴重受阻。

此時,Google 於 2016 年提出的聯邦學習(Federated Learning)技術開始在業內被寄予厚望,國內以微眾銀行、平安科技、百度為代表的公司成為新技術的“嚐鮮者”,希望它成為打通資料孤島的橋樑。

Google 率先建立建立聯邦學習系統來解決使用者個人終端裝置的資料隱私問題,在安卓系統的手機使用者中,首先將初始化模型下載到各終端,然後根據其本身的資料更新模型引數,不同終端隨之產生不同的更新結果送到雲端進行聚合,彙總後的模型引數將作為下一次更新的初始引數,一直迭代直到收斂。

用這樣的方法既能保證資料不共享,保護使用者隱私,同時又能共享一個通用模型,利用群體智慧在雲端不斷更新,這就是聯邦學習技術,而以該技術為核心的相關技術統稱為聯邦智慧,平安科技副總工程師、聯邦學習團隊負責人王健宗博士首度提出了這一概念。他在近期接受 AI科技大本營(ID:rgznai100)等媒體採訪時稱, 聯邦學習之於聯邦智慧,猶如深度學習之於人工智慧,不過聯邦智慧仍屬人工智慧範疇,其最終目標是為了實現人工智慧。

破局資料孤島,聯邦學習的應用實踐

作為聯邦學習技術的早期使用者,Google 在今年 2 月開源了聯邦學習框架 TensorFlow Federated,可用於去中心化資料的機器學習及運算實驗。國內,微眾銀行 AI 團隊對外開源了自研的“聯邦學習 FATE(Federated AI Technology Enabler)” 學習框架,並推動其在信貸風控、監管科技等領域的應用落地。

平安科技同樣自主了蜂巢聯邦學習平臺,並有了相對成熟的落地案例。王健宗提到,基於平安科技的金融、保險業務資料,他們透過聯邦學習技術對此前無法獲取的資料進行聯合建模,從而準確預測使用者貸款或者信用卡的逾期違約率以及預測跨域產品購買行為,以及透過銀行客戶去預測買保險客戶等應用,除了金融、保險領域,他們還在醫療、智慧語音以及車聯網等多個領域進行了實踐應用。

這些應用的共通之處在於,聯邦智慧解決方案要求資料在傳輸過程當中能夠實現實時的加解密,在此基礎上還要高效實現,比如做深度學習訓練時,要做到幾千萬甚至上億引數的交換、同步、非同步處理。基於此,新方案還要保證多源資料在AI 模型調優過程中的安全性,同時也要有效地評估各資料來源對於最終最佳化結果的貢獻度。

總之,要在分散式環境下實現聯合建模,自然會對硬體支援提出相應要求,而平安科技與英特爾的合作為上述問題的初步解決提供了有效方案。

硬體層面上,雙方形容在聯邦學習技術層面的合作是“一拍即合”。英特爾一直都想做一個可信計算資料分析的執行環境,希望能有效地防止外界觸達和攻擊敏感的資料和應用。英特爾最新發布的 SGX(軟體防護擴充套件)技術實現了這一點,其透過處理器指令,在不同資料來源中建立可信區域來用於資料訪問,這正好符合目前聯邦學習運算的需求。

王健宗稱,SGX 一開始的配置並不是為聯邦學習而生,但這個硬體可信平臺後期陸續開放了一些專用介面,如此可以直接封裝介面,從而在資訊傳遞加解密過程當中更快、更高效,這種把可信計算環境“硬化”的方法能夠加快迭代訓練,也符合當下軟體硬化,硬體軟化的趨勢。

對比傳統軟加密的方式,比如在傳統的深度學習框架 TensorFlow, PyTortch , Caffe, MxNet 上進行改造,其在資訊處理傳輸中的加解密過程會消耗太多時間。

AI落地遭“卡脖子”困境:為什麼說聯邦學習是解決良方?

英特爾® SGX 技術以可信“飛地”來增強資料安全防護

具體來說,英特爾® SGX 技術可透過在特定硬體(例如記憶體)中構造出一個可信的“飛地”(Enclave), 用於中間引數的互動和傳輸,以幫助防止內外部攻擊,使資料和應用程式的安全邊界僅限於“飛地”本身以及處理器,同時其執行過程也不依賴於其他軟硬體裝置。這意味著資料的安全保護是獨立於軟體作業系統或硬體配置之外,即使硬體驅動程式、虛擬機器乃至作業系統均受到攻擊和破壞,能更有效防止資料洩露。

AI落地遭“卡脖子”困境:為什麼說聯邦學習是解決良方?

英特爾® SGX技術的聯邦學習方案

基於英特爾®SGX 技術所具備的特性,聯邦學習團隊與英特爾一起,在其聯邦學習方案中設計了 1+N 式的多源資料 AI 模型訓練方法,有助於精確地評估各節點資料對於 AI 模型訓練的貢獻度,方便使用者對方案進行調整。

以聯邦學習在保險行業的應用為例,以往使用者在投保時,業務人員只能根據使用者的年齡、性別等基本資訊來確定保費金額,但隨著資訊社會的不斷髮展,使用者資料的數量和特徵維度得到大幅增加,比如對於健康類險種來說,業務系統如果能夠利用海量的病歷、家族病史資料等進行 AI 預測,並得到更加細分的健康評估類別,有望提升投保人健康評估結果的準確度。

其中,病歷、病史等無疑是各個健康醫療機構中需要絕對確保隱私的資料,不僅不可能予以公開,更需要提升安全等級予以保護。現在聯邦學習方案的引入,保險企業可以在不觸及使用者資料的情況下開展保險定價模型的 AI 訓練,從目前的效果來看,聯邦學習 1+N 式解決方案使保險個性化定價效果得到了明顯提升。

當然新技術的應用總是伴隨著新挑戰,聯邦學習自有其目前無法解決的短板。王健宗指出,聯邦學習目前是用不同演算法來改造模型以進行聯合建模,並沒有一個工具或者方法論,能夠解決所有的深度學習演算法聯邦化的問題。

同時,不同於區塊鏈的去中心化機制,聯邦學習形成的是有中心化的聯邦 政府。在“聯邦 政府”裡只有一個共同模型負責分發,所以還要解決“兩個信任”問題:一是確保有一個各參與方都信任的聯邦 政府,二是聯邦 政府的運作資訊要透明。

不過各項新技術都在不斷演進,王健宗認為,只要有更多企業和從業者加入到使用聯邦學習的隊伍中來,這些問題將逐步得到解決。

他類比十幾年前做資訊系統時面臨的困境,當時每個資訊系統的開發語言都不同,但現在已經完全解決;面臨的資料孤島問題依然存在,但後來雲端計算的出現讓上百個系統資料互不相通的狀況一去不返,所以這也讓他樂觀看待聯邦學習在未來的發展前景。

聯邦智慧,引領 AI 革新的新曙光?

聯邦學習技術這盤更大的棋在於各參與方共同打造聯邦學習生態,但王健宗表示,當下最重要的是搶佔先機,提出聯邦學習應用於未來趨勢的生態與解決方案。

生態離不開系統架構的佈局。硬體層面,目前英特爾與平安科技的雙方合作尚處第一階段,只是拿出了一個硬體加密盒,解決了資料訓練的其中一個環節。平安科技聯邦學習團隊將與英特爾進一步開展技術合作,以更多、更先進的技術驅動資料資源在聯邦學習中的安全運轉和高效轉化,王健宗希望後續硬體加解密環境更多的改造成為聯邦智慧服務,同時在資訊傳輸標準、知識訓練介面規範等方面,英特爾可以透過業界標準渠道來打造生態,推動聯邦學習在各行各業中的快速發展和應用。

英特爾還可能開發訓練框架以支援聯邦學習,同時其相關儲存技術,比如SSD(固態硬碟)等也會做出相應行業解決方案,以點蓋面進一步深化聯邦學習解決方案。

在網路層,王健宗認為 5G 技術的到來會給聯邦學習提供很好的機會,比如一定程度上解決引數交換瓶頸,這就需要在網路通訊層、編碼層、儲存層要為聯邦智慧定製相應技術規範,他還稱平安科技在做相關聯邦晶片的研究工作,也在考慮未來是否要設計聯邦作業系統。

不過,要想落地相關應用,系統化實現聯邦智慧生態,還要依靠更多前線的人工智慧從業者,他們希望這套聯邦學習解決方案科技能夠支援更多公司和行業,對以聯邦學習為基礎的技術進行深入探索,做一些實在的落地應用研究。

聯邦學習技術目前更多應用於 AI 訓練過程,其目標是形成聯邦生態,不過王健宗更希望基於聯邦學習技術,透過聯邦資料庫、聯邦資料中心、聯邦視覺化來共同實現聯邦智慧。他堅信,新技術和新需求衍生的新一輪革新會助力AI產業實現騰飛,而聯邦智慧無疑是引領 AI 革新的新曙光。






來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2658678/,如需轉載,請註明出處,否則將追究法律責任。

相關文章