資料不出本地,還能享受大資料訓練模型,聯邦學習提供一種應用廣闊的學習新正規化

dicksonjyl560101發表於2019-09-12

https://www.leiphone.com/news/201909/WOcl8I1TjMjXVJd5.html

導語:提出至今才兩年哦~

雷鋒網AI科技評論按:近日,聯邦學習概念的提出者之一 Blaise Aguëray Arcas 在韓國針對全球做了一個關於聯邦學習的線上workshop。

資料不出本地,還能享受大資料訓練模型,聯邦學習提供一種應用廣闊的學習新正規化

Blaise Aguëray Arcas是2014年加入的谷歌,在此之前在微軟任傑出工程師。加入谷歌後,Blaise領導了谷歌裝置端on-device機器智慧(Machine Intelligence)專案,同時負責基礎研究與新產品研發工作。

聯邦學習的概念最初是由Blaise等人於2017年在Google AI Blog上發表的一篇博文中首次提出的。這個概念提出至今不過兩年時間,但對它的研究已然甚囂塵上,幾乎每天都至少會發布一篇相關論文,甚至在18年底在港科大楊強教授等人的推動下聯邦學習進入了IEEE國際標準。

聯邦學習之所以能夠在如此短的時間裡迅速由一個構想變為一門學科,主要原因在於聯邦學習技術作為一種學習正規化,能夠在確保使用者資料隱私的同時解決“資料孤島”問題。

不過不同於國內主要關注企業之間針對“資料孤島”的聯邦學習,Blaise 等人(或許也在某種程度上代表谷歌)關注更多的則是裝置上的聯邦學習,這也是聯邦學習概念被提出之初的應用場景。

資料不出本地,還能享受大資料訓練模型,聯邦學習提供一種應用廣闊的學習新正規化

1. 提出聯邦學習的初始動力

Blaise五年前加入谷歌後不久,便開始了聯邦學習的研究。直到2017年,當他們取得了一定的成果,才在博文中進行公佈。

一開始,聯邦學習只是一個概念,但很快它便被開發成人工智慧領域中的一個學科。現在已經有數千篇的文章在討論聯邦學習。在今年12月份在溫哥華舉行的機器學習頂會 NeurIPS上也將會有一個專題專門討論聯邦學習。另一方面,現在也有很多公司也在以此為基礎構建他們的模型。這說明整個人工智慧社群已經開始重視這種技術了。

那麼為什麼聯邦學習能夠如此快速地被整個社群重視呢?

大家應該知道,目前人工智慧已經發展到了這樣一個節點:我們希望能夠用少量的資料做更多的工作。這也是當前人工智慧的核心話題之一。

神經網路可以做很多的認知,語言處理、語音合成、影象識別,甚至還可以下圍棋,這些都能達到人類甚至超越人類的水平,這是過去幾年我們取得的成就。但是目前的神經網路相比人類還欠缺一點,就是學習的效率,它需要大量的資料進行訓練。所以一些大公司,如谷歌、微軟、亞馬遜等開始提供人工智慧服務時需要收集大量的資料,才能去訓練大型神經網路。這也是一直以來,整個社群所做的事情。

對於裝置端(例如手機)的智慧應用,通常情況下的模式是,使用者在裝置上產生的資料會被上傳到伺服器中,然後由部署在伺服器上的神經網路模型根據收集到的大量資料進行訓練得到一個模型,服務商根據這個模型來為使用者提供服務。隨著使用者裝置端資料的不斷更新並上傳到伺服器,伺服器將根據這些更新資料來更新模型。很明顯這是一種集中式的模型訓練方法。

然而這種方式存在幾個問題:1)無法保證使用者的資料隱私,使用者使用裝置過程中產生的所有資料都將被服務商所收集;2)難以克服網路延遲所造成的卡頓,這在需要實時性的服務(例如輸入法)中尤其明顯。

Blaise等人便想,是否可以通過做一個大型的分散式的神經網路模型訓練框架,讓使用者資料不出本地(在自己的裝置中進行訓練)的同時也能獲得相同的服務體驗。 

資料不出本地,還能享受大資料訓練模型,聯邦學習提供一種應用廣闊的學習新正規化

2. 裝置上的聯邦學習

解決之道便是:上傳權重,而非資料。 

我們知道神經網路模型是由不同層的神經元之間連線構成的,層與層之間的連線則是通過權重實現的,這些權重決定了神經網路能夠做什麼:一些權重是用來區分貓和狗的;另一組則可以區分桌子和椅子。從視覺識別到音訊處理都是由權重來決定的。神經網路模型的訓練本質上就是在訓練這些權重。

那麼Blaise提出的裝置端聯邦學習,不再是讓使用者把資料傳送到伺服器,然後在伺服器上進行模型訓練,而是使用者本地訓練,加密上傳訓練模型(權重),伺服器端會綜合成千上萬的使用者模型後再反饋給使用者模型改進方案。

資料不出本地,還能享受大資料訓練模型,聯邦學習提供一種應用廣闊的學習新正規化

舉例來說,輸入法是典型的智慧推薦應用。當人們使用Google鍵盤Gboard給家人朋友發資訊的時候,傳統來說你敲擊鍵盤的資料會被上傳到谷歌的伺服器,他們通過收集大量資料來訓練一個更加符合使用者習慣的智慧推薦。但在應用聯邦學習後,使用者敲擊鍵盤的資料將永遠保留在本地。使用者的手機中有一個不斷更新的模型會根據這些資料進行學習和更新,並將更新的權重加密上傳到伺服器。伺服器收到大量使用者的模型後,會根據這些模型進行綜合訓練,並反饋給使用者進行模型更新和迭代。

資料不出本地,還能享受大資料訓練模型,聯邦學習提供一種應用廣闊的學習新正規化

這裡或許值得強調,這種在裝置端上的模型是經壓縮過的,而非像伺服器中那種大型神經網路模型。因此模型訓練的耗能是非常小的,幾乎檢測不到。此外,Blaise講了一個非常形象的比喻,即人會在睡覺的時候通過做夢來更新自己的大腦認知系統;同樣裝置終端的系統也可以通過閒置時進行模型訓練和更新。所以整體上,這並不會對使用者的使用體驗造成任何影響。

我們將裝置上聯邦學習的過程總結一下:1)裝置端下載當前版本的模型;2)通過學習本地資料來改進模型;3)把對模型的改進,概括成一個比較小的更新;4)該更新被加密傳送到雲端;5)與其他使用者的更新即時整合,作為對共享模型的改進。

資料不出本地,還能享受大資料訓練模型,聯邦學習提供一種應用廣闊的學習新正規化

整個過程有三個關鍵環節:1)根據使用者使用情況,每臺手機在本地對模型進行個性化改進;2)形成一個整體的模型修改方案;3)應用於共享的模型。該過程會不斷迴圈。

其優點是顯而易見的。

首先,我們不必將資料上傳到雲端,服務提供商就看不到使用者的資料,這可以提高使用者資料的隱私性。因此,通過這種方式,我們不必在隱私和功能之間進行權衡,可以兩者兼有。這一點在當下資料隱私越來越受到重視的情況下特別重要。

其次,是降低了延時。儘管5G時代即將到來,但並不是在任何情況下任何地點的網速都能得到保障。如果將使用者所有的資料都上傳到雲端,且服務本身也是從雲端進行的反饋,那麼在網速較慢的環境下,網路延時將會極大降低使用者體驗。而聯邦學習加持下的服務則不會出現這種情況,因為服務本身就來自於本地。

當然,或許還有一個好處是,在傳統的方法下,使用者只是人工智慧的旁觀者——我使用,但我沒參與。而在聯邦學習場景下,每個人都是“馴龍高手”,每個人都是人工智慧發展的參與者。 

資料不出本地,還能享受大資料訓練模型,聯邦學習提供一種應用廣闊的學習新正規化


3. 學習新正規化

聯邦學習的這種思想,事實上並不僅僅適用於裝置使用者資料的隱私保護和模型更新。我們將裝置使用者抽象來看,視作資料的擁有者,可以是手機持有者,也可以是公司、醫院、銀行等;而伺服器或雲端視作模型共享綜合平臺。

因此,聯邦學習更是一種新的學習正規化,它有以下特點:

·       在聯邦學習的框架下,各參與者地位對等,能夠實現公平合作;

·       資料保留在本地,避免資料洩露,滿足使用者隱私保護和資料安全的需求;

·       能夠保證參與各方在保持獨立性的情況下,進行資訊與模型引數的加密交換,並同時獲得成長;

·       建模效果與傳統深度學習演算法建模效果相差不大;

·       聯邦學習是一個「閉環」的學習機制,模型效果取決於資料提供方的貢獻。

這樣的特點正中當前人工智慧發展所面臨的困境。

當前,大多數應用領域均存在資料有限且質量較差的問題,在某些專業性很強的細分領域(如醫療診斷)更是難以獲得足以支撐人工智慧技術實現的標註資料。

同時,在不同資料來源之間存在難以打破的壁壘,除了少數幾家擁有海量使用者、具備產品和服務優勢的「巨無霸」公司外,大多數企業難以以一種合理合法的方式跨越人工智慧落地的資料鴻溝,或者對於他們來說需要付出巨大的成本來解決這一問題。

此外,隨著大資料的發展,重視資料隱私和安全已經成為一種世界性的趨勢,而歐盟「資料隱私保護條例」(General Data Protection Regulation,GDPR)等一系列條例的出 臺更是加劇了資料獲取的難度,這也給人工智慧的落地應用帶來了前所未有的挑戰。

從目前的研究進展來看,聯邦學習也是解決以上這些問題的唯一選擇。

注:關於聯邦學習在國內的進一步發展,可以參考雷鋒網之前發表的文章《 從概念到技術,再到國際標準和開源社群,聯邦學習只用兩年時間 》。 值得一提的是,關於「聯邦學習」的名字有一個故事:在早期國內將「Federated Learning」大多翻譯為「聯合學習」,現多稱為「聯邦學習」。其中的區別是,如果使用者是個人,確實是把他們的模型「聯合」起來學習,正如Blaise 等人所做的工作;而如果使用者是企業、銀行、醫院等大資料擁有者,這種技術則更像是將諸多「城邦」結合起來,「聯邦」一詞則更為準確。這一名字的變化,也反映著聯邦學習的研究主體從理論轉向實際應用的變化趨勢。







https://www.leiphone.com/news/201909/WOcl8I1TjMjXVJd5.html


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2656857/,如需轉載,請註明出處,否則將追究法律責任。

相關文章