機器之心專訪楊強教授:聯邦遷移學習與金融領域的AI落地

邱陸陸發表於2018-08-01

7 月 21 日、22 日,由 KDD China 主辦,西南交通大學和京東金融承辦的 KDD Summer School 暨 KDD Pre-Conference,「交通大資料智慧」論壇在成都舉行,多位知名資料探勘領域專家以及 KDD 2018 國際會議錄用論文的作者介紹了自己的工作以及各自領域的進展。

在會上,我們採訪了 KDD 中國主席楊強,與他聊了聊他在金融領域進行的 AI 落地的工作,包括「聯邦學習」這個試圖在保護資料隱私、滿足合法合規要求的前提下繼續進行機器學習的新方法。同時,作為 KDD 中國主席,他也分享了當下的遷移學習領域的新進展和他對本屆 KDD 大會的展望。

聯邦學習:資料合規應該是深度學習解決方案的一部分

機器之心:您如今在關注哪些 AI 的研究或應用方向?在您看來,機器學習領域有哪些新的趨勢?

我現在關注的一個趨勢是如何在保護資料隱私、滿足合法合規要求的前提下繼續進行機器學習,我們將這部分研究稱為「聯邦學習」(Federated Learning)。

開始聯邦學習的契機是歐盟通過了「資料隱私保護條例」(General Data Protection Regulation,簡稱 GDPR)。GDPR 認定「個人資料神聖不可侵犯」,要求公司在使用資料前要先向使用者宣告模型的作用。這份條例的實行讓許多大資料公司噤若寒蟬,不敢再互相交流資料了,這對於極度依賴資料的機器學習是一個巨大的挑戰。

因此我們現在正在尋找比較正向的應對方法,思考如何把 GDPR 囊括在機器學習框架之內,而不是繞著它走。

聯邦學習希望在不共享資料的前提下,利用雙方的資料實現模型增長。

假設兩家公司想要建立一個使用者畫像模型,其中部分使用者是重合的。聯邦學習的做法是,首先通過加密交換的手段,建立使用者的識別符(identifier)並進行溝通,在加密狀態下用減法找出共有的部分使用者。因為關鍵使用者資訊並沒有得到交換,交換的只是共有的識別符,因此這並不違反資料隱私保護條例。然後,雙方將這部分資料提取出來,將各自擁有的同樣使用者的不同特徵作為輸入,迭代地進行訓練模型、交換引數的過程。我們證明了給定模型引數,雙方不能互相反推出對方擁有的、自己沒有的特徵,因此使用者隱私仍然得到了保護。在不違反 GDPR 的情況下,雙方的模型效能都得到了提高。

聯邦學習相比於遷移學習的優點在於「無損失」。之前的遷移學習都是存在效能損失的,當模型從領域 A 遷移到領域 B,從模型中學到的一大部分關於 A 的知識全丟了,只有和 B 共享的一小部分保留下來,甚至會出現負遷移。然而聯邦學習保證,兩家公司的模型都比原來效果好。因此我們沒有繼續沿用遷移學習的名稱,而是將其命名為「聯邦學習」,意思是說,兩家公司並沒有聯合成為一個「國家」,而是像不同的「州」一樣,在一個「聯邦政府」——進行資訊與模型引數的加密交換的系統——的管理下,各自為政,同時獲得成長。在聯邦學習的基礎上,我們還可以啟發式地搭建遷移學習的能力。這樣,在模型成長的基礎上,做到舉一反三的效果。這個總的模型叫做「聯邦遷移學習」(Federated Transfer Learning)。

聯邦學習是我們應對 GDPR 類事件的一個例子。在未來,我們面臨的社會大眾的要求和監管一定越來越嚴格,因此我們人工智慧的從業者應該擁抱這些條例,將其內化為解決方案的一部分。如今機器學習最薄弱的環節其實並非演算法結構不夠豐富、準確率不夠高,而是來自社會大眾對人工智慧的態度和制約。GDPR 不是個例,在未來,不同國家和地區的隱私保護條例會如雨後春筍般出現,在這樣的背景之下,如果不作出改變和適應,機器學習的一個重要的假設:假設我們擁有足夠多的資料,將不復成立。

因此我們希望機器學習學者除了關心演算法的準確率、效率之外,也將思考的維度上升到管理與合規的角度。我們希望能帶頭建立金融領域協同建模的規範,讓不同的企業受益於合規的聯合建模鏈條,更樂於加入這個 AI 建模聯邦,在遵守合規要求的同時享受資料福利,也讓機器學習更健康地發展下去。

我近年關注的問題是 AI 的落地,因為如果 AI 一直不落地,大家都埋頭寫論文,那麼這個泡沫最後就破了。

我個人選擇在金融相關的領域來實現 AI 落地,其原因是金融提高效率的痛點很強烈。現在很多媒體給大家的一個印象是「所有的領域」都可以馬上應用 AI,這我是不贊同的。在一些領域裡,如今的 AI 反而會把優勢變成劣勢:例如 IBM Watson 在美國癌症醫療中心就因為資料缺失問題而導致診斷協助系統的失敗。

我認為現在的情況是,並非所有領域都適合在當下嘗試 AI,根據資料和場景的準備狀態,有一些領域特別適合首先去嘗試 AI,其中就包括金融。

此外,我希望總結出一套方法論,可以告訴人們,一個領域在什麼時間段、滿足哪些條件後,可以開始考慮使用 AI 了。

遷移學習:深度和對抗成為正規化

機器之心:去年,您在機器之心的 GMIS 大會上提到了遷移學習的六個進展,分別是結構與內容分離、多層次的特徵學習、多步遷移學習、學習「如何遷移」、遷移學習作為元學習以及資料生成式的遷移學習。在過去的一年多時間裡,有哪些方向出現了令人矚目的進展?

首先是層次感。這方面進展非常迅速。業界發現深度學習天然適合做遷移的學習,正是因為深度學習不同的層次負責編碼不同的知識。

因此多層次的特徵學習有很多種可行結構:一是多視角,讓不同的輸入分別進入不同的初始層,處理後共享一些中間層;另一種是利用對抗的結構,例如 GAN 和 DANN,篩出不同領域間可共享的特徵。共享特徵的意思是無法用這個特徵區分兩個領域。用對抗找出共享特徵的意思是,讓一個網路負責篩選出讓對方區分不了的特徵,讓另一個網路負責根據特徵區分兩個領域,兩個網路通過博弈達到平衡時,就自動找到了兩個領域之間的重疊部分。

總的來說,對抗網路現在已經變成了遷移學習的一種已定式和系統了。

學習如何遷移方面,我們最近有一篇 ICML 2018 文章,Transfer learning by learning to transfer 講的就是這個問題。這個文章的第一作者是魏穎博士。文章的主旨是,在我們積累了在很多領域進行學習的經驗後,把領域間的遷移過程作為例子。例如在翻譯問題上,從日語到中文是一個遷移,從日語到英文是另一次遷移。如果有 N 個領域,就會有 近 N*N 個例子。把遷移的例子做成訓練集,就可以訓練出一個自動的遷移規劃器,它會告訴你如何遷移或是說遷移的方法論。來了一個新問題,遷移器可以告訴你應該挑那些遷移學習演算法來用在這個問題上。

這個問題的輸入是演算法的引數和描述不同領域的引數,優化函式是所有樣本的期望損失最低,學出來的遷移器既挑選模型,也學習引數。這個工作的主題是「學習如何學習」,和時下流行的 AutoML 有緊密的聯絡。今年,「第四正規化公司」會在 NIPS 2018 上將舉辦首屆 AutoML 大賽,也是給大家一次展示遷移學習能力的機會。

「學習如何學習」也不僅僅是電腦科學中的問題。在心理學領域,上世紀美國心理學家 Thorndike 就拿猴子做了一個實驗,證明猴子是有遷移能力的。他讓猴子解決一些不同的任務,解決好了就能拿到食物,解決不好就讓他繼續解決,一段時間後,猴子就學會了在新的領域裡尋找特徵,利用原有的經驗解決新問題。因此 Thorndike 總結道:「智慧就是遷移能力。」他將這個觀點應用到教育學上,認為教育程度高,並不是考試分數高,而是學下一門課學得更快。

最後,結構與內容分離,換言之,就是要用盡可能少的例子來學儘可能多的事兒,這方面的內容仍然不是很多。但這其實並不是侷限於遷移學習的一個討論,而是人工智慧整體試圖解決的一個問題。

最近 Yann Lecun 的在 IJCAI2018 上的一個講座讓我覺得很有啟發。Yann 也在思考為什麼人只需要幾個例子,而深度學習需要那麼多例子。他的觀點是,一個例子中的內容特別多,而用一個例子做一個任務,就等於把其他的內容浪費了,因此我們需要從一個樣本中找出多個任務。比如說遮擋圖片的一個特定部分,用沒遮擋部分來猜遮擋的部分是一個任務。那麼通過遮擋不同的部分,就可以用一個樣本完成不同任務。Yann 描述的這個方法被業界稱作「自監督學習」。

我覺得自監督學習可以和遷移學習結合來做的。因為一個樣本畢竟還是有侷限性,它的變化很小,統計性很差,但是如果和以前的經驗能結合起來,例如從其他任務裡遷移一個偏置項,可能就是解決小樣本的一個方向。

機器之心:您如何對當前的遷移學習演算法進行分類?原因是什麼?

之前,我們通常將遷移學習分為三類。第一類是樣本遷移,將可能對新領域有用的樣本的權重加大。這一類方法非常經典,但是現在用得比較少。

第二種叫做特徵遷移,特徵空間的維度很高,如果我發現第一個領域裡發現的重要特徵能夠覆蓋新領域,那麼我就把它遷移到新領域中去。遷移的部分可能是人工選出來的特徵,這種方法在自然語言處理遷移中比較常見,也可以是一個特徵提取器,這種方法在計算機視覺遷移中比較常見。

最後一種是引數遷移,遷移的範圍與兩個領域之間的距離有關。例如和影像相關的模型,越是靠下的層越通用,遷移能力越強,越是靠上的層越是特殊,遷移能力越弱。因此可以根據領域間距離定量地確定遷移的程度:如果兩個領域相距很遠,那麼可以只遷移最下方的幾層,如果兩個領域很相似,則可以多遷移幾層。此外還可以量化遷移後調節引數的時機:兩個領域相距越遠,引數調節就應該越早進行,兩個領域相距越近,引數調節就可以越晚進行。

近年一個有意思的特徵遷移案例是史丹佛大學為聯合國做的「如何在衛星圖片中標記貧窮的地區」。聯合國在決定給每個地區分配的資助前,需要確定當地的貧窮程度。在過去,做法是派人去進行經濟調查,而史丹佛大學試圖用 跨越式遷移的方法來解決這個問題。研究人員首先對白天的衛星圖片進行語義級別的分割,標出橋樑、建築物等。然後以燈光明亮度代表富裕程度,通過白天和夜晚的影像比對,找出最富有的地區在白天有哪些可見的特徵,比如游泳池。然後將游泳池視為富裕地區的顯著特徵後,再通過搜尋游泳池周圍經常出現特徵,進行另一輪的代表性特徵選擇。逐步擴充套件下去,最後在識別貧富程度上達到和現場調查人員相近的準確率

這類非常具有社會意義的選題也是值得國內研究者思考和借鑑的,我們不應該只擅長刷 ImageNet 榜單。

除此之外,根據採用的模型結構還可以分成採用/不採用深度學習的。近年隨著對抗生成網路在遷移學習中的應用越來越廣泛,還有一種分法是根據是否利用對抗的方法進行分類。遷移學習中天然存在可以對抗的部分:希望演算法在本領域準確性儘可能高,希望演算法在兩個領域間的差距儘可能小。把這兩個限制條件同時作為目標,就形成了一個恰恰合適對抗生成網路做的事情。

KDD:連線工作與會議趨勢

機器之心:作為 KDD 中國主席,能否分享下 KDD 中國的定位和任務,以及 KDD 大會的一些情況?

ACM SIGKDD 在中國的分會叫做 KDD China,這個學術社群的主旨是做好各項「連線」的工作,即連線學生和學者,連線公司和學校,以及連線學界和社會。本次 2018 的暑期學校分成三天(已於 2018 年 7 月 21-23 在成都的西南交通大學舉行),分別是業界專家觀點、學生 2018 KDD 工作展示,以及學界的「大牛」講解如何寫論文、如何做研究。旨在進行學生與業界領袖的連線,工業與學術界的連線,國內和國外的連線等一系列工作。現在看來效果還是非常不錯的,會員已經超過了 1000 人,本次活動報名的會員/非會員也達到了場地的極限,達到三百多人。

而即將在倫敦召開的 KDD 2018,頒發的獎項包括:

  • Research Innovation Award,頒發給了芝加哥大學的劉兵教授,他率先開展了輿情分析方面的工作。

  • Distinguished Service Award,頒發給了清華大學的唐傑教授,他在 KDD 領域做了大量的突出的服務性工作,包括在 2012 年在北京舉行的 KDD 所做的大量支援工作和建立著名的論文庫系統 A-MINER 等的工作。

  • Test of Time Award,這個獎項頒發給發表在十年前的、產生了重大影響的文章。今年的獲獎者是來自谷歌的 Yehuda Koren,獲獎論文是關於推薦系統中的協同過濾問題。

在趨勢方面,KDD 繼續以資訊網路的大資料為主題來研究,但 KDD 也在近幾年開始舉辦以深度學習命名的一個 workshop,這也標誌著深度學習也成為了 KDD 所接受的一類方法。

縱觀 KDD 的歷史,會發現發起者背景主要有二,一是來自工業界,比如曾經以 IBM 、微軟等公司為代表一些領袖,二是學界的領軍人物。切入角度是起始於資料倉儲管理和關聯規則等的分析;後來機器學習演算法逐漸進入業界後,越來越多的機器學習學者也進入 KDD 界,而 KDD 一直保持有很高的工業界參與度以及對工業實際問題的敏感度。

如今 KDD 和機器學習的一些區別包括,KDD 是更多地以應用問題為導向的會議,很少有像強化學習等純機器學習演算法的論文;KDD 相比於機器學習更關心社交網路等資訊網路資料,更關心「人」的參與建模,更在乎模型的可解釋性、資料視覺化、人對模型結論的理解等,而機器學習更關注自動化和端到端的建模。

相關文章