楊強申省梅等AI大咖共談「跨域學習」,搞定小資料才是王道 | CNCC 2020

量子位發表於2020-11-02
金磊 發自 凹非寺
量子位 報導 | 公眾號 QbitAI

「AI的力量來自大資料」,這句話確實不假。

理想雖好,但現實卻是——哪有那麼多高質量、標註資料可用,更多的依舊還是小資料

這也正是工業界往往需要大量人力去收集、標註資料的原因。

即便如此,「隱私」、「法律」和「專業性」等種種約束,註定了這種方法跟不上AI落地的行進速度。

此局又該如何破解?

楊強申省梅等AI大咖共談「跨域學習」,搞定小資料才是王道 | CNCC 2020

10月24日,由澎思科技組織的CNCC 2020分論壇《AI 落地的跨域學習技術和進展》在京成功舉辦。

就此議題,論壇邀請了業界眾多專家共同探討,包括:

微眾銀行首席人工智慧官、香港科技大學講席教授楊強,北京郵電大學人工智慧學院教授、博士生導師鄧偉洪,中國科學院計算技術研究所副研究員、碩士生導師闞美娜,澳大利亞國立大學講師鄭良,以及清華大學軟體學院副教授、博士生導師龍明盛

那麼對於「玩轉」小資料,學者、專家們又有何高招呢?

遷移學習、跨域學習、聯邦學習、小樣本學習,均為破解之道。

而更為重要的是,它們的發展正在為加速AI落地提供源源不斷的動能。

楊強:保護資料隱私,打破資料孤島

「大資料是AI的主要力量,但更多的是小資料」。

微眾銀行首席人工智慧官、香港科技大學講席教授楊強丟擲了這樣一個觀點,並舉了一些例子:

比如在法律層面,可能收集一個案例都需要從頭到尾把這個案例走完,往往是需要幾年的時間。

在醫療裡面,我們知道醫療圖象現在非常的多,但是高質量的圖象和經過標註的圖象是非常少,因為有經驗的醫生是非常珍貴的。

對此,楊強教授將問題拆分為二:

  • 如何解決大資料遷移到小資料的問題。

  • 如何解決資料分散的問題。

並提出瞭解決方案——遷移學習聯邦學習

楊強申省梅等AI大咖共談「跨域學習」,搞定小資料才是王道 | CNCC 2020

微眾銀行首席人工智慧官  楊強

遷移學習是比較傳統的方法,因此,楊強教授主要針對聯邦學習做了闡述。

楊強教授一句話對其概括為——資料不動,模型動,它的目的或者說是宗旨也非常直觀,就是保護資料隱私,打破資料孤島

聯邦學習旨在建立一個基於分散式資料集的聯邦學習模型。主要包括模型訓練和模型推理兩個部分:

在模型訓練過程中,模型相關的資訊能在各方之間交換(或者是加密形式進行交換),但資料不能。

在模型推理過程中,模型可以應用於新的資料例項。

而根據訓練資料在不同參與方之間的資料特徵空間和樣本ID空間的分佈情況,可以將聯邦學習分為三大類。

第一類是橫向聯邦學習

適用於聯邦學習的參與方的資料有重疊的資料特徵,即資料特徵在參與方之間是對齊的,但參與方擁有的資料樣本是不同的。

第二類是縱向聯邦學習

適用於聯邦學習參與方的訓練資料有重疊的資料樣本,即參與方之間的資料樣本是是對齊的,但在資料特徵上有所不同。

第三類是聯邦遷移學習

適用於當聯邦學習的參與方擁有的資料集,在使用者和資料特徵上的重疊部分都比較小的情況。

金融行業為例。因資料安全要求,銀行和保險等金融機構在本地對資料進行建模。

使用聯邦學習,各個機構的模型可以聯合起來,能夠打破資料之間的壁壘,提高反洗錢系統的準確度和審查人員的效率。

而聯邦學習正是因為作為能夠在不違反隱私和安全的前提下,使用分散於多方的資料來構建共享和定製化模型的一種創新建模機制,所以在諸多領域中都有較為廣泛的應用。

除了上述提到的金融領域,聯邦學習在醫療、教育、邊緣計算、物聯網、5G等,諸多資料無法直接被聚合用來訓練的場景下使用。

鄧偉洪:人臉識別,還有8%的提升空間

在楊強教授對遷移學習和聯邦學習做了闡述之後,北京郵電大學人工智慧學院教授、博士生導師鄧偉洪,基於人臉識別技術做了《跨域人臉和表情識別》的主題演講。

楊強申省梅等AI大咖共談「跨域學習」,搞定小資料才是王道 | CNCC 2020

北京郵電大學人工智慧學院教授 鄧偉洪

鄧偉洪教授先對人臉識別的發展做了介紹。他認為,這個「小領域」經歷了四代演算法的發展。

第一代是注重全域性的數字變化;第二代是以LBP為代表的區域性手工設計的特徵;第三代是層學習的區域性特徵;而到了第四代,隨著深度學習的引入,開始了人臉識別的真正的大規模應用。

但其實,人臉識別的「遍地開花」,並不僅僅是深度學習的功勞,還有就是人臉識別的訓練資料量的大幅增長——近5個數量級。

因此,人臉識別的準確率也是在逐年提升,目前主流的機器學習方法基本都能做到99%以上。

那麼,是否可以說,人臉識別領域是否已經近乎完美了呢?

非也,鄧偉洪認為,主要還有三大挑戰需要克服:

  • 第一個挑戰是跨域可連線的問題。

  • 第二個挑戰是解決一些故意的攻擊

  • 第三個挑戰是保證在世界範圍內應用時的公平性

楊強申省梅等AI大咖共談「跨域學習」,搞定小資料才是王道 | CNCC 2020

首先是第一個問題,為什麼說識別問題如此之難。

鄧偉洪認為,無論是人臉識別,亦或是影像識別,本質上是具有非常大的可變形——不同角度、不同畫素,以及化妝、遮擋等等。

雖然現在的研究準確率動輒就飆到99%以上,但鄧偉洪認為,是測試集選取圖片的方法過於簡單了

於是,他們增加了難度,看看機器的能力到底有多強:選取了三組(長相相似、跨年齡、不同姿態)資料,重組了跟主流測試庫(LFW)大小一致的資料集。

測試結果非常明顯,在新組的資料集(CPLFW)面前,無論是人類亦或是機器,準確率都有所下降。

鄧偉洪表示,「如果想發論文,還有8%的提升空間」

楊強申省梅等AI大咖共談「跨域學習」,搞定小資料才是王道 | CNCC 2020

對此,鄧偉洪也給出了兩種解決問題的思路:

  • 一是歸一化:透過一個網路,把不同的人臉、不同角度的人臉、不同光線下的人臉,甚至是不同模態下的人臉,都歸一化到一個狀態,然後去做識別。

  • 二是生產一些低質量或者是很難識別的樣本,擴充樣本集,讓深度學習能夠把難的樣本學到。

其次是第二個問題,如何抵禦隱藏的攻擊。

對於我們人類肉眼無法識別的「攻擊」,對於機器來說卻是致命的。

對此,鄧偉洪認為,「未知攻,焉知防」——要防住這種攻擊,首先要掌握最厲害的攻擊方法。

於是提出了一種叫做遷移攻擊的方法,只需要在實驗室模型訓練攻擊樣本,提交到四大主流公司API上,便可均可攻擊成功。

有了這樣的攻擊方法之後,防禦就非常簡單了——把這些樣本扔到訓練資料集去,讓它被重新識別。

第三個挑戰,就是公平性問題。

不同人種的膚色是最為常見的一種偏見,還有就是資料集中不同地區人口比例,並不是按照現實世界來的。

對此,鄧偉洪給出的解決方案是構建新的測試資料集,並且還有基於遷移學習、強化學習的人臉識別模型,相當於多個層次的人臉識別公平性的研究體系。

闞美娜:多粒度影像遷移建模

接下來,中國科學院計算技術研究所副研究員、碩士生導師闞美娜,針對影像遷移建模方面的工作,做了題為《多粒度影像遷移建模》的報告。

與其它講者不同的是,她的工作是從不同的粒度進行遷移,包括域的層面、類別的層面和樣例的層面。

針對這三個不同的層面,闞美娜提出了三種不同的方法。

楊強申省梅等AI大咖共談「跨域學習」,搞定小資料才是王道 | CNCC 2020

中國科學院計算技術研究所副研究員 闞美娜

域的層面上,闞美娜提出的方法叫做無監督的雙向領域轉換

提出了一種Duplex Generative Adversarial Network:

  • 利用帶條件的生成器的,進行雙向領域轉換。

  • 兩個待分類的對抗器,保真的同時還能夠做到保持類別。

  • 並且,具有判別性的域不變特徵。

網路結構如下圖所示:

楊強申省梅等AI大咖共談「跨域學習」,搞定小資料才是王道 | CNCC 2020

類別的層面上,闞美娜提出的方法叫做基於元預測器的小樣本影像分類

改進的主要工作在下圖中的MPM模組中。模型訓練方面,採用內層-外層迴圈更新策略:

  • 內層迴圈:更新學習器{Tθ}Ni=1

  • 外層迴圈:更新元學習器Tθ

楊強申省梅等AI大咖共談「跨域學習」,搞定小資料才是王道 | CNCC 2020

第三,在樣例的層面上,闞美娜提出的方法叫做基於風格解耦的樣例屬性風格遷移

主要分為兩大模組:

  • 一個是「兩步法」模組,包括屬性去除和屬性風格新增。

  • 一個是「風格解耦」模組,包括屬性風格編碼到均勻分佈,以及最大化編碼和風格的互資訊。

楊強申省梅等AI大咖共談「跨域學習」,搞定小資料才是王道 | CNCC 2020

最後,闞美娜總結道:

不同域間可遷移的資訊存在多個層次。

不同資訊的遷移方式是不同的。

鄭良:測試集沒有標註資料,也能評價模型效能

當測試集沒有標註資料的時候,如何評價模型的效能?

這就是澳大利亞國立大學講師鄭良,在此次論壇中所做的報告內容——《Do We Really Need Ground Truths to Evaluate A Model?》。

楊強申省梅等AI大咖共談「跨域學習」,搞定小資料才是王道 | CNCC 2020

澳大利亞國立大學講師 鄭良

模型效能評估,可以說是機器學習中非常重要一步。

一般來說,在這樣的過程中,是要求測試集包含測試樣本與其標籤, 並將測試標籤與模型預測結果進行比較。

儘管學術界大多數資料集滿足這個要求,但在實際情況中,往往只能獲取測試資料而無法獲取其標籤。

對此,在本次報告中,鄭良介紹了一個重要而較少討論的問題:模型自動評估 (AutoEval)

更具體地來說,問題可以描述為:

給定有標籤的訓練集和一個模型,目標是估計模型在一個沒有標籤的測試集上的效能。

為此,鄭良給出了這樣的思路。

下圖最左邊的是一個訓練集,不難看出,肉眼能看到的測試集和訓練「長得」越像,識別的準確率就越高。

而這,實際上是一個domain gap的問題。換言之,識別的準確率會隨著domain gap的增大而降低。

楊強申省梅等AI大咖共談「跨域學習」,搞定小資料才是王道 | CNCC 2020

為此,鄭良提出了一種 meta-dataset 的方法,從資料集層面上設計了一種迴歸模型。

楊強申省梅等AI大咖共談「跨域學習」,搞定小資料才是王道 | CNCC 2020

並且在精度上也實現了較為理想的結果。

楊強申省梅等AI大咖共談「跨域學習」,搞定小資料才是王道 | CNCC 2020

最後,鄭良還表示,該方法在目標識別、檢測和分割任務中,也有潛在的應用。

龍明盛:遷移學習理論

除了應用方面外,清華大學軟體學院副教授、博士生導師龍明盛,從理論、演算法角度對遷移學習進行了深入的思考,做了題為《遷移學習理論,演算法及開源庫》的報告。

楊強申省梅等AI大咖共談「跨域學習」,搞定小資料才是王道 | CNCC 2020

清華大學軟體學院副教授 龍明盛

遷移學習一直是機器學習領域的難點問題,其目標是在資料分佈變化的條件下實現強泛化能 力。

並且在遷移學習中,還經常會涉及源域和目標域,而它們的資料分佈是不一樣的。

這種情況下,若是在源域訓練一個模型,無論是有監督或者無監督,在目標域的表現往往是不好的。

此時,假設源域的分佈是P,目標域的分佈是Q,因其分佈的不同(即P(X)≠Q(X)),就會出現一種情況——協變數偏移(Covariate shift)

在這種情況下,就會對應兩類遷移學習的基本方法:

  • 第一類就是基於距離的方法:定義分佈P和Q的距離。

  • 第二種就是基於對抗學習的方法:把P和Q分別當成兩個domain,然後用對抗的方法讓它們不分開。

但一般來講,這2類方法在理論上是沒有保證的。

龍明盛所做的工作,就是想要在此找到一個簡單的理論和演算法,來解釋這樣的一個現象——間隔泛化理論,如下公式所示。

楊強申省梅等AI大咖共談「跨域學習」,搞定小資料才是王道 | CNCC 2020


楊強申省梅等AI大咖共談「跨域學習」,搞定小資料才是王道 | CNCC 2020

申省梅:通用智慧將會是下一代AI發展的必然趨勢

最後,申省梅作為本屆CNCC論壇主席,對《AI 落地的跨域學習技術和進展》分論壇做了總結。

楊強申省梅等AI大咖共談「跨域學習」,搞定小資料才是王道 | CNCC 2020

澎思科技首席科學家、新加坡研究院院長 申省梅

她認為,通用智慧將會是下一代AI發展的必然趨勢:

我感覺GPT3已經邁出了一大步,當然他們利用了大量的資料以及自監督學習。

我們今天講到的遷移學習、聯邦學習,再加上進展非常大的無監督學習、自監督學習,還有一些小樣本學習、多模態學習等,這些技術相信在未來幾年裡,將會繼續為AI的落地帶來豐碩的成果。

這並不是申省梅第一次在CNCC組織這樣的活動。

早在去年,她便在CNCC2019中組織了「計算機視覺技術賦能智慧城市」的技術論壇,還帶來了主題為《影片影像智慧化助力智慧安防建設》的演講。

而作為澎思科技的首席科學家,申省梅也長期致力於監控與安全、智慧城市、自動駕駛、智慧機器人以及AI 工廠自動化解決方案等領域的相關技術的開發部署和落地。

關於澎思科技

澎思科技成立於2018年9月29日,是一家AIoT生態平臺公司,擁有全棧計算機視覺技術。

楊強申省梅等AI大咖共談「跨域學習」,搞定小資料才是王道 | CNCC 2020

澎思科技以AI、IoT、SaaS閉環模式,為各細分行業提供智慧物聯裝置、雲服務以及場景化AIoT解決方案,賦能智慧城市、智慧人居、智慧商業等領域,推動AI產業化落地程式。

在成立短短2年時間裡,澎思已經斬獲15項計算機視覺技術相關世界冠軍,並且於去年4月完成了1.5億元A輪融資。

能夠在這麼短的時間裡解鎖如此成就,澎思的後發優勢,正在展現出來。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69971123/viewspace-2731498/,如需轉載,請註明出處,否則將追究法律責任。

相關文章