兩個月三項成果,對標谷歌!獨家對話小米AutoML團隊,如何讓模型搜尋更公平

大資料文摘發表於2020-04-06

兩個月三項成果,對標谷歌!獨家對話小米AutoML團隊,如何讓模型搜尋更公平

大資料文摘出品

作者:曹培信

機器學習自動化(AutoML)正在引領機器學習的下一個時代,而要想讓機器自己學會“煉丹”,其中最關鍵的步驟就是,找到最合適的演算法模型,也即自動化神經架構搜尋(Neural Architecture Search,簡稱NAS)。

兩個月三項成果,對標谷歌!獨家對話小米AutoML團隊,如何讓模型搜尋更公平

要快速、高效判斷哪個模型最有效並不是一件容易事。NAS界目前一種主流的方法是谷歌大腦創立的One-Shot派。

One-Shot,顧名思義,只完整訓練一個超網,主張權重共享,對不同路徑進行取樣作為子模型訓練,並基於此對模型排名,這樣就可以更快速判斷模型效能,提高搜尋效率。

就像透過一次“考試”來判斷這群“模型們”的能力,透過最終分數決定排名。

看似很公平,但是,One-Shot模式下,雖然考題一致,但是學生的學習時間、訓練方式都不盡相同,很容易導致好的模型由於沒有獲得充分的訓練,而表現不佳。

兩個月三項成果,對標谷歌!獨家對話小米AutoML團隊,如何讓模型搜尋更公平

在One-Shot模式基礎上,小米AI實驗室的AutoML團隊在七月初提出了一個新的概念——FairNAS,來解決這一模型訓練中的“公平”問題。並且在ImageNet 1k分類任務MobileNetV2量級上,FairNAS擊敗了Google Brain在CVPR 2019釋出的MnasNet。

在FairNAS基礎上,上週,小米AutoML團隊展示出一項新的研究成果:MoGA——移動端GPU敏感,對多目標進行加權處理,鼓勵增大引數量,直接面向在移動端的落地應用,在業內引發了廣泛關注。

昨天,小米AI實驗室AutoML團隊又重磅釋出了最新成果SCARLET,超過Google Brain首席科學家Quoc Le團隊提出的EfficientNet同量級模型(ICML 2019),這次是讓自動化神經網路搜尋具備了可伸縮性,完善了7月初發表的FairNAS。

從FairNAS,到MoGA,再到昨天釋出的SCARLET,這支團隊只用了不到兩個月的時間。

至此,小米AutoML團隊打造了FairNAS、MoGA、SCARLET三部曲,在ImageNet 1k分類任務上分別超過Google頂級團隊的MnasNet、MobileNetV3、EfficientNet。

大資料文摘第一時間對三篇論文的主創人員、小米AutoML團隊的高階軟體工程師初祥祥和軟體工程師張勃進行了專訪。這也是這支年輕的團隊,首次公開對這三份研究進行解讀。

從反直覺問題入手,兩個月研發“三部曲”,直接對標谷歌

公平”,初祥祥在採訪中多次提到了這個關鍵詞,而這也是他們在今年五月份,開始進行FairNAS專案的靈感來源。

“我們FairNAS技術一開始的insight是來自於谷歌大腦,當時發現one shot論文裡面公佈的結果,取樣了大概幾百個模型,但是準確率是很大的一個range,從30%到90%。但是根據我們之前做的實驗,這個range實際上是比較異常的。多數模型的range比較窄,比如在80%到95%。”

兩個月三項成果,對標谷歌!獨家對話小米AutoML團隊,如何讓模型搜尋更公平

於是,初祥祥團隊對此進行了驗證,得出了一個很反直覺的結論:看似公平的隨機取樣模型的Single Path,30次迭代之後,子模型得到公平訓練的機率近似等於0。

初祥祥說:“這就是我們最原始的insight,包括最新發布的SCARLET,靈感也是來源於MIT、Facebook的論文中架構可伸縮性的問題。”

初祥祥也表示:“其實我們這一路走來都是在對標谷歌大腦在NAS的最新研究。”

從大廠論文中的反直覺點入手,直接和強者對標,這也許就是小米AutoML團隊強大內驅力的由來。

接下來,先跟著文摘菌先來一起看看這篇最新的釋出——SCARLET

SCARLET:解決共享引數超網訓練的可伸縮問題

小米AutoML團隊的最新的論文,提出了具備伸縮功能的自動化神經網路搜尋SCARLET,透過線性等價變換,解決了one-shot路線中超網訓練伸縮性較差的問題。

這篇論文的靈感同樣來自對已有研究的質疑,初祥祥表示:“FairNAS雖然能解決取樣不公平的問題,但是要做搜尋layer的通道數往往都是固定的。而很多學者包括MIT、Facebook的研究者都會在論文中稱,他們的NAS架構是可伸縮的,但很難找到具體的中間過程。比如一個有18層的可伸縮的NAS,理論上可縮到一層,但是這中間的具體過程卻很少有人去提,或者只提一下是可伸縮的,但是沒有提最後的效果,經過驗證後我們發現這個伸縮對結果影響很大,搗亂到非常嚴重的地步。”

兩個月三項成果,對標谷歌!獨家對話小米AutoML團隊,如何讓模型搜尋更公平

SCARLET系列是直接對標Google Brain提出的EfficientNet,在ImageNet 1k分類任務中達到76.9%的Top-1精度,目前是<390M FLOPs量級的SOTA。

One-shot自動化神經架構搜尋的特點是在一次執行中快速訓練一個超級網路,這種權重共享方法的一個關鍵問題是缺乏可伸縮性。儘管對identity塊進行簡單的調整就可以得到一個可伸縮的超級網路,但這會引起訓練不穩定,從而使模型的排名結果變得不可靠。

而SCARLET引入了線性等價變換來緩和訓練波動,並證明了這種變換後的模型在表示能力上與原模型等價。因此整體方法命名為SCARLET (SCAlable supeRnet with Linearly Equivalent Transformation)。

兩個月三項成果,對標谷歌!獨家對話小米AutoML團隊,如何讓模型搜尋更公平

SCARLET模型結構兩個月三項成果,對標谷歌!獨家對話小米AutoML團隊,如何讓模型搜尋更公平
當前SOTA模型在ImageNet資料集上的對比

看完SCARLET,讓我們再來回顧一下三部曲的前兩部,FairNASMoGA

FairNAS:如何避免神經網路中的馬太效應,不讓“富者愈富,窮者愈窮”

7月初,小米AI實驗室AutoML團隊公佈了最新研究成果FairNAS,在ImageNet 1k分類任務MobileNetV2量級上,擊敗了MIT韓松團隊在ICLR2019釋出的 Proxyless mobile,Google Brain在CVPR 2019釋出的MnasNet,及 Facebook的FBNet。

兩個月三項成果,對標谷歌!獨家對話小米AutoML團隊,如何讓模型搜尋更公平

FairNAS的核心解決的就是多次迭代後超網訓練會導致不公平的問題。

張勃對於這種不公平取樣有個非常形象的比喻:“類比一下,其實就像社會學概念裡面的馬太效應。就是說富者恆富,窮者就變得越窮,對於神經網路也是一樣,如果把神經網路裡面的模型比作孩子的話,這有一部分在窮人家庭長大,有一部分在這富人家庭長大,在窮人家庭長大的沒有得到好的培養,所以他們可能資質很高,但是並沒有被髮掘出來,所以需要讓所有的模型都到充分的訓練。就像把所有小孩放到同一個封閉式學校,大家都在這裡,跟家庭是隔離的,全是在學校培養,那20年後,如果他們真正表現出差異,那就是他稟賦及能力的差異。”

針對這個問題,小米AutoML團隊採用的是“不放回策略”。

兩個月三項成果,對標谷歌!獨家對話小米AutoML團隊,如何讓模型搜尋更公平

另外要解決的是,每一次的迭代涉及到反向傳播和更新引數,從而產生的次序問題。解決的核心方式是“只累積梯度,不更新引數”。

張勃依然是用教育來比喻:“這就相當於考試的時候,髮捲子有先後順序,但是先拿到卷子的人不能答題,要發完後一起答題。”

MoGA:移動端GPU敏感,直接面向落地

對於移動端來說,分類是其他計算機視覺任務的基礎,圖形的分割和檢測都需要用分類網路做骨幹網。隨著CV在移動端應用的普及,包括谷歌在內的科技公司都把目光投向了移動端可用的輕型自動化神經網路搜尋架構。

然而Google Brain等團隊的研究普遍只考慮移動端CPU的延遲,但實際在移動端的使用中,往往都執行在GPU上,兩者的延遲並非簡單的線性,不僅和硬體相關,還與框架實現相關。

於是在8月6日,小米AutoML團隊又展示出一項新的研究成果:MoGA,MoGA提出了移動端GPU敏感的NAS,對多目標進行加權處理,鼓勵增大引數量,而對GPU敏感的特性,使得MoGA直接面向在移動端的落地應用。

在資料上,MoGA已經超過了Google Brain和Google AI團隊聯合的代表作MobileNetV3(目前谷歌開源MobileNetV3還未開源),在 ImageNet 1K分類任務200M量級,在移動端GPU維度上超過MobileNetV3。

兩個月三項成果,對標谷歌!獨家對話小米AutoML團隊,如何讓模型搜尋更公平

初祥祥在解釋為什麼要做移動端GPU敏感的NAS時說:“谷歌的論文裡面的實驗都是CPU上跑,但是其實我們團隊來做業務,還有國內很多的網際網路公司手機公司都在做AI的應用上,很少在CPU上跑。這是因為在手機上,比如845這種相對主流配置的一點,它的GPU速度大概是CPU速度的四倍,這就是解釋了為什麼國內大家願意用GPU來做AI的原因,因為它速度快,體驗會好很多,四倍的速度就是差很多的,所以谷歌釋出的模型對於相關落地不是很友好。”

從論文到模型全部開源,MoGA已經有了業務落地和收益

當我們問到為何將面向應用的MoGA也開源時,張勃表示:“我們相信自己會持續輸出成果,所以我們不會因為一個MoGA開源就怎麼樣,這一點我們有信心。我們要做的是一個品牌和技術的影響力。”

而初祥祥也表示,MoGA這項成果也很方便同行進行研究。

“相比谷歌動不動3000個TPU天的訓練量,MoGA的總算力只有20GPU天,方便研究者復現,甚至學生都可以做做實驗。”

初祥祥還告訴我們:“(開源)也是鼓勵更多的對NAS感興趣的研究人員共同探討,就像我們在解決每一次的迭代涉及到啟用模型和更新引數,從而產生的次序問題時,我們採用的是‘只累積梯度,不更新引數’,這是一個核心的方法,有的同行發郵件來詢問這個問題,其實我們論文已經寫得很清楚了,但是可能是沒有注意到。我們歡迎同行來進行探討。”

初祥祥和張勃還透露,根據團隊發的調查問卷顯示,已經有洛桑理工、佐治亞理工等國外院校和西交大、北理、北航等國內院校,以及一些企業都對預訓練模型進行了下載和調研,還有一些直接發來郵件進行探討。

而談到MoGA這種面向應用的成果目前落地的情況時,初祥祥和張勃表示:正在進行,並且已經有了收益

MoGA已經在高通845上進行了實驗,在視覺任務上,可能一個團隊一年半才能提升有限的準確率,用了MoGA就直接有明顯的提升。

而且初祥祥表示:“其實這種是越往上越難提高,而我們是在他們的基礎上提升的,所以其實我們有困難的,但是我們還是有了明顯的提高。”

張勃補充道:“其實我們小米內部已經有業務證明了,直接用FairNAS去替換主幹網,也直接產生了收益。IoT方面,也在落地當中。”

小米AutoML團隊也透露,論文釋出後收到了來自全球學界和業內的交流郵件,包括華為、ARM、TCL、Keep在內的公司對FairNAS和MoGA都很感興趣,表達了加強合作交流的願望。

團隊方法論:選擇做什麼比做什麼本身更重要

87年出生的初祥祥畢業於清華電機系,師從於歆傑教授,從說服上級成立AutoML團隊,到帶領團隊持續輸出對標谷歌的成果,一共用了10個月的時間。

在如此短的時間內,完成從成立團隊到密集輸出成果,初祥祥也有自己的一套方法論。

團隊人數不多,所以方向不能錯,這是決定生死的一個問題,”初祥祥解釋說,“要去關注如何發揮最大的效率,這也要一個長期的規劃。”

“現在基本上就是我來制定我們的整體路線,當然這其實有很大的風險,就是個人的偏置如果錯了,影響是很大的。”

張勃也補充:“團隊的leader要有一個非常清晰的目標,比如說我們能達到什麼,目前達不到什麼,我們可能踮踮腳尖能達到什麼,以後能達到什麼,就是需要一個非常清晰的判斷。”

最後,小米的AutoML團隊也正在招募招募深度學習演算法/軟體工程師,感興趣的讀者可以點選閱讀原文進一步瞭解。

最後的最後,也再補充三部曲論文合集連結,你也可以在大資料文摘後臺回覆“NAS"下載論文包,一次看過癮?

Chu et al., Multi-Objective Reinforced Evolution in Mobile NeuralArchitecture Search 
Chu et al., Fast, Accurate and Lightweight Super-Resolution with Neural Architecture Search
Chu et al., FairNAS: Rethinking Evaluation Fairness of Weight Sharing Neural Architecture Search
Chu et al., MoGA: Searching Beyond MobileNetV3
Chu et al., ScarletNAS: Bridging the Gap Between Scalability and Fairness in Neural Architecture Search

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2654331/,如需轉載,請註明出處,否則將追究法律責任。

相關文章