元學習的崛起

AIBigbull2050發表於2019-11-04

作者 | Connor Shorten

譯者 | Raku

出品 | AI科技大本營( ID:rgznai100)

元學習描述了設計與訓練深度神經網路相關的更高階別元件的抽象。術語“元學習”在深度學習文獻中經常提及“ AutoML”,“少量學習(Few-Shot Learning)”,而涉及到神經網路體系結構的自動化設計時,則會提及“神經體系架構 搜尋(Neural Architecture Search)”。OpenAI的魔方機器人手的成功源於諸如“透過梯度下降學習如何透過梯度下降學習”之類的可笑標題的論文,魔方機器人手的成功反過來也證明了這些想法的成熟。元學習是推動深度學習和人工智慧技術發展的最有希望的範例。

OpenAI透過展示經過強化學習訓練的機器人手的突破性功能,在AI界掀起了一股熱潮。該成功基於2018年7月提出的一項非常類似的研究,該研究要求機械手將塊定位在與視覺提示匹配的配置中。後設資料學習演算法控制模擬中的訓練資料分佈,即自動域隨機化(ADR),從而推動了從塊定向到解決魔方的演變。

域隨機化—資料增強

域隨機化是一種用於解決Sim2Real傳輸的資料擴充問題的演算法。函式逼近(和深度學習)的核心功能是將其從訓練中學到的知識推廣到從未見過的測試資料。隨著對抗性噪聲的注入也不會錯分,這樣的事情已經不足以讓人感到驚奇,但深度卷積網路在進行模擬影像訓練( 左下圖)到實際視覺資料( 右下圖)時,無需改動引數就不會過擬合。

元學習的崛起

當然,有兩種方法可以使模擬資料分佈與實際資料分佈保持一致。蘋果研究人員開發的一種這樣的方法稱為SimGAN。SimGAN使用對抗損失來訓練生成對抗網路的生成器,以使模擬影像看起來儘可能逼真,而判別器則將影像歸類為真實或模擬資料集。該研究報告在眼睛注視估計和手勢姿勢估計方面取得了積極成果。另一種方法是使模擬資料儘可能多樣化,並與真實情況相反。

後一種方法稱為域隨機化。下圖來自Tobin等人在2017年的論文中很好地說明了這一想法:

元學習的崛起

將深度神經網路從模擬轉移到現實世界的域隨機化

域隨機化似乎是減小Sim2Real誤差的關鍵,在訓練時,允許深度網路將其推廣到真實資料。與大多數演算法不同,域隨機化有許多需要調整的引數。下圖顯示了塊的顏色、環境的光照和陰影的大小的隨機性。這些隨機環境特徵中的每一個都具有一個從下到上的區間以及某種取樣分佈。例如,在對隨機環境進行取樣時,該環境具有非常明亮的照明的機率是多少?

在OpenAI最初的Dactyl研究中,使用機械手實現了塊定位,在實驗之前,對域隨機資料課程進行了手動編碼。這種域隨機化超越了視覺世界,使物理模擬器中的元件隨機化,從而產生了使機械手能夠靈活靈巧地移動的策略。與視覺隨機化的想法類似,這些物理隨機化包括諸如立方體的大小/質量和手指在機器人手中的摩擦(有關更多詳細資訊,請參見附錄B用機器人手解決Rubik立方體的問題)。

從Dactyl到Rubik's Cube解算器的關鍵在於,域隨機化是核心課程,定義了隨機化的強度是 自動的,而不是手動設計的,這在ADR演算法的以下幾行中明確定義:

元學習的崛起

圖片來自“用機械手解決魔方”。如果代理的效能超過了引數效能閾值,則隨機強度會增加(由帶有phi的del來定義環境引數的分佈)

設計自己資料的AI

由Uber AI Labs的研究人員開發的配對開放式開拓者(POET)演算法是設計自己的資料的AI最好的例子之一。

元學習的崛起

“成對的開放式開拓者(POET):不斷產生越來越複雜和多樣的學習環境及其解決方案”

POET透過同時最佳化代理和步行學習環境來訓練雙足步行代理。POET與OpenAI的魔方求解器不同,它使用進化演算法,維護了步行者和周圍環境。具有主體和環境的種群的結構是構建本研究複雜性演變的關鍵。儘管與使用基於群體的學習來適應一組智慧體相比,POET使用強化學習來訓練單個智慧體,但是POET和自動域隨機化非常相似。他們都以自動化的方式開發了挑戰性不斷增長的訓練資料集。Bipedal的步行環境不會作為手動編碼的功能發生變化,而是作為步行者在不同環境中的表演數量眾多而產生的結果,表明何時該是時候應對地形挑戰了。

資料還是模型?

元學習的研究通常集中在資料和模型架構上,元學習最佳化器也屬於模型最佳化的範疇。諸如自動域隨機化之類的資料空間中的元學習已經以資料增強的形式進行了大量研究。

儘管我們已經看到了物理資料也可以進行擴充和隨機化,但還是在影像資料的上下文中最容易理解資料增強。這些影像增強通常包括水平翻轉和小幅度的旋轉或平移。這種增強在任何計算機視覺管道(例如影像分類,物件檢測或超解析度)中都是典型的。

課程學習(Curriculum Learning)是另一種資料級最佳化,涉及資料呈現給學習模型的順序。例如,讓學生先從簡單的例子開始,如2 + 2 = 4,然後再介紹更困難的概念,如2³= 8。課程學習的元學習控制器根據感知難度和資料呈現的順序來檢視資料的排序。Hacohen和Weinshall最近的一項研究在ICML 2019 會議上展示了有趣的成功(如下圖所示)。

元學習的崛起

論課程學習在深度網路訓練中的作用。最左邊的灰色條所示的香草SGD資料選擇被課程學習方法超越

神經結構 搜尋或元學習模型通常比資料級最佳化更受 關注,這是由深度學習研究的趨勢所驅動的。將基礎的AlexNet架構擴充套件到ResNet架構有一個明顯的效能優勢,該架構是在大型GPU計算的大資料集上使用深度卷積網路的先驅。ResNet被DenseNet等手工設計進一步擴充套件,隨後被AmoebaNet、efficient entnet等元學習技術超越。影像分類基準進展的時間線可以在paperswithcode .com上找到。

元學習神經體系結構試圖描述一個可能的體系結構空間,然後根據一個或多個目標度量尋找最佳的體系結構。

高階元學習者

神經結構 搜尋應用了廣泛的演算法來 搜尋結構、隨機 搜尋、網格 搜尋、貝葉斯最佳化、神經進化、強化學習和可微 搜尋。與OpenAI的自動領域隨機化技術相比,這些 搜尋演算法都相對複雜。似乎自動領域隨機化的思想可能會隨著高階 搜尋演算法而得到改進,例如,基於人群的 搜尋被加州大學伯克利分校(UC Berkeley)的研究人員證明在資料擴充方面是有用的,或者從谷歌自動擴充套件。

元學習的表達能力如何

元學習在神經結構 搜尋中經常遇到的一個限制是 搜尋空間的約束,神經架構 搜尋從一個手工設計的可能架構編碼開始,這種手工編碼自然限制了 搜尋可能的發現。然而,要使 搜尋完全可計算,必須進行權衡。

當前的架構 搜尋將神經架構視為有向無環圖(DAGs),並試圖最佳化節點之間的連線。Gaier和Ha等人的論文《重量不可知神經網路》和Xie等人的《探索隨機連線神經網路用於影像識別》表明,構建DAG神經結構是複雜的,而且還沒有得到很好的理解。

有趣的問題是,什麼時候神經結構 搜尋才能夠最佳化節點上的操作、節點之間的連線,然後能夠自由地發現新的啟用函式、最佳化器或批處理標準化等標準化技術。

思考元學習控制器的抽象程度是很有趣的。例如,OpenAI的魔方解算器本質上有3個智慧元件,一個符號化的魔方解算器,一個視覺模型和一個控制網路來操作機械手。元學習控制器能夠足夠聰明地理解這種模組化並設計最近由Gary Marcus倡導的符號和深度學習系統之間的混合系統嗎?

元學習資料的擴充也非常有限。大多數資料擴充 搜尋(甚至自動領域隨機化)都被限制在元學習控制器可用的一組轉換中。這些轉換可能包括影像的亮度或模擬中陰影的強度。增加資料擴充自由度的一個有趣嘗試是將這些控制器與能夠探索非常獨特的資料點的生成模型 結合起來。這些生成模型可以設計狗和貓的新影像,而不是旋轉現有的影像或使影像變暗/變亮。儘管非常有趣,但是似乎像BigGAN或VQ-VAE-2這樣的最新生成模型無法用於ImageNet分類中的資料增強。

遷移與元學習

不同於AutoML被用來描述模型或資料集的最佳化,元學習經常被用來描述轉移和少鏡頭學習的能力。這種定義與用自動域隨機化方法解決的Sim2Real的域適應問題是一致的。然而,這個定義也描述了從ImageNet分類到識別缺陷的學習。

元學習的崛起

魔方解算器的一個有趣的結果是,它具有適應擾動的能力。例如,儘管在手上戴了橡膠手套,將手指綁在一起,並覆蓋了立方體的遮擋(視覺模型必須完全受損,因此感測必須由Giiker cube的感測器完成),求解器仍能繼續工作。這種轉移元學習是策略網路中用於訓練機械手控制的LSTM層的結果。我認為與自動最佳化相比,元學習的這種使用更像是記憶增強網路的一個特徵。我認為這說明了統一元學習和確定術語的單一定義的困難。

結束語

魔方的成功顯然是引人注目的,因為它展示了機器人手的協調能力。然而,這項研究更有趣的部分是元學習資料的隨機化。這是一個在設計訓練資料的同時進行學習的演算法。Jeff Clune在《AI-GAs》中描述的這種包含元學習體系結構、元學習演算法本身以及生成有效學習環境的演算法正規化,為深度學習和人工智慧的發展提供了巨大的機遇。感謝您的閱讀,如果您想了解更多關於OpenAI的論文,請檢視下面的影片。

原文連結:

.com/the-rise-of-meta-learning-9c61ffac8564





來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2662472/,如需轉載,請註明出處,否則將追究法律責任。

相關文章