【強化學習】使用off-policy演算法機器人抓取任務基準;生成對抗網路 GAN 就是強化學習

產業智慧官發表於2018-03-26

【強化學習】使用off-policy演算法機器人抓取任務基準;生成對抗網路 GAN 就是強化學習


本文轉自雷克世界(ID:raicworld)

編譯 | 嗯~阿童木呀


在本文中,我們探討了用於基於視覺的機器人抓取操作的深度強化學習演算法。無模型深度強化學習(RL)已經在一系列具有挑戰性的環境中得到了成功應用,但演算法的激增使得我們難以辨別出哪種特定的方法最適合於執行一個豐富的、多樣化的任務,例如抓取。為了回答這一問題,我們提出了一個機器人抓取的模擬基準,強調了對於沒見過的目標的策略學習和泛化。


Off-policy學習能夠在各種各樣的目標上對抓取資料加以利用,而且多樣性對於使該方法能夠在訓練期間泛化到沒見過的目標中起到至關重要的作用。我們對針對各種Q函式估計方法的基準任務進行了評估,一種是以往提出的,使用深度神經網路模型進行機器人抓取,以及一種基於蒙特卡羅迴歸估計(Monte Carlo return estimation)和off-policy校正相組合的新方法。我們的研究結果表明,幾種簡單的方法為諸如雙Qlearning這樣的通用演算法提供了一個令人驚訝的強大競爭對手,而我們對穩定性的分析揭示了演算法之間的相對權衡。

 

【強化學習】使用off-policy演算法機器人抓取任務基準;生成對抗網路 GAN 就是強化學習


機器人抓取是最基本的機器人操作任務之一:在與環境中的目標進行互動之前,機器人通常必須從先抓取它們開始。在以前的機器人操作研究中往往試圖通過各種各樣的方法解決抓取問題,從分析抓取度量到基於學習的方法。直接從自我監督中學習抓取為這一領域提供了相當有發展前景的研究方向:如果機器人能夠通過反覆的經驗逐漸提高自身的抓取能力,那麼它可能會在極少人為干預的情況下達到非常高的熟練程度。


實際上,受計算機視覺技術啟發的,基於學習的方法近年來取得了良好的效果。然而,這些方法通常不是導致抓取任務序列方面結果的原因所在,要麼選擇一個單一的抓取姿勢,要麼貪婪地反覆選擇下一個最有希望抓取的姿勢。雖然先前的研究已經在一個序列決策上下文中,對使用深度強化學習(RL)作為機器人抓取的框架進行了探索,但這樣的研究要麼僅限於單一的目標,要麼是諸如立方體這樣的簡單幾何形狀。

 

【強化學習】使用off-policy演算法機器人抓取任務基準;生成對抗網路 GAN 就是強化學習


左上角:我們模擬抓取環境的演示。機器人必須在容器中拾取目標,所使用的隨機目標如圖2所示的。右上角:對機器人的樣本觀察。左下角:在第一個任務中,機器人選擇了各種各樣的隨機目標,並將其泛化到沒見過的測試目標中。右下角:在第二項任務中,機器人必須從雜亂的箱子中挑出一個紫色的十字形物體。


在這項研究中,通過在一個真實的模擬基準中對各種強化學習方法加以比較,我們探討了強化學習是如何用於自動學習用於不同物體的機器人抓取技巧


在基於學習的抓取中,最重要的挑戰之一是泛化能力:該系統能夠學習抓取模式和線索,從而使其能夠成功對訓練期間不可見的目標實現抓取嗎?成功的泛化通常需要對各種各樣的目標和場景進行訓練,以獲得可泛化的感知和控制。先前有關抓取的監督學習研究已經使用了數萬乃至數百萬個抓取動作,涉及數百個不同的目標。


這種機制對於強化學習來說是一個重大挑戰:如果學習主要是on-policy進行的,那麼機器人必須反覆重訪先前所看到的目標以避免遺忘,這使得處理極其多樣化的抓取場景變得更加困難。因此,Off-policy強化學習方法可能更適用於諸如抓取這樣的任務,其中各種先前看到的目標對於泛化來說具有至關重要的作用。事實上,在以前的研究中所探討的監督學習方法可以被形式化為Off-policy強化學習的特例,而不考慮抓取任務的序列本質。

 

【強化學習】使用off-policy演算法機器人抓取任務基準;生成對抗網路 GAN 就是強化學習

左:用於訓練的900個物件中的30個。右:100個測試物件中的10個。


我們在本文中的研究目標是瞭解哪些Off-policy強化學習演算法最適合基於視覺的機器人抓取任務。


近年來,為解決Atari遊戲和簡單模擬機器人的控制等問題,科學家們已經提出了許多無模型、Off-policy深度強化學習方法。然而,這些研究並沒有對機器人抓取任務中出現的各種各樣的高度變化的情況進行探索,重點通常集中在最終的效能表現上(例如期望獎勵),而不是泛化到新的目標和場景中。此外,訓練通常涉及逐步收集越來越多的on-policy資料,同時將舊的off-policy資料保留在重放緩衝區中。我們研究這些演算法的相對效能是如何在一個強調多樣性和泛化能力的off-policy機制中進行變化的。


我們對這些方法的討論,為以往研究中的各種Q-函式估計技術提供了一個統一的處理方法。我們的研究結果表明,深度強化學習可以成功地從原始畫素中學習抓取多種目標,並且可以在我們的模擬器中對以往沒有見過的目標進行抓取,且平均成功率為90%。


令人驚訝的是,在這個具有挑戰性的領域中,樸素蒙特卡羅評估是一個強有力的基準,儘管在off-policy情況下存在一定的偏差。我們提出的無偏差、校正版本實現了可與其相媲美的效能表現。深度Q-learning在資料有限的機制系統下表現得也很出色。我們還分析了不同方法的穩定性,以及在on-policy 和off-policy情況下,不同off-policy資料數量情況下的效能差異。我們的研究結果揭示了不同方法是如何在現實的模擬機器人任務上進行比較的,並提出了開發新的、更有效的用於機器人操作的深度強化學習演算法的途徑。

 

【強化學習】使用off-policy演算法機器人抓取任務基準;生成對抗網路 GAN 就是強化學習

對不同資料集大小的測試目標的定期抓取效能展示。DQL和監督基線效能表現最好。從9個獨立執行的隨機seeds中計算的標準差。


我們提出了一系列off-policy、無模型深度強化學習演算法的經驗評估。我們的演算法集包括通用的無模型方法,如雙Q-learning、DDPG和PCL,以及基於監督學習的使用合成動作的先驗方法。


除此之外,我們的方法中還涵蓋一個樸素蒙特卡羅方法,它在off-policy情況下存在偏差,但卻能夠取得合理的效能表現,且常常優於DDPG,以及一個該蒙特卡羅方法的修正版本,也是這項研究的一個新成果。我們的研究實驗是在一個涉及兩種任務的多樣化抓取模擬器上進行的,一個抓取任務是對訓練期間全新的、不可見隨機目標的泛化能力的評估,以及一個目標抓取任務,它需要在混亂狀態下的特定型別的目標進行分離並抓取。


【強化學習】使用off-policy演算法機器人抓取任務基準;生成對抗網路 GAN 就是強化學習


針對不同的資料集大小,將抓取目標鎖定在一個有三個目標物件和四個非目標物件的混亂的箱子中。DQL在較少資料和off-policy環境中表現良好,而蒙特卡羅和修正版蒙特卡羅方法在具有最大量資料的環境中表現最好。


我們的評估結果表明,無論是對於on-policy還是off-policy學習來說,DQL的效能表現都要比較少資料機制下的其他演算法好得多,並且附加帶有對超引數選擇具有魯棒性的理想屬性。當資料更豐富時,諸如蒙特卡羅或蒙特卡羅修正版本這樣的迴歸到多步返回的演算法,通常會獲得稍好的效能表現。


在考慮演算法特徵時,我們發現使用演員網路(actor network)會大大降低穩定性,導致效能表現較差和嚴重的超引數敏感性。當資料充足時,使用完整事件值進行監督的方法往往表現得更好,而自助式(bootstrapped)DQL方法在較少資料情況下表現更好。


這些結果表明,在可以使用off-policy資料的機器人環境中,更適合使用單一網路方法以維護穩定性;而在資料充足時,使用(修正)完整事件返回的方法是更好的首選,而bootstrapped方法更適合用於較少資料環境中。這一結果的本質含義是,在未來,對機器人強化學習演算法的研究可能會集中在通過調整基於資料可用性的目標值型別以將最佳自助式和多步返回結合起來。我們研究的另一個自然延伸是在實際環境中評估類似的方法。由於我們所評估的演算法都能在off-policy環境下成功執行,因此在現實環境中使用它們也可能是一個合理且實用的選擇。


原文來源:arXiv

作者:Deirdre Quillen、Eric Jang、Ofir Nachum、Chelsea Finn、Julian Ibarz、Sergey Levine

原文連結:https://arxiv.org/pdf/1802.10264.pdf




生成對抗網路 GAN 就是強化學習(超全資料)

【強化學習】使用off-policy演算法機器人抓取任務基準;生成對抗網路 GAN 就是強化學習

Ian Goodfellow  新智元報導  

來源:fermatslibrary.com

編譯:聞菲、肖琴



【新智元導讀】今天,Ian Goodfellow開展了一場有關生成對抗網路(GAN)的最新AMA問答,從他小時候如何學習程式設計,如何想出GAN這個idea,到具體的技術和應用,Goodfellow都作出了專業而且誠懇的回答。Goodfellow認為不止是GAN,膠囊網路、強化學習、半監督學習等等方法都很重要,也值得更多人重視。



關於GAN:想法來自酒後與同行的爭論



問:有傳言說你是在一家小酒館裡想出了GAN的idea,是這樣嗎?


Ian Goodfellow :這是真事,不僅僅是傳言。我之前在好幾次採訪中都講過這個故事了。

參考:專訪 Ian Goodfellow:欲在谷歌打造 GAN 團隊,用假資料訓練真模型


問:在訓練GAN方面似乎有兩三個陣營(camp),你和在OpenAI、谷歌的人,Mescheder, Sebastian Nowozin和微軟研究院的人,以及其他。在這些陣營中你有看到什麼相似點嗎?


Ian Goodfellow:實際上有更多陣營。FAIR/NYU也是重鎮,實際上是FAIR/NYU最先把GAN帶進了我們的視野(LAPGAN)。那是第一次GAN生成了逼真的高清影像,也是第一次GAN得到媒體曝光,等等。另外一個重要陣營是伯克利+英偉達,他們專注超高清逼真影像和視訊,無監督翻譯,等等。我不太清楚你用“陣營”(camps)想表達什麼,如果是說用不同的思路和方法在研究GAN,那麼確實如此。但“陣營”一般多指相互敵對的團隊,在這裡並不適用。



要從根本上重新考慮使用的策略,現有神經元難以抵禦對抗攻擊



問:問個有點偏的問題——有人認為重新思考深度學習模型中“神經元”的工作方式,是應對對抗樣本的唯一方法,你怎麼看?在以前的演講中你提到過,這種通用樣本的存在是因為這些模型的“線性”(對應之前人們說的“非線性”)。繼續採用使用了這些神經元的模型,在方向性上說會不會是錯誤的?或者說,好好選擇啟用函式,做好資料增強/防禦,能從整體上解決這個問題?


Ian Goodfellow:我不認為這個問題有點偏,因為GAN的判別器需要具有魯棒性,應對生成器的對抗攻擊。同時,我確實認為我們當前使用的神經元,很難在應對對抗樣本方面具有魯棒性。但我並不認為這是唯一有問題的地方。一些最新的工作,比如(https://arxiv.org/abs/1801.02774)表明,要讓影像分類安全可靠,我們真的需要從根本上重新考慮我們使用的策略,而不僅僅是訓練的模型。


膠囊網路(Capsule networks)能比普通模型更好的應對對抗攻擊(https://openreview.net/forum?id=HJWLfGWRb)。目前還不清楚這是不是最好的防禦方法——我還沒看到有使用最先進的攻擊方法來一對一測試模型可靠性的工作。


問:定量評估GAN的指標是什麼?


Ian Goodfellow:這取決於你想用GAN來做什麼。如果你想將其用於半監督式學習,請使用測試集精度作為評估指標,如果你想使用它來生成高質量的影像(例如超解析度),那麼可能需要使用人類評分員來評估。如果你只是想得到一個通用的自動化的質量得分,那麼我認為Frechet Inception Distance(https://arxiv.org/abs/1706.08500)可能是最好的,尤其是對於class-specific(https://arxiv.org/pdf/1802.05957.pdf)的模型來說。這些指標本身現在仍是一個正在進行的重要的研究領域。


問:有沒有辦法將潛變數(latent variables)對映到fake image的部分?換句話說,是否可以這樣說:這2個變數改變影像的背景顏色,這些x變數修改了形狀,等等?


Ian Goodfellow:這不是總是可行的,但你可以訓練模型這樣表現。例如InfoGAN:https://arxiv.org/abs/1606.03657



ArXiv讓人繞過同行評議,降低深度學習論文質量



問:1)如何在GAN和其他生成模型,比如VAE和FVBN(NADE, MADE, PixelCNN)之間選擇?選擇的時候有什麼比較標準嗎?2)像Librarian/Fermat's Library這樣的線上文庫對於ML/DL論文來說重要嗎?現在ML/DL論文一般都是直接發表在arXiv。


Ian Goodfellow:我在Fermat’s Library這裡做AMA,就是為了推廣這些工具,我認為它們很重要,也值得更多人重視。ArXiv現在基本成了繞過同行評議的捷徑,讓深度學習論文的訊雜比驟降。現在仍然有很多優秀的深度學習研究在進行,但同樣也存在大量的低質量工作。如今就連最好的那些工作也是好壞摻半——有很好的想法,但卻用宣傳推廣的套路在寫,跟其他工作的比較也不準確,等等。這都是因為這些論文沒有經過同行評議。


至於方法選擇,如果你想生成連續變數的真實樣本,做無監督翻譯(例如GycleGAN),或者做半監督學習,那麼你很可能用得著GAN。如果你想生成的是離散標記(token),你或許還用不著GAN,但我們也在不斷改進。如果你想要的是最大似然,就不要用GAN了。



關於GAN和其他方法:GAN基本上可以說就是強化學習



問:GAN與強化學習(RL)原則之間有什麼相似之處(如果有的話)?我對這兩者都不是專家(只有非常基本的瞭解),我覺得GAN的“generator - discriminator”的想法和RL的“agent - environment interaction”有著緊密的聯絡。是這樣嗎?


Ian Goodfellow:我也不是RL的專家,但我認為GAN是使用RL來解決生成建模問題的一種方式。GAN的不同之處在於,獎勵函式對行為是完全已知和可微分的,獎勵是非固定的,以及獎勵是agent的策略的一個函式。但我認為GAN基本上可以說就是RL。


問:有測試生成模型可遷移性的論文或研究嗎?例如我有一個生成狗或者貓的模型,之後想用早一些的層生成狼和老虎。


Ian Goodfellow:我不知道,但肯定有。對於生成器來說,可能偏後期的層(靠近輸出的)更容易共享。



關於GAN的應用:GAN適用於半監督學習問題



問:GAN能用於話題建模(Topic Modeling)嗎?除了生成建模(目前主要用於影像),還有其他領域使用GAN框架嗎?


Ian Goodfellow:我猜應該有,但我不知道具體的。文件是離散token,比如文字、單詞,而GAN需要計算生成器的輸出的梯度,因此在有連續輸出的地方才能很好的工作。或許你可以用對抗自編碼器,或者AVB,在這裡生成器實際上是編碼器,能夠輸出連續的程式碼。這對於文件建模有很大幫助,因為能對topics給出一個分散式表示。


問:GAN在基因組學裡有什麼應用?


Ian Goodfellow:我不太瞭解基因組學,但我認為GAN這類的模型可以用於半監督學習。我想在基因組學中,未標記的資料應該比有標記的更多,利用大量的未標記資料從少量標記資料中學習的話,半監督學習會很有幫助。這方面Tim Salimans提出了一些方法,在MNIST、SVHN等基準上特別好用:https://arxiv.org/abs/1606.03498 


但需要注意,我們發現其他半監督方法實際上並不怎麼好用(https://openreview.net/forum?id=ByCZsFyPf ),但半監督GAN並沒有接受這些測試。



11歲學會程式設計,10篇最好的GAN論文推薦



問:您最近在Twitter上列舉了你覺得最好的10論文GAN論文。你可以寫一篇部落格文章,介紹從GAN的初學者到GAN專家都適合的所有論文和其他資源嗎?


Ian Goodfellow:我可能沒有時間做這件事情,而且就算寫一篇這樣的文章,它會很快就過時。


我在2016年12月寫了關於GAN的長文教程:NIPS 2016 Tutorial: Generative Adversarial Networks (https://arxiv.org/abs/1701.00160)

裡面的許多想法在今天仍然有價值,儘管這個教程沒有包含2017年以來的最新模型,例如Progressive GANs,spectrally normalized GANs, GANs with projection discriminator等等。


問:你是怎樣提高你的程式設計技巧,以便快速嘗試各種瘋狂的想法,例如GANs?有沒有推薦的程式設計技能的書?以及請推薦一些TensorFlow學習或深度學習框架的書籍。謝謝。


Ian Goodfellow:


回答推薦書籍:我自己學習現代深度學習程式設計的路徑是相當間接的(在我開始使用Python之前,我已經學會了各種C,assembly,web等程式語言),因此我不知道對於今天的學習者來說最好的方法是什麼。


在程式設計能力方面,對我來說一個非常重要的轉折點是在史丹佛大學Jerry Cain開的CS107課程,我記得是在2006年春季學習了這門課程。在那之前,我只是一名程式設計愛好者,系統工作的時候我感到興奮,但很多時候,系統當機時我只能感到困惑,不知道是什麼地方錯了。學完這門課後,我就再沒有因為軟體開發方面的任何事情困惑過。你可以在YouTube或iTunes U之類的網站上找到這門課的講座。


回答“你怎樣提高程式設計技能,以便快速嘗試各種瘋狂的想法,比如GANs”:

我程式設計的時間很長!我在11歲就學會了程式設計,中學時我們的數學課有圖形計算器,有人在上面用 TI-BASIC編了一個遊戲。為了瞭解這個遊戲的工作原理,我從圖書館複製了一本“MacFroggy Teaches Basic ”來學習BASIC語言。


我入坑deep learning的部分原因是我一直在出於愛好做遊戲程式設計。我一直在使用OpenGL Shading Language(GLslang)來編寫通用的GPU程式。當CUDA推出時,利用GPU進行CUDA程式設計實際上比試圖將數學問題轉換為專為圖形設計的語言要容易得多。在Geoff Hinton的關於deep belief nets的論文發表後不久,我的朋友Ethan Dreyfuss就給我講了有關深度學習的內容,然後我和Ethan一起搭建了史丹佛大學的第一臺用於深度學習的CUDA機器。我最初編寫的深度學習程式是在CUDA中實現RBM。與我編寫GAN時所做的努力相比,這要困難得多。在寫GAN時,我已經有很多很好的工具,例如Theano,LISA lab等等。


編寫GAN程式碼很容易,部分原因是我有一個很好的程式碼庫,可以從早期的專案開始。我的整個博士學位期間都在搞深度學習,有很多類似的程式碼可以隨時待命。我的第一個GAN實現主要是從MNIST分類器(https://arxiv.org/pdf/1302.4389.pdf)的程式碼中複製貼上來的。



Ian Goodfellow關於GAN的資料大全



Invited Talks

Adversarial Examples and Adversarial Training

  • "Defending Against Adversarial Examples". NIPS 2017 Workshop on Machine Learning and Security. [slides(pdf)] [slides(key)]

  • "Thermometer Encoding: One hot way to resist adversarial examples," 2017-11-15, Stanford University [slides(pdf)] [slides(key)]

  • "Adversarial Examples and Adversarial Training," 2017-05-30, CS231n, Stanford University [slides(pdf)] [slides(key)]

  • "Adversarial Examples and Adversarial Training," 2017-01-17, Security Seminar, Stanford University [slides(pdf)] [slides(key)]

  • "Adversarial Examples and Adversarial Training," 2016-12-9, NIPS Workshop on Reliable ML in the Wild [slides(pdf)] [slides(key)] [video(wmv)]

  • "Adversarial Examples and Adversarial Training," presentation at Uber, October 2016. [slides(pdf)]

  • "Physical Adversarial Examples," presentation and live demo at GeekPwn 2016 with Alex Kurakan. [slides(pdf)]

  • "Adversarial Examples and Adversarial Training," guest lecture for CS 294-131 at UC Berkeley. [slides(pdf)] [slides(key)] [video(youtube)]

  • "Exploring vision-based security challenges for AI-driven scene understanding," joint presentation with Nicolas Papernot at AutoSens, September 2016, in Brussels. Access to the slides and video may be purchased at the conference website. They will be freely available after six months.

  • "Adversarial Examples and Adversarial Training" at HORSE 2016. [slides(pdf)] [youtube]

  • "Adversarial Examples and Adversarial Training" at San Francisco AI Meetup, 2016. [slides(pdf)]

  • "Adversarial Examples and Adversarial Training" at Quora, Mountain View, 2016. [slides(pdf)]

  • "Adversarial Examples" at the Montreal Deep Learning Summer School, 2015. [slides(pdf)] [video]

  • "Do statistical models understand the world?" Big Tech Day, Munich, 2015. [youtube]

  • "Adversarial Examples" Re-Work Deep Learning Summit, 2015. [youtube]

Generative Adversarial Networks

  • "Overcoming Limited Data with GANs". NIPS 2017 Workshop on Limited Labeled Data. [slides(pdf)] [slides(key)]

  • "Bridging theory and practice of GANs". NIPS 2017 Workshop on Bridging Theory and Practice of Deep Learning. [slides(pdf)] [slides(key)]

  • "GANs for Creativity and Design". NIPS 2017 Workshop on Creativity and Design. [slides(pdf)] [slides(key)]

  • "Giving artificial intelligence imagination using game theory". 35 under 35 talk at EmTech 2017. [slides(pdf)][slides(key)]

  • "Generative Adversarial Networks". Introduction to ICCV Tutorial on Generative Adversarial Networks, 2017. [slides(pdf)] [slides(key)]

  • "Generative Adversarial Networks". NVIDIA Distinguished Lecture Series, USC, September 2017. [slides(pdf)] [slides(key)]

  • "Generative Adversarial Networks". Adobe Research Seminar, San Jose 2017. [slides(pdf)] [slides(keynote)]

  • "Generative Adversarial Networks". GPU Technology Conference, San Jose 2017. [slides(pdf)] [slides(keynote)]

  • "Generative Adversarial Networks". Re-Work Deep Learning Summit, San Francisco 2017. [slides(pdf)] [slides(keynote)]

  • Panel discussion at the NIPS 2016 Workshop on Adversarial Training: Facebook video

  • "Introduction to Generative Adversarial Networks," NIPS 2016 Workshop on Adversarial Training. [slides(keynote)] [slides(pdf)] [video (Facebook)]

  • "Generative Adversarial Networks," NIPS 2016 tutorial. [slides(keynote)] [slides(pdf)] [video] [tech report(arxiv)]

  • "Generative Adversarial Networks," a guest lecture for John Canny's COMPSCI 294 at UC Berkeley. Oct 2016. [slides(keynote)] [slides(pdf)] [youtube]

  • "Generative Adversarial Networks" at AI With the Best (online conference), September 2016. [slides(pdf)]

  • "Generative Adversarial Networks" keynote at MLSLP, September 2016, San Francisco. [slides]

  • "Generative Adversarial Networks" at Berkeley AI Lab, August 2016. [slides(pdf)]

  • "Generative Adversarial Networks" at NVIDIA GTC, April 2016. [slides(pdf)][video]

  • "Generative Adversarial Networks" at ICML Deep Learning Workshop, Lille, 2015. [slides(pdf)] [video]

  • "Generative Adversarial Networks" at NIPS Workshop on Perturbation, Optimization, and Statistics, Montreal, 2014. [slides(pdf)]

Other Subjects

  • "Adversarial Robustness for Aligned AI". NIPS 2017 Workshop on Aligned AI. [slides(pdf)] [slides(key)]

  • "Defense Against the Dark Arts: Machine Learning Security and Privacy," BayLearn, 2017-10-19. [slides(pdf)][video(youtube)]

  • "Adversarial Machine Learning for Security and Privacy," Army Research Organization workshop, Stanford, 2017-09-14. [slides(pdf)]

  • "Generative Models I," 2017-06-27, MILA Deep Learning Summer School. [slides(pdf)] [slides(key)]

  • "Adversarial Approaches to Bayesian Learning and Bayesian Approaches to Adversarial Robustness," 2016-12-10, NIPS Workshop on Bayesian Deep Learning [slides(pdf)] [slides(key)]

  • "Design Philosophy of Optimization for Deep Learning" at Stanford CS department, March 2016. [slides(pdf)]

  • "Tutorial on Optimization for Deep Networks" Re-Work Deep Learning Summit, 2016. [slides(keynote)] [slides(pdf)]

  • "Tutorial on Neural Network Optimization Problems" at the Montreal Deep Learning Summer School, 2015. [slides(pdf)][video]

  • "Practical Methodology for Deploying Machine Learning" Learn AI With the Best, 2015. [slides(pdf)] [youtube]


Contributed Talks

  • "Qualitatively characterizing neural network optimization problems" at ICLR 2015. [slides(pdf)]

  • "Multi-digit Number Recognition from Street View Imagery using Deep Convolutional Neural Networks" with Yaroslav Bulatov and Julian Ibarz at ICLR 2014. [youtube]

  • "Maxout Networks" at ICML 2013. [video]

  • "Joint Training Deep Boltzmann Machines for Classification" at ICLR 2013 (workshop track). [video]


Miscellaneous

  • I've made several presentations for the Deep Learning textbook, and presented some of them at a study group for the book.

  • PhD thesis defense. [youtube] [slides]


Ian Goodfellow GAN資料地址:http://www.iangoodfellow.com/slides

Ian Goodfellow 關於GAN的最新AMA地址:https://fermatslibrary.com/arxiv_comments?url=https%3A%2F%2Farxiv.org%2Fpdf%2F1406.2661.pdf

【強化學習】使用off-policy演算法機器人抓取任務基準;生成對抗網路 GAN 就是強化學習


人工智慧賽博物理作業系統

AI-CPS OS

人工智慧賽博物理作業系統新一代技術+商業作業系統“AI-CPS OS:雲端計算+大資料+物聯網+區塊鏈+人工智慧)分支用來的今天,企業領導者必須瞭解如何將“技術”全面滲入整個公司、產品等“商業”場景中,利用AI-CPS OS形成數字化+智慧化力量,實現行業的重新佈局、企業的重新構建和自我的煥然新生。


AI-CPS OS的真正價值並不來自構成技術或功能,而是要以一種傳遞獨特競爭優勢的方式將自動化+資訊化、智造+產品+服務資料+分析一體化,這種整合方式能夠釋放新的業務和運營模式。如果不能實現跨功能的更大規模融合,沒有顛覆現狀的意願,這些將不可能實現。


領導者無法依靠某種單一戰略方法來應對多維度的數字化變革。面對新一代技術+商業作業系統AI-CPS OS顛覆性的數字化+智慧化力量,領導者必須在行業、企業與個人這三個層面都保持領先地位:

  1. 重新行業佈局:你的世界觀要怎樣改變才算足夠?你必須對行業典範進行怎樣的反思?

  2. 重新構建企業:你的企業需要做出什麼樣的變化?你準備如何重新定義你的公司?

  3. 重新打造自己:你需要成為怎樣的人?要重塑自己並在數字化+智慧化時代保有領先地位,你必須如何去做?

AI-CPS OS是數字化智慧化創新平臺,設計思路是將大資料、物聯網、區塊鏈和人工智慧等無縫整合在雲端,可以幫助企業將創新成果融入自身業務體系,實現各個前沿技術在雲端的優勢協同。AI-CPS OS形成的字化+智慧化力量與行業、企業及個人三個層面的交叉,形成了領導力模式,使數字化融入到領導者所在企業與領導方式的核心位置:

  1. 精細種力量能夠使人在更加真實、細緻的層面觀察與感知現實世界和數字化世界正在發生的一切,進而理解和更加精細地進行產品個性化控制、微觀業務場景事件和結果控制。

  2. 智慧:模型隨著時間(資料)的變化而變化,整個系統就具備了智慧(自學習)的能力。

  3. 高效:企業需要建立實時或者準實時的資料採集傳輸、模型預測和響應決策能力,這樣智慧就從批量性、階段性的行為變成一個可以實時觸達的行為。

  4. 不確定性:數字化變更顛覆和改變了領導者曾經仰仗的思維方式、結構和實踐經驗,其結果就是形成了複合不確定性這種顛覆性力量。主要的不確定性蘊含於三個領域:技術、文化、制度。

  5. 邊界模糊:數字世界與現實世界的不斷融合成CPS不僅讓人們所知行業的核心產品、經濟學定理和可能性都產生了變化,還模糊了不同行業間的界限。這種效應正在向生態系統、企業、客戶、產品快速蔓延。

AI-CPS OS形成的數字化+智慧化力量通過三個方式激發經濟增長:

  1. 創造虛擬勞動力,承擔需要適應性和敏捷性的複雜任務,即“智慧自動化”,以區別於傳統的自動化解決方案;

  2. 對現有勞動力和實物資產進行有利的補充和提升,提高資本效率

  3. 人工智慧的普及,將推動多行業的相關創新,開闢嶄新的經濟增長空間


給決策制定者和商業領袖的建議:

  1. 超越自動化,開啟新創新模式:利用具有自主學習和自我控制能力的動態機器智慧,為企業創造新商機;

  2. 迎接新一代資訊科技,迎接人工智慧:無縫整合人類智慧與機器智慧,重新

    評估未來的知識和技能型別;

  3. 制定道德規範:切實為人工智慧生態系統制定道德準則,並在智慧機器的開

    發過程中確定更加明晰的標準和最佳實踐;

  4. 重視再分配效應:對人工智慧可能帶來的衝擊做好準備,制定戰略幫助面臨

    較高失業風險的人群;

  5. 開發數字化+智慧化企業所需新能力:員工團隊需要積極掌握判斷、溝通及想象力和創造力等人類所特有的重要能力。對於中國企業來說,創造兼具包容性和多樣性的文化也非常重要。


子曰:“君子和而不同,小人同而不和。”  《論語·子路》雲端計算、大資料、物聯網、區塊鏈和 人工智慧,像君子一般融合,一起體現科技就是生產力。


如果說上一次哥倫布地理大發現,擴充的是人類的物理空間。那麼這一次地理大發現,擴充的就是人們的數字空間。在數學空間,建立新的商業文明,從而發現新的創富模式,為人類社會帶來新的財富空間。雲端計算,大資料、物聯網和區塊鏈,是進入這個數字空間的船,而人工智慧就是那船上的帆,哥倫布之帆!


新一代技術+商業的人工智慧賽博物理作業系統AI-CPS OS作為新一輪產業變革的核心驅動力,將進一步釋放歷次科技革命和產業變革積蓄的巨大能量,並創造新的強大引擎。重構生產、分配、交換、消費等經濟活動各環節,形成從巨集觀到微觀各領域的智慧化新需求,催生新技術、新產品、新產業、新業態、新模式。引發經濟結構重大變革,深刻改變人類生產生活方式和思維模式,實現社會生產力的整體躍升。



產業智慧官  AI-CPS


用“人工智慧賽博物理作業系統新一代技術+商業作業系統“AI-CPS OS”:雲端計算+大資料+物聯網+區塊鏈+人工智慧)在場景中構建狀態感知-實時分析-自主決策-精準執行-學習提升的認知計算和機器智慧;實現產業轉型升級、DT驅動業務、價值創新創造的產業互聯生態鏈


【強化學習】使用off-policy演算法機器人抓取任務基準;生成對抗網路 GAN 就是強化學習

【強化學習】使用off-policy演算法機器人抓取任務基準;生成對抗網路 GAN 就是強化學習

長按上方二維碼關注微信公眾號: AI-CPS,更多資訊回覆:


新技術“雲端計算”、“大資料”、“物聯網”、“區塊鏈”、“人工智慧新產業:智慧製造”、智慧金融”、“智慧零售”、“智慧駕駛”、智慧城市新模式:“財富空間“工業網際網路”、“資料科學家”、“賽博物理系統CPS”、“供應鏈金融”


官方網站:AI-CPS.NET



本文系“產業智慧官”(公眾號ID:AI-CPS)收集整理,轉載請註明出處!



版權宣告產業智慧官(公眾號ID:AI-CPS推薦的文章,除非確實無法確認,我們都會註明作者和來源。部分文章推送時未能與原作者取得聯絡。若涉及版權問題,煩請原作者聯絡我們,與您共同協商解決。聯絡、投稿郵箱:erp_vip@hotmail.com





相關文章