一文帶你看遍深度學習發展的成就歷程(一)

dicksonjyl560101發表於2019-06-24


https://www.toutiao.com/a6706035719103578631/


一文帶你看遍深度學習發展的成就歷程(一)

在這篇文章中,作者將描述17年在機器學習領域中發生了什麼有趣的重大 發展,主要是深度學習領域。在17年中發生了很多事情,在作者停下來進行回顧的時候,他發現了這些發展的成就是非常壯觀的,下面讓我們來在作者的帶領下認識一下17年在深度學習中發展的領域的狀況,這篇文章很可能會影響我們在資料科學領域未來的發展。

1.文字

1.1 谷歌神經機器翻譯

2016年左右,谷歌宣佈推出谷歌翻譯新模式。谷歌公司詳細描述翻譯的網路架構 - 迴歸神經網路(RNN)。

一文帶你看遍深度學習發展的成就歷程(一)

而最後的主要結果是:縮小了機器與人類在翻譯準確性方面上的差距,達到了55-85%(人們按照六分制進行評分)。如果Google沒有擁有的龐大資料集,那麼很難重新呈現這個模型的高效果性。

一文帶你看遍深度學習發展的成就歷程(一)

1.2 人機交流是否會有市場?

你可能在過去聽到了一個古怪的新聞,新聞的內容是Facebook關閉了它的聊天機器人,原因是這個聊天機器人已經失去了控制並創造了自己的語言。這個聊天機器人是由FB公司建立的。它的主要目的是與另一個代理人進行文字交流並達成共識:如何將一個物品(書籍,帽子等)分成兩部分。每個代理人在交流中都有自己的目標,而對方則不知道對方的目標。在沒有達成協議的情況下不可能離開這場交流。

在訓練這方面,他們收集了人類交流談話的資料集,並培訓了一個受監督的神經網路。然後,他們使用了一個強化學習訓練的代理人並訓練它與自己交談,並設定了一個限制:使用的語言必須跟人類的語言相似。

機器人已經學會了一種真正的交流策略,比如在交易的某些方面表現出虛假的興趣,但是後來放棄了這部分興趣,然後從真正 的目標中獲益。這是第一次嘗試建立出這樣一個互動式的機器人,而且是非常成功的。

當然,有關於說機器人從零開始發明了一種語言的訊息無疑是有誇大的成分在裡面的。當機器人訓練時(與同一個代理人進行談判時),他們取消了了文字必須和人類語言有相似性的限制,演算法修改了互動語言。沒什麼不尋常的。

在過去的一年中,神經網路已經正在被積極的應用並得到了發展,不斷的被開發並用於許多工和應用程式中。但RNN的體系結構變得更加複雜,但在某些領域,通過簡單的前饋網路(DSSM)也取得了類似的結果 。例如,Google的郵件功能Smart Reply與之前的LSTM達到了相同的質量。此外,Yandex還推出了基於此類網路的新搜尋引擎。

2.聲音

2.1 WaveNet:原始音訊的生成模型

DeepMind的員工在他們的文章中報導瞭如何生成音訊。簡而言之,研究人員基於以前的影像生成方法(PixelRNN和PixelCNN)製作了一個自迴歸全卷積波網模型。

一文帶你看遍深度學習發展的成就歷程(一)

網路經過端到端的訓練:輸入文字,輸出音訊。研究得到了很好的結果,與人類相比,研究的結果差異減少了50%,取得了較好的效果。

一文帶你看遍深度學習發展的成就歷程(一)

網路的主要缺點是生產率低,因為自動迴歸是按順序產生聲音的,建立一秒鐘的音訊需要大約1-2分鐘的時間。

看看......抱歉,聽聽下面這個例子。

如果你刪除網路模型對輸入文字的依賴性並且只依賴於對先前生成並保留下來的音素,那麼網路將生成一段毫無意義的類似於人類語言的音素。

聽聽下面這段生成聲音的音訊。

同樣的模式不僅僅可以應用於語言,還可以應用於例如建立音樂。想象一下由模型生成的音樂,這是使用鋼琴遊戲的資料集所進行訓練的(同樣不依賴於輸入資料)。

2.2 讀脣術

讀脣是另一項深度學習的成就和對人類挑戰的勝利。

谷歌Deepmind與牛津大學合作,在文章《 Lip Reading Sentences in the Wild 》報告了他們的模型是如何獲取資料進行訓練並超越BBC頻道中的專業的脣語讀者的。

一文帶你看遍深度學習發展的成就歷程(一)

資料集中有100,000個帶有音訊和視訊的句子。型號:音訊LSTM,視訊CNN + LSTM。這兩個狀態向量被輸入到最終的LSTM,並最終有LSTM生成結果(字元)。

一文帶你看遍深度學習發展的成就歷程(一)

在訓練期間使用了不同型別的輸入資料:音訊,視訊和音訊+視訊。換句話說,它是一個“全方位”的模型。

一文帶你看遍深度學習發展的成就歷程(一)

2.3 合成奧巴馬的演講視訊:視訊、音訊、脣語的同步

華盛頓大學在創造美國前總統奧巴馬的嘴脣運動方面做了大量工作。因為他的線上演講視訊數量巨大(17小時的高清視訊),所以華盛頓大學的人選的選擇就落在他身上。

一文帶你看遍深度學習發展的成就歷程(一)

由於他們有太多的工作,所以他們不可能每天都去跟神將網路相處。因此,他們製作了一些柺杖(或者說技巧,如果你喜歡這個詞語的話)來改進紋理和時間。

一文帶你看遍深度學習發展的成就歷程(一)

你可以看到結果非常令人驚訝。我相信很快的,你就不會相信在網上看到的有關總統的視訊了。

3.計算機視覺

3.1 OCR:谷歌地圖和街景

在他們的帖子和文章中,谷歌Brain團隊報告了他們如何在其地圖中引入一種新的OCR(光學字元識別)引擎,通過該引擎可以識別街道標誌和商店標誌。

一文帶你看遍深度學習發展的成就歷程(一)

一文帶你看遍深度學習發展的成就歷程(一)

在技術開發過程中,公司編制了一個新的FSNS(法語街道名稱標識),其中包含許多複雜的案例。

為了識別每個標誌,該網路使用了每個標誌多達四張照片。使用CNN提取特徵,在空間注意力的幫助下進行縮放(考慮畫素座標),並將結果饋送到LSTM。

一文帶你看遍深度學習發展的成就歷程(一)

同樣的方法適用於在招牌上識別商店名稱的任務(可能存在大量“噪音”資料,並且網路本身必須“聚焦”在正確的位置)。該演算法應用於800億張照片。

3.2 視覺推理

有一種稱為視覺推理的任務,要求神經網路使用一張照片來回答一個問題。例如:“圖中是否有與黃色金屬圓筒相同尺寸的橡膠?”這個問題真的很重要,直到最近,這個問題才得以解決,但是這個問題的準確率只有68.5%。

一文帶你看遍深度學習發展的成就歷程(一)

但是,Deepmind團隊在這個問題上實現了突破:在CLEVR資料集上,他們達到了95.5%的超人精度。

網路架構非常有趣:

  1. 利用預先訓練的LSTM對文字問題進行嵌入。
  2. 將CNN(僅四層)的圖片,得到特徵圖(特徵描述圖片)。
  3. 接下來,我們在特徵圖上形成座標切片的成對組合(下圖中的黃色,藍色,紅色),為每個切片新增座標並將文字嵌入其中。
  4. 我們通過另一個網路驅動所有這些三元組並總結。
  5. 生成的簡報通過另一個前饋網路執行,該網路提供softmax的答案。
一文帶你看遍深度學習發展的成就歷程(一)

3.3 Pix2Code

Uizard公司建立了一個有趣的神經網路應用程式:根據介面設計師的螢幕截圖生成程式碼。

一文帶你看遍深度學習發展的成就歷程(一)

這是一個非常有用的神經網路應用程式,它可以使開發軟體時的生活變得很輕鬆。作者聲稱它們的準確率達到了77%。然而,這個程式仍然在研究中,還沒有關於實際使用的討論。

目前還沒有開源的程式碼或資料集,但是他們承諾未來將進行開源。

3.4 草圖迴圈神經網路(RNN):教一臺機器畫畫

也許你已經看過Quick,Draw!這個程式來自Google,其目標是在20秒內繪製各種物件的草圖讓程式進行識別。該公司收集了使用者繪畫的資料集,以教導神經網路繪製圖片。

一文帶你看遍深度學習發展的成就歷程(一)

收集的資料集由7萬張草圖組成,最終可以公開使用。草圖不是圖片,而是圖片的詳細向量表示(此時使用者按下“鉛筆”,線上條被繪製的地方釋放,等等)。

研究人員使用RNN作為編碼/解碼機制,訓練了序列到序列變分自動編碼器(VAE)。

一文帶你看遍深度學習發展的成就歷程(一)

最終,與自動編碼器相匹配的是,模型接收到一個潛在的向量,該向量表示原始影像的特徵。

一文帶你看遍深度學習發展的成就歷程(一)

雖然解碼器可以從一個向量中提取繪圖,但是你可以更改它並獲得一份新的草圖。

一文帶你看遍深度學習發展的成就歷程(一)

甚至可以執行向量運算建立出一直豬貓(那不就是橘貓咯):

一文帶你看遍深度學習發展的成就歷程(一)

3.5 GANs

深度學習中最熱門的話題之一就是生成對抗網路(GAN)。生成對抗網路(GAN)是一類用於無監督機器學習的神經網路。它們有助於解決諸如描述影像生成,從低解析度影像獲取高解析度影像,預測哪種藥物可以治療某種疾病,檢索包含給定模式的影像等任務。大多數情況下,這個概念用於處理影像。

這個想法是在兩個網路的競爭中產生的 - 發生器和鑑別器。第一個網路建立一個圖片,第二個網路試圖瞭解圖片是真實的還是生成的。

原理圖看起來是這樣的:

一文帶你看遍深度學習發展的成就歷程(一)

在訓練過程中,來自隨機向量(噪聲)的發生器生成影像並將其傳送到鑑別器的輸入中,該鑑別器判斷它是否是假的。鑑別器還會從資料集中獲得真實影像進行判斷。

由於難以找到兩個網路的平衡點,因此難以對這種結構進行訓練。大多數情況下,鑑別者獲勝訓練停滯不前。然而,該系統的優點是我們可以解決我們很難設定損失函式的問題(例如,提高照片的質量),我們將其提供給鑑別器進行設定 。

GAN訓練結果的典型例子是臥室或人的照片

一文帶你看遍深度學習發展的成就歷程(一)

一文帶你看遍深度學習發展的成就歷程(一)

在這之前,也曾考慮了自動編碼(Sketch-RNN),它將原始資料編碼為潛在的表示形式。生成器也是如此。

使用向量生成影像的思想在下面這個專案中的人臉中得到了清晰的展示。你可以更改向量並檢視面部的變化方式。

一文帶你看遍深度學習發展的成就歷程(一)

同樣的演算法也適用於潛在的空間:“一個戴眼鏡的男人”減去“一個男人”加上“一個女人”等於“一個戴眼鏡的女人”。

一文帶你看遍深度學習發展的成就歷程(一)

3.6 用GAN改變面部年齡

如果在訓練期間像潛在向量傳輸一個受控的引數,那麼當生成它時,你就可以更改它,從而管理圖片中的必要影像。這種方法稱為條件GAN。

“使用條件生成性對抗網路進行面部老化”這篇文章的作者也是如此。研究人員在IMDB資料集上堆引擎進行了已知演員年齡的訓練,然後給了研究人員改變人臉年齡的機會。

一文帶你看遍深度學習發展的成就歷程(一)

3.7 專業的照片

Google還發現了GAN的另一個有趣的應用 - 照片的選擇和改進。GAN是在一個專業的照片資料集上進行訓練的:生成器正在嘗試改善糟糕的照片(變成專業的拍攝照片並在特殊過濾器的幫助下進行降級)而鑑別器用來 - 區分“改進的”照片和真正的專業照片。

經過訓練的演算法通過Google街景全景圖搜尋最佳構圖,並收到一些專業和半專業質量的照片(根據攝影師的評分)。

一文帶你看遍深度學習發展的成就歷程(一)

一文帶你看遍深度學習發展的成就歷程(一)

3.8 從文字描述中合成影像

GAN的一個令人印象深刻的示例是使用文字生成影像。

一文帶你看遍深度學習發展的成就歷程(一)

這項研究的作者建議將文字嵌入到一個生成器(條件GAN)和一個識別器的輸入中,以便驗證文字與圖片的對應關係。為了確保鑑別器學會執行它的功能,除了訓練之外,他們還為真實的圖片新增了帶有錯誤文字的配對。

一文帶你看遍深度學習發展的成就歷程(一)

3.9 Pix2pix

2016年最引人注目的文章之一是伯克利人工智慧研究院(BAIR)的“有條件對抗網路的影像對影像翻譯”(“Image-to-Image Translation with Conditional Adversarial Networks“)。研究人員解決了影像到影像的生成問題,例如,需要使用衛星影像建立地圖,或者使用草圖建立物件的真實紋理。

一文帶你看遍深度學習發展的成就歷程(一)

這是條件GAN成功執行的另一個例子。在這種情況下,條件是涉及到全域性的。在影像分割中很受歡迎的是UNet被用作生成器的體系結構,並且使用新的PatchGAN分類器作為用於對抗模糊影像的鑑別器(圖片被切割成N個Patch,並且分別對每個Patch進行真偽預測)。

克里斯托弗·黑塞(Christopher Hesse)做了夢魘貓的演示,引起了使用者的極大興趣。

一文帶你看遍深度學習發展的成就歷程(一)

您可以在此處找到原始碼。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2648604/,如需轉載,請註明出處,否則將追究法律責任。

相關文章