https://blog.csdn.net/weixin_42137700/article/details/89838643

在過去十年中，機器學習在很多領域都取得了前所未有的進展，如影像識別，自動駕駛汽車、和玩複雜遊戲如「GO」等。這些成就在很大程度上都是透過採用監督學習和強化學習兩種正規化中的一種來訓練深度神經網路得以實現的。這兩種正規化都要求人為設定「訓練訊號」並將其傳遞給計算機。在監督學習的示例中，這些訊號被視為「目標」（例如某個影像的正確標籤）；在強化學習中，它們是行為正確時獲取的「獎勵」（例如在 Atari 遊戲中獲得高分）。因此，機器學習的界限是由人類訓練者所定義的。

雖然一些科學家認為，擁有足夠包容的訓練體制，如使智慧體具備完成各類任務的能力，就應該足以達到通用的智慧水平，但其他人則認為真正的智慧需要更多的獨立學習策略。例如，迴歸到人類幼童如何學習的場景，她的祖母可能會坐在她身旁，耐心地舉出什麼是「鴨子」的例子（該行為像是監督學習中的指示訊號），或者在她完成木版拼圖時用掌聲表示獎勵（如同在強化學習中一樣）。但是，幼兒在絕大多數時間裡都是在天真地探索世界，透過好奇心、遊戲和觀察的方式來理解她周圍的環境。無監督學習是一種旨在透過獎勵智慧體（即計算機程式）來建立自主智慧以便在不考慮特定任務的情況下學習其觀察到的資料的正規化。換句話說，智慧體是為了學習而學習。

無監督學習的一個關鍵動機是，雖然傳遞給學習演算法的資料擁有很豐富的內部結構（如影像、影片和文字），但用於訓練的目標和獎勵通常都非常稀疏（例如，標籤「狗」指的是尤其多變的物種，標籤「0」或「1」表示遊戲中的「失敗」或「成功」）。這表明演算法學到的大部分內容必須包括對資料本身的理解，而不是將這種理解應用於特定任務。

解碼視覺元素

2012 年是深度學習的里程碑年，這一年，AlexNet （以其首席架構師 Alex Krizhnevsky 命名）席捲ImageNet 分類競賽，其識別影像的能力被認為是前所未有的，而更令人矚目的則是它的內部結構。當研究人員分析 AlexNet 時，發現它透過構建影像輸入更復雜的內部表示來解釋影像。在底層表示如紋理和邊緣之類的低層特徵，然後將它們組合在一起形成高階概念，如輪子和狗。

這與我們的大腦處理資訊的方式非常相似，在初級感官處理區域的簡單邊緣和紋理被聚合成複雜物件，如更高區域中的面部。因此，複雜場景的表示可以由視覺基元構建，這種方式大致類似於構成句子的單個詞所帶來的意義。即使沒有明確的指導，AlexNet 的層級也已經發現了一個基本的視覺「詞彙」來解決其任務。從某種意義上說，它已經學會了玩 Wittgenstein 所謂的「語言遊戲」，該遊戲會反覆地將畫素轉換為標籤。

卷積神經網路的視覺詞彙。在網路的每一層都會生成最大程度地啟用特定神經元的影像。然後，這些神經元對其他影像的響應可以被解釋為視覺上看不見的「單詞」，如紋理、書架、狗鼻子、鳥等。（圖源：特徵視覺化，Olah et al，2017）。

遷移學習

從通用智慧的角度來看，關於 AlexNet 詞彙的最有趣的事情，就是它可以被重複使用或遷移到正在訓練以外的視覺任務中，例如識別整個場景而不是單個物件。在不斷變化的世界中，遷移是必不可少的，並且也是人類所擅長的，我們能夠將從已有經驗（世界認知模型）中得到的技能和理解迅速地順手應用到任何場景中。例如，一位古典樂鋼琴家可以相對輕鬆地演奏爵士鋼琴。理論上，塑造了對於世界正確的內部表徵的人工智慧體，應該能夠做類似的事情。

儘管如此，AlexNet 等分類器所學到的表示仍具有侷限性。特別是，由於該網路只訓練成單一類別（如貓、狗、汽車、火山）的標註影像，因此標註推理中任何不需要的資訊都易於被忽略，無論這些資訊對其他任務有多重要。例如，如果標籤推導的總是前景，那表示可能就無法捕獲影像的背景特徵。一種可行的解決方案是提供更全面的訓練訊號，如將描述影像的標題更詳細化：不僅僅在標題中提到「狗」，而要完整地寫出「柯基犬在陽光明媚的公園中追趕飛盤」。然而，這些目標很難獲取，特別是在規模上，可能不足以捕獲完成任務所需的所有資訊。無監督學習的基本前提是，學習內容豐富、廣泛可遷移性的表示的最佳途徑就是嘗試學習能被學到資料的所有資訊。

如果透過表示學習的遷移概念看起來過於抽象，那麼可以試想一個學過將人畫成火柴人的小孩。她發現了一種高度緊湊和具有快速適應性的人類形態的表示。她可以透過為每個火柴人增加具體細節，為她所有的同學繪製肖像畫：例如為她最好的朋友畫一幅眼鏡，給她同桌「穿」上他最喜歡的紅色 T 恤。而且她學習這項技能不是為了完成一項特定任務或獲得獎勵，而是對反映了她周圍世界的基本需求的回應。

從創造中學習：生成式模型

也許無監督學習的簡單的目標是訓練演算法以生成其本身的資料例項。所謂的生成式模型不應該簡單地再現他們正在上面訓練的資料，這是一種無趣的記憶行為。生成式模型的目的是建立一個基礎類，並能夠從中抽取資料的模型：不是特定的馬或彩虹的照片，而是馬和彩虹的所有照片集；不是來自特定發言者的特定表達，而是說話表達方式的通用性分佈。生成式模型的指導原則是，能夠構建一個令人信服的資料例子就是智慧體已經理解了該資料的最有力證據：正如 Richard Feynman 所說，「對於我所無法理解的東西，我就無法創造出來。」

對於影像，迄今為止最成功的生成式模型要數生成式對抗網路（簡稱 GAN），它包含兩個網路，即一個生成網路和一個判別網路，二者在 GAN 中的作用就如同參與一場類似於藝術品偽造和甄別的識別競賽。生成網路產生影像的目的是誘使鑑別者相信它們是真實的；與此同時，判別網路則會因發現贗品而獲得獎勵。所生成的影像，先是雜亂和隨機的，隨後在許多次迭代中被細化，並且在網路之間的持續動態會讓影像變得更加逼真——在許多情況下，這些影像甚至與真實照片無法區分。生成對抗性網路還可以由使用者大致用草圖勾勒出其定義的場景細節。

掃一眼下面的這些影像，它們足以讓我們相信，網路已經學會了如何表示其訓練的圖片的許多關鍵特徵，如動物身體的結構、草的紋理以及光影的細節效果（即使是透過肥皂泡折射的）。但仔細觀察下面這些圖，就不免能發現些許小異常，如白狗明顯多了條腿，噴泉其中一個噴嘴的水流呈奇怪的直角狀。雖然生成式模型的開發者在努力避免這種不完美，但這些可見的不完美也突顯了重建熟悉的資料（如影像）的一個好處，即研究人員可以透過檢查樣本，推斷出模型學到了什麼以及沒有學到什麼。

BigGAN 描繪的場景和生物（Brock, Donahue and Simonyan, 2018）

從預測中創造

無監督學習中另一個著名的成員是自迴歸模型，該模型其中的資料被分成一連串小部分，然後對每個小部分依次進行預測。這類模型可以透過連續預測接下來會發生什麼，從而來生成資料，並將上輪預測結果作為新的輸入繼續進行預測。語言模型可能就是最好的例子，語言模型中每個單詞都是它上一個的單詞的預測結果，這些模型可用於在某些電子郵件和訊息應用程式中彈出的文字預測。語言建模的最新進展是能夠生成看似合理的段落，例如下圖所示的 OpenAI 的 GPT-2 生成的段落。

文字中一個有趣的謬誤就是獨角獸被描述為有四個角：再次證明了對於網路理解侷限性的探討是非常有趣的。

透過控制用於決定輸出預測的輸入序列，自迴歸模型也可以用來將一個序列轉換為另一個序列。這個 demo（~graves/handwriting.html）使用了一個假定的自迴歸模型將文字轉換為逼真的手寫。WaveNet 可以將文字轉換為自然語音，並且現在也應用於為 Google 智慧助理生成語音。條件和自迴歸生成的類似處理過程也可用於語種間的翻譯。

自迴歸模型透過嘗試以特定順序預測資料來學習資料。透過一部分資料來預測其他資料的方法可以用來構建一種更泛化的無監督學習的演算法類。例如，這可以看做是從句子中刪除一個單詞，並嘗試用剩餘的內容來預測這個被刪掉的單詞。透過學習來進行大量的區域性預測，模型逐漸能夠從整體上學習資料。

關於生成式模型的一個擔憂，就是它們有可能被濫用。人類雖然早就能夠透過照片，影片和音訊編輯操縱證據，但藉助生成式模型可以更容易地惡意編輯媒體資料。我們可以看到所謂的「deepfakes」的例子，比如對奧巴馬總統的偽造影片片段（）。鼓舞人心的是，針對這些挑戰，業界已經開展了幾項主要的應對工作，其中包括使用統計技術來幫助檢測合成媒體和驗證真實媒體、提高公眾意識以及圍繞限制訓練好的生成式模型的可用性的討論。此外，生成式模型本身可用於檢測合成媒體和異常資料，如模型可用於檢測虛假語音（https://www.blog.google/outreach-initiatives/google-news-initiative/advancing-research-fake-audio-detection/）或識別支付異常以保護客戶免受欺詐。而研究人員則需要研究生成式模型，以便更好地理解它們並降低其應用風險。

重新想象的智力

生成式模型本身就很吸引人，但 DeepMind 對於它們主要感興趣的是，該模型能夠在通往通用智慧的道路上起到「墊腳石」的作用。賦予智慧體生成資料的能力就是一種賦予其想象力的方式，從而使其具備規劃和推理未來的能力（https://deepmind.com/blog/agents-imagine-and-plan/）。我們的研究表明，即使沒有明確的資料支援，學習預測環境的方方面面也可以豐富智慧體的世界模型，從而提高其解決問題的能力。

這些結果與我們對人類思維的認知非常一致。我們所擁有的在沒有明確監督的情況下了解世界的能力，是我們所認為的智力的基礎。在乘坐火車時，我們可能會無精打采地凝視著窗戶，將手指劃過座位的天鵝絨，看著坐在我們對面的乘客。我們沒有帶著任何任務去做這些事，然而幾乎都在情不自禁地收集資訊，並且我們的大腦也在無意識地不斷地解我們周圍的世界，以及我們所處的位置。

via：

https://deepmind.com/blog/unsupervised-learning/

觀點 | 通往通用人工智慧的路上，我們少不了無監督學習

解碼視覺元素

遷移學習

從創造中學習：生成式模型

從預測中創造

重新想象的智力

相關文章