GAN:人工智慧是否能夠自主創造虛擬世界?

AIBigbull2050發表於2019-08-25

來源:Medium

作者:Mike Hearn

《星際迷航》(Star Trek)中的全息甲板(Holodeck)最引人關注的就是它創造出虛擬“實感”的方式。

其次,企業號航空母艦(U.S.S. Enterprise)上的電腦也引人關注。它可以依據簡單的提綱來即時生成場景和故事。《星際迷航》中,讓人記憶猶新的那幾集,往往都是艦上船員們扮演成他們“編寫”進電腦中的故事裡的人物,當然,船員們表演的“故事”總是朝著意想不到的方向發展。

船員們使用全息甲板時,通常只需要告訴星艦他們想要什麼。鑑於這些技術並未違背任何已知的物理定律,在我有生之年裡,它將是最有可能實現的。

很顯然,如果使用VR體驗代替《星際迷航》中的全息圖,這種娛樂技術實際上是可以實現的。很遺憾,奇怪的是幾乎沒有人提到這一想法:人工智慧技術正處於巨大而毫無根據的道德恐慌之中,很多成果因政治原因而受到限制。

但這些先按下不表,讓我們探索一下即將實現的迷人技術。

我們即將開發出這樣的人工智慧軟體:我們只需提供粗略的想法,這些軟體就可以為我們創造出完整的虛構世界和故事。這些故事可以在人工智慧生成的VR體驗中實現,任何人都可以表達想法,創造自己的內容。

獨立創造或協作創造出的“世界”將被上傳到未來類似YouTube的影片網站上。由使用者創作或人工智慧輔助創作的內容將在這些影片網站上流播、共享和二次合成。

我們怎樣才能創造出這種軟體呢?

實現這一目標的核心技術突破是生成式對抗網路(generative adversarial network),簡稱GAN。

生成式對抗網路的概念很簡單:兩種神經網路在一種人工智慧戰鬥中互相博弈。一種神經網路(鑑別器)透過某些資料集加以訓練,如人臉圖片。它的任務是猜測輸入資料是否是合成的。另一種神經網路(發生器)用於在給定的隨機輸入下生成輸出。它的任務是生成一個能“騙過”鑑別器的輸出。

兩個神經網路同時進行訓練,隨著訓練的推進,兩者都會變得更強。最終,發生器強大到足以生成連鑑別器乃至人類都無法辨別真偽的內容。

這不是一個複雜的構想,但其結果是意義深遠的:機器第一次被賦予了想象力。以下是迄今為止,我最喜歡的一些成果。

如今標準的範例是透過人工智慧隨機生成人臉照片。此外,它還能生成所有訓練過的資料集內容,比如汽車、貓等等的照片。更為實用的是,人們還掌握了控制所生成影像精確風格的方法。

人工智慧可以作曲。請注意,這曲子不需要真人交響樂團來演奏——給出樂譜或MIDI(音樂裝置數字介面)檔案,只要有好的樣本庫,計算機就已經能夠模擬演奏出讓人類無法分辨真偽的交響樂。真人交響樂團仍然存在,是因為其所具有的商業價值。

著名的GPT-2文字生成模型,根據啟動提示生成的隨機文字:

GAN:人工智慧是否能夠自主創造虛擬世界?

然後是GauGAN軟體,它能將彩色編碼的草圖轉換為虛構的照片。當然,你也可以做3D版。

最後,根據一個由遊戲引擎生成的基本概念模型,對虛擬世界進行渲染(實際上就是渲染紋理和光照貼圖):

現在,你應該對生成式對抗網路有所瞭解了,生成式對抗網路具有廣泛的用途:

- 根據它們經過的訓練(如人臉或音樂片段)生成完全隨機的模仿品。

- 為“骨架”或草圖補全細節。

- 以各種方式(不僅僅是文字形式)預測“下一步發生的事情”。

這雖然很棒,但跟全息甲板還差得很遠。下面將描述實現深度、徹底的VR體驗所需要解決的問題。

問題一:將生成式對抗網路組合起來

我們遇到的第一個問題是,目前為止,沒有一個通用的神經網路可以生成所有的東西。大多數研究都在開發針對一項特定任務的獨立人工智慧,例如專門用來生成貓的圖片或一段音樂。目前,單個人工智慧似乎無法完成兩個型別的任務。

還有,如何訓練人工智慧學習多種型別的任務,目前也是未知的。人工智慧需要透過大量的範例來學習。除了影片遊戲,很少有完整的充滿想象力互動的世界。但可能沒有足夠多的影片遊戲來讓人工智慧學習如何生成它們。

此外,範例需要大量的精細控制,完全隨機的世界是不能作為人工智慧學習範例的。

因此,構建一個真實的虛擬世界,需要將不同的生成式對抗網路組合在一起:負責作曲的、負責生成人臉的、負責生成身體的、負責將人臉處理為可以輸入3D引擎的紋理貼圖的……

的確。但目前還不清楚,是否可以嘗試使用神經網路生成“一切”,有兩個大問題需要考慮:成本和一致性。

問題二:成本

訓練一個不那麼精確的生成式對抗網路並不太昂貴。但對它們進行進一步訓練,直至每次都能生成良好的結果,就非常困難和昂貴了。

進行訓練所需的硬體需要專門的晶片,其中一些晶片甚至無法購買,只能從Google這樣的公司租用。

但真正的成本來自於建立一個足夠大且乾淨的資料集以供訓練使用。研究人員傾向於一次次重複地使用相同的資料集,因為建立新的資料集需要花費大量時間和精力。

不只是訓練,實際上運用這些神經網路(這被稱為推理)也是一項會使大多數硬體超負荷運轉的任務。

Google已開始發行配備專用人工智慧加速器的手機,但這種加速器仍然是一項非常新的技術。在普通的MacBook上無法執行TensorFlow任務,因為它沒有所需的強大的GPU。

因此,消費者使用人工智慧的任務經常被外包到雲端。這沒什麼,但是雲服務非常昂貴。

所以,人類希望將現有人工智慧的數量限制在最小,以保證價格合理。幸運的是,在許多情況下,人類不需要訓練人工智慧來執行任務,因為我們已經用我們的聰明才智研究了問題,並找到了良好的演算法。

可能不需要人工智慧的地方

人工智慧可以透過預測下一個波形來生成音樂。但我們不需要一秒秒地預測音樂下一刻是什麼樣的。人工智慧足以能夠生成諸如樂譜一樣的東西,然後使用普通的音樂軟體豐富它,生成聽起來非常真實的合成交響樂。

而生成MIDI檔案後直接使用經典演算法將其呈現為音訊,可能要比從人工智慧直接生成音訊要快得多。

同樣,人工智慧可以用於渲染3D場景照片,但我們已經知道如何使用演算法將照片實時渲染得逼真,所以這裡也不需要人工智慧。

人工智慧可以預測物體在物理定律下如何碰撞和撞擊,但幾個世紀以來,人們已經完全理解了物理定律。多年來,高階遊戲中一直有完全準確的硬體加速物理模擬。

除了成本問題之外,還有另一個阻礙人工智慧的因素。

問題三:連貫性

如果仔細觀察生成式對抗網路生成的輸出,很快就會發現它們經常出現小問題,即使在模型經過數週訓練、學習了大量資料後也同樣如此。

這些小問題很有趣。如果不仔細研究,就會以為GPT-2模型生成的故事都講得通,例如:

“這些四角、銀白色的獨角獸以前不為科學界所知。”

人工智慧學到了獨角獸有角,但沒有學到這一相當重要的細節:它們只有一個角。GPT-2模型還被要求寫一個奇幻故事:

“阿拉貢(Aragorn)拔出劍,並贏得了法貢森林(Fangorn)之戰。當他們穿過灌木叢時,清晨的薄霧消散了,白天變成了黃昏(dusk)。”

這是早上,還是晚上?人工智慧沒有準確的時間感。

類似問題在圖片處理上也存在。

GAN:人工智慧是否能夠自主創造虛擬世界?

生成式對抗網路在人臉合成方面成果喜人,因為它們已學習了具有驚人一致度的訓練資料——網際網路上有很多背景簡單、型別一致的名人照片,而且我們已經有了可以進行人臉檢測的演算法,因此很容易就能裁剪人臉圖片和確定人臉中心。

但是生成式對抗網路很難理解那些出現頻率較低的“常識”,比如:耳環和眼睛的顏色通常是相配的。

對於人臉合成來說,這種問題可以透過規模更大、質量更好的模型來消除,但仍然存在一個普遍問題:對人工智慧下指令生成某種東西時,它有時會生成一些毫無意義的東西。這是因為它正在學習如何“猜測”所收到指令的意圖。

在足夠了解世界的基礎上創造出嚴密的演算法來求得正確答案,這樣做可能是更可取的,因為這些演算法都是基於真正的理解,因此每次都不會出錯。

這一點尤其正確,因為人類越依賴人工智慧來生成世界的細節,就會複合和疊加越多的錯誤。

對生成過程的控制

到目前為止,人工智慧產品可控制的部分十分有限。人們可以使用標籤繪製影像,並生成照片;可以調整旋鈕來獲得不同的人臉。但在《星際迷航》中,角色們只需要用幾句話,人工智慧就可以生成他們想要的東西。我們也可以這樣做嗎?

值得注意的是,答案是肯定的!

我們已經幾乎掌握了利用人工智慧技術實現語音識別。最新的Google語音識別幾乎和人識別得一樣準確,並且它很快就會變得更準。剩下的工作就是基於文字描述,“想象”事物。

GAN:人工智慧是否能夠自主創造虛擬世界?

GAN:人工智慧是否能夠自主創造虛擬世界?

生成式對抗網路具有非凡的“轉化”能力——基於學習過的範例,實現從一種輸入到另一種輸入的複雜轉換。這是從文字到照片的轉化,正是我們需要的。

綜合問題

如何僅僅根據某人錄音裡的口頭要求來生成一個3D世界呢?現在我們大致瞭解了實現這一構想所需的工作。

首先,我們需要一個GPT-2模型,在給出提綱的情況下自動補全合理的故事和描述。使用者可以透過逐步向提綱新增更多細節來糾正文字中的錯誤。

這十分必要,因為某種程度上,生成式對抗網路現在還只是“虛張聲勢”。他們可以生成陳詞濫調、辭藻堆砌的散文,但很難創作出任何真正新穎或有趣的東西。

人類的輸入將使原本創造出的了無新意的世界變得富有創意、值得探索。

接下來,我們需要一個模型,可以將生成的描述擴充套件為影像、佈景、角色等。這些模型的輸出將作為資料提供給Unreal這種常見的遊戲引擎,因為這些引擎已經非常擅長以高可信度、高可控性和高成本效益性的方式將3D資料轉換為畫素。

角色需要指令碼——這就再次回到了文字生成模型——和聲音,此外語音合成也是生成式對抗網路所擅長的領域,所以這些都不是問題。

角色們還需要合理的互動和情感,而人工智慧也可以學習這些:我離開Google前看到的幾個樣帶中,有一個是人工智慧為兒童讀物標註人物在每個情節的感受。人工智慧驅動的指令碼及互動是我在2017年研究過的主題。

人工智慧或能從一段情感豐富的音樂中獲益,輸出更有價值的體驗。列出你“靈感來源”的音樂片段,生成式對抗網路就會生成一段聽起來和它們相似但實際上不一樣的音樂。但這樣做將對版權法造成嚴重破壞。

每當人工智慧出錯並生成不合常理的結果時,人類都可以新增更多輸入,使其重回正軌。

最終成果可以在類似YouTube的新網站上釋出,以分享生成的世界。有時它們還可用於盈利(希望不是以討厭的植入廣告形式)。

遊戲原始碼、經驗、虛擬課程、建築探索或其他任何的創造性成果,最終都能轉化成文字形式。

結論

而如今的藝術家、音樂家、演員和編劇們將面臨怎樣的未來呢?

如同自動駕駛時代中的卡車司機一般,我們的社會或許很快就會淹沒在一場因文化創造者失業而產生的大規模的歇斯底里中。

但從長遠來看,我們沒有理由擔心。創造力主要關乎想象力,而非將想象轉化為現實這一痛苦的過程。

實驗室取得的的成果令人矚目,但其矚目的部分往往是被精心挑選出來的(並不一定是全部),並且需要很長時間才能投入到日常生活使用。

而當它們進入日常生活中時,人們早已再次提高了目標和追求,人工智慧的加入只會是基本需求,而非對工作的威脅。

我們還可以預見到類似YouTube效應的結局:只需基於文字即可輕鬆建立電影、音樂和遊戲的能力,這將使我們沉溺於人工智慧生成的大量乏味衍生內容——這是發生在普通城市,主角為平凡人的最平淡日常故事。

如果沒有病毒式傳播、演算法推薦和其他方法來取其精華去其糟粕,YouTube將無法運作,未來的全息甲板也將如此。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2654853/,如需轉載,請註明出處,否則將追究法律責任。

相關文章