全球首次！AI畫作將於週四在紐約被拍賣，估價超7000美元

演算法與數學之美發表於2018-10-29

原文網址 : https://blog.csdn.net/fnqtyr45/article/details/83514921

在“阿爾法狗”之前，圍棋一直是人工智慧無法攻克的壁壘，直到李世石、柯潔等最優秀的人類棋手在它面前投子認負。在那之後，“藝術”成了人類堅守的下一個“倔強”：人工智慧總不能不懂創作和審美吧？可挑戰這麼快就來了：今年10月，由人工智慧創作的一幅肖像畫將在紐約佳士得拍賣會上出售，這是AI藝術品第一次參加拍賣會，估價為7000美元至1萬美元之間。人類會願意為人工智慧創作的藝術品買單嗎？藝術家會逐漸失業嗎？技術迭代太快，人類需要思考和憂慮的太多，文化藝術，這個領域人類還守得住嗎？

據悉，這場“歷史性一拍”將在10月23日至25日舉行，佳士得也將成為首個出售AI藝術品的大型拍賣行。這次拍賣的是一幅人物肖像作品，而畫中的主角是由人工智慧系統虛構出來的。畫作右下角還有一個神奇的簽名，那也可以看成是作品的真正作者：一串演算法公式。據悉，這幅作品由法國藝術團體Obvious通過精密演算法、基於GAN(生成式對抗網路，GenerativeAdversarial Network)模型開發完成。至於這個“演算法”，是由藝術家們首先輸入了14—20世紀之間的15000張肖像畫，在學習這些初始訓練集之後，最終生成能“以假亂真”的作品。

640?wx_fmt=jpeg

將被拍賣的AI畫作

一些人面帶微笑地端詳這幅作品，而另一些表示無法認同地皺起了眉頭。這個被成為“下一場偉大藝術運動初期階段作品”的到來，在這家全球領先的拍賣行受到了冷淡的歡迎。

據《紐約時報》報導，佳士得拍賣行希望週四能得到更熱烈的反饋。屆時，來自La Famille de Belamy的愛德蒙·德·貝拉米（Edmond de Belamy）將呈現在眾人面前，而這意味著，藝術市場對人工智慧藝術的興趣考驗，正式開始。

據悉，這是全球首幅被拍賣的AI畫作，而佳士得給這幅作品的估價在7000到10000美元之間。不同於其他人物肖像畫，這幅作品中沒有使用顏料，也沒有使用畫筆。法國藝術團體“顯而易見”建立了一種演算法，可以模仿人類提供的一系列影象，並將14世紀至20世紀的數千幅肖像錄入，讓AI系統自己學習。這個人工智慧系統就會開始嘗試模仿創作，然後將自己創作的肖像與人類的肖像進行比較研究，直到無法區分兩者為止。

然而，由AI創作的畫像，真的能被稱為藝術嗎？哥倫比亞大學藝術史學家弗雷德裡克·鮑姆加特納表示，人工智慧作品勢必將引發人們對意圖和作者身份的質疑。

對此，引進這幅拍賣畫作的佳士得Prints & Multiples負責人理查德·勞埃德表示，引進這幅作品拍賣，一是因為自己多年來的興趣。另外則是因為，今年早些時候便有報導，法國收藏家尼古拉斯·勞熱羅·拉瑟雷，私下以約1萬歐元的價格，從“顯而易見”那裡購買了一幅AI肖像畫。而讓他最感興趣的是這件作品與天價歐洲肖像畫的相似之處，他解釋說：“看起來就像佳士得拍賣出去的東西一樣。”

那麼，能理解文化藝術的AI演算法GAN是什麼？

GAN就是這個樣子！

GAN從出生就是別人家的演算法！

2014年Ian Goodfellow提出生成對抗網路(GAN)的概念後,GAN變成為了學術界的一個火熱的研究熱點, Yann LeCun更是稱之為”過去十年間機器學習領域最讓人激動的點子”！

生成式對抗網路（GANs）之父，《麻省理工科技評論》（MIT Technology Review）“35 名 35 歲以下科技創新者”得主

Yann LeCun，將CNNs應用最成功的人，獲得由IEEE計算機學會給他頒發了著名的“神經網路先鋒獎”

先給大家講一個故事，

男：哎，你看我給你拍的好不好？

女：這是什麼鬼，你不能學學XXX的構圖嗎？

男：哦

……

男：這次你看我拍的行不行？

女：你看看你的後期，再看看YYY的後期吧，呵呵

男：哦

……

男：這次好點了吧？

女：呵呵，我看你這輩子是學不會攝影了

……

男：這次呢？

女：嗯，我拿去當頭像了

上面這段對話講述了一位“男朋友攝影師”的成長曆程。很多人可能會問：這個故事和GAN有什麼關係？其實，只要你能理解這段故事，就可以瞭解生成式對抗網路的工作原理。

首先，先介紹一下生成模型（generative model），它在機器學習的歷史上一直佔有舉足輕重的地位。當我們擁有大量的資料，例如影象、語音、文字等，如果生成模型可以幫助我們模擬這些高維資料的分佈，那麼對很多應用將大有裨益。

針對資料量缺乏的場景，生成模型則可以幫助生成資料，提高資料數量，從而利用半監督學習提升學習效率。語言模型（language model）是生成模型被廣泛使用的例子之一，通過合理建模，語言模型不僅可以幫助生成語言通順的句子，還在機器翻譯、聊天對話等研究領域有著廣泛的輔助應用。

那麼，如果有資料集S={x1，…xn}，如何建立一個關於這個型別資料的生成模型呢？最簡單的方法就是：假設這些資料的分佈P{X}服從g(x;θ)，在觀測資料上通過最大化似然函式得到θ的值，即最大似然法：

640?wx_fmt=png

GAN的工作原理

文章開頭描述的場景中有兩個參與者，一個是攝影師（男生），一個是攝影師的女朋友（女生）。男生一直試圖拍出像眾多優秀攝影師一樣的好照片，而女生一直以挑剔的眼光找出“自己男朋友”拍的照片和“別人家的男朋友”拍的照片的區別。於是兩者的交流過程類似於：男生拍一些照片 ->女生分辨男生拍的照片和自己喜歡的照片的區別->男生根據反饋改進自己的技術，拍新的照片->女生根據新的照片繼續提出改進意見->……，這個過程直到均衡出現：即女生不能再分辨出“自己男朋友”拍的照片和“別人家的男朋友”拍的照片的區別。

我們將視線回看到生成模型，以影象生成模型舉例。假設我們有一個圖片生成模型（generator），它的目標是生成一張真實的圖片。與此同時我們有一個影象判別模型（discriminator），它的目標是能夠正確判別一張圖片是生成出來的還是真實存在的。那麼如果我們把剛才的場景對映成圖片生成模型和判別模型之間的博弈，就變成了如下模式：生成模型生成一些圖片->判別模型學習區分生成的圖片和真實圖片->生成模型根據判別模型改進自己，生成新的圖片->····

這個場景直至生成模型與判別模型無法提高自己——即判別模型無法判斷一張圖片是生成出來的還是真實的而結束，此時生成模型就會成為一個完美的模型。這種相互學習的過程聽起來是不是很有趣？

上述這種博弈式的訓練過程，如果採用神經網路作為模型型別，則被稱為生成式對抗網路（GAN）。用數學語言描述整個博弈過程的話，就是：假設我們的生成模型是g(z)，其中z是一個隨機噪聲，而g將這個隨機噪聲轉化為資料型別x，仍拿圖片問題舉例，這裡g的輸出就是一張圖片。D是一個判別模型，對任何輸入x，D(x)的輸出是0-1範圍內的一個實數，用來判斷這個圖片是一個真實圖片的概率是多大。令Pr和Pg分別代表真實影象的分佈與生成影象的分佈，我們判別模型的目標函式如下：

640?wx_fmt=png

類似的生成模型的目標是讓判別模型無法區分真實圖片與生成圖片，那麼整個的優化目標函式如下：

640?wx_fmt=png

這個最大最小化目標函式如何進行優化呢？最直觀的處理辦法就是分別對D和g進行互動迭代，固定g，優化D，一段時間後，固定D再優化g，直到過程收斂。

640?wx_fmt=png

一個簡單的例子如下圖所示：假設在訓練開始時，真實樣本分佈、生成樣本分佈以及判別模型分別是圖中的黑線、綠線和藍線。可以看出，在訓練開始時，判別模型是無法很好地區分真實樣本和生成樣本的。接下來當我們固定生成模型，而優化判別模型時，優化結果如第二幅圖所示，可以看出，這個時候判別模型已經可以較好的區分生成資料和真實資料了。第三步是固定判別模型，改進生成模型，試圖讓判別模型無法區分生成圖片與真實圖片，在這個過程中，可以看出由模型生成的圖片分佈與真實圖片分佈更加接近，這樣的迭代不斷進行，直到最終收斂，生成分佈和真實分佈重合。

640?wx_fmt=png

GAN在影象中的應用——DCGAN

為了方便大家更好地理解生成式對抗網路的工作過程，下面介紹一個GAN的使用場景——在圖片中的生成模型DCGAN。

在影象生成過程中，如何設計生成模型和判別模型呢？深度學習裡，對影象分類建模，刻畫影象不同層次，抽象資訊表達的最有效的模型是：CNN （convolutional neural network，卷積神經網路）。

640?wx_fmt=png

CNN是深度神經網路的一種，可以通過卷積層（convolutional layer）提取不同層級的資訊，如上圖所示。CNN模型以圖片作為輸入，以圖片、類別抽象表達作為輸出，如：紋理、形狀等等，其實這與人類對影象的認知有相似之處，即：我們對一張照片的理解也是多層次逐漸深入的。

那麼生成影象的模型應該是什麼樣子的呢？想想小時候上美術課，我們會先考慮構圖，再勾畫輪廓，然後再畫細節，最後填充顏色，這事實上也是一個多層級的過程，就像是把影象理解的過程反過來，於是，人們為影象生成設計了一種類似反摺積的結構：Deep convolutional NN for GAN（DCGAN）

640?wx_fmt=png

DCGAN採用一個隨機噪聲向量作為輸入，如高斯噪聲。輸入通過與CNN類似但是相反的結構，將輸入放大成二維資料。通過採用這種結構的生成模型和CNN結構的判別模型，DCGAN在圖片生成上可以達到相當可觀的效果。如下是一些生成的案例照片。

雖然畫出這個價值超過7000美元的AI演算法沒有官宣，但是可以猜測，其使用的演算法思想和圖片中的生成模型DCGAN是相似的！

人工智慧對圍棋的攻破速度遠遠超出了人類的想象，它們的學習速度和效率簡直驚人。僅就我們原以為AI很難理解的文化藝術領域來說，不僅僅是繪畫，文學、音樂等也沒有逃過AI的“技術陰影”。之前“計算機寫稿”“AI隨機生成歌詞”等還像是小打小鬧的小遊戲，不過它們的進步真的遠超想象。比如最近“AI演算法胡言亂語寫成詩”火爆社交網路，輸入關鍵詞可以隨機生成詩作，居然“詩意”滿滿，比如“喜歡是什麼做成的？太陽、花粉和所有苦澀的回憶”“我是什麼做成的？孤獨、驚喜和所有幸福快樂的結局”……網友感慨“成精了”“輸給AI”“冰冷的機器也有溫情的浪漫”！而AI作曲也不是新鮮事兒了，2016年作曲機器人Aiva就“學會了”人類高階技能的作曲。它可以從莫扎特、巴赫、貝多芬等作曲家的15000多首樂曲中學習，提取音樂特徵並建立音樂理論的直覺。在視訊遊戲、廣告、紀錄片、短片和電影等領域，AI作曲已經開始運用於商業。

∑編輯 | Gemini

算數君整理

更多精彩：

☞ 深度神經網路中的數學，對你來說會不會太難？

☞ 程式設計需要知道多少數學知識？

☞ 陳省身——什麼是幾何學

☞ 模式識別研究的回顧與展望