AI換臉ZAO一晚,成本燒掉幾百萬

dicksonjyl560101發表於2019-08-31

問耕 發自 麥蒿寺

量子位 出品 | 公眾號 QbitAI


AI換臉ZAO一晚,成本燒掉幾百萬


唯一能阻止ZAO刷屏的,可能是伺服器。

今天上午10點半左右,正在使用ZAO的使用者發現,想要生成一段新的AI換臉影片,已經不是等待幾秒、排隊第幾位的問題,而是——

“伺服器繁忙”

提示頁卡上寫著:當前製造任務已滿,無法制造,預計10:XX恢復能力。這裡的XX大概是一段10分鐘左右的延時,不過只要5、6分鐘就能繼續處理。

10點45分左右,這個提示變為更簡單粗暴的一句話:


AI換臉ZAO一晚,成本燒掉幾百萬


“當伺服器製作量過大,請稍後再試”

仔細看這句話,你以為是漏了一個字?不不不,只需要動用初中閱讀理解方法,就能推斷出這是運營方的一個暗示:

缺“前”。

要知道,每個ZAO使用者換臉的背後,是熊熊燃燒的伺服器成本。據ZAO官方透露的訊息,一個晚上ZAO的伺服器就能燒掉200多萬。(燒一天怎麼也得500萬以上了吧)

這也足見ZAO的火爆。

為什麼ZAO火了

AI換臉,不是新鮮事。

2017年底,國外一位ID為“deepfakes”的網友,利用業餘時間創造了一個AI換臉演算法。後來這個演算法也被廣泛稱為deepfakes。

這個機器學習演算法,首先在小圈子炸開。在國外的Reddit論壇上,有一個deepfakes社群,一個月內聚集了1.5訂閱者,併產生了大量的AI換臉影片。

隨後,這個社群逐漸變成了生產假冒愛 情 動作片的“黑窩點”——不少人用AI技術將色 情作品中的主角換成明星的臉。有文化,真可怕。小電影,可造假。

也正是因為這樣,這個社群引發了大量的爭議,最後被徹底關掉。

但這個AI換臉這個技術,卻一直進化至今。比如今年初,B站UP主“換臉哥”,使用者個技術將94版《射鵰》裡朱茵扮演的黃蓉,換成楊冪的臉。

效果是真的好。(詳見:朱茵變楊冪,流量一個億)

AI換臉ZAO一晚,成本燒掉幾百萬

AI換臉ZAO一晚,成本燒掉幾百萬

還有徐錦江對戰滅霸、洪世賢換臉艾莉等等。(詳見:B站名場面全被AI換臉調戲了一遍)

AI換臉ZAO一晚,成本燒掉幾百萬

AI換臉ZAO一晚,成本燒掉幾百萬

但,為什麼ZAO大火特火了?

原因很簡單。因為ZAO最簡單。

最初的deepfakes只是一套演算法,是基於Keras等多個開源庫完成的。後來有位高手新增了一些工具,封裝成引用FakeApp。這是一個桌面應用,可以執行deepfakes演算法,無需安裝Python、TensorFlow等,僅需要“支援CUDA的高效能GPU”。

這聽起來簡單,但對於普通使用者來說,下載、安裝、訓練都是費時費力的大工程。所以通常都是一些愛好者製作釋出,大家欣賞換臉後的成片。

而這次ZAO把門檻一下拉低到近乎沒有。

使用者想要體驗AI換臉,不再需要電腦、高效能GPU、資料集、程式設計和AI知識,只需要一部手機,一張自拍,就可以把多種影視場景中主角的臉,換成自己的臉。

這是一種前所未有的體驗,而且效果雖然不能說特別好,但通常情況下,都是相當不錯的,至少可以讓使用者有動力發到朋友圈去顯擺一下。

燒自己的錢,讓使用者爽,從這一點來說,ZAO當然有火的理由。當然ZAO應該也不缺錢,畢竟背後是著名的公司:陌陌。

被質疑的隱私問題

當然越火,質疑聲就越大。

AI換臉如此,ZAO也是如此。現在ZAO面對的一些質疑,就是當初deepfakes出現的時候,曾經面對的質疑。

質疑一是“版權”之爭;二是倫理道德之爭。

顯而易見,deepfakes是雙刃劍。這個簡單的應用可能會被居心叵測的使用者利用,從而製作各種色 情、暴力甚至關乎政治的虛假影片,一旦發生,後果可能非常嚴重。

這並非聳人聽聞。而且不只是影片,AI還能“造假”聲音。史丹佛和普林斯頓大學等最新研究:給定任意文字,就能隨意改變一段影片里人物說的話。並且,改動關鍵詞後人物口型還能對得奇準無比,絲毫看不出篡改的痕跡。

讓新垣結衣向你表白,讓石原里美大聲喊出你的名字,甚至隨便根據某個人的影片偽造個人陳述……現在都不在話下。

手握這項技術,在影片中讓你怎麼說你就怎麼說,讓你說什麼你就得說什麼,誰也看不出來這是假的。對,臉和聲音都是你的,而且有影片,但一切都是假的。

另外,ZAO也讓很多使用者有強烈的隱私擔心。

畢竟這是一個需要上傳人臉資料的應用,而人臉作為生物識別資訊,很多時候已經成為我們的重要資產的密碼。

比方韭菜教育專家李笑來就在微博上說:“ZAO 可能很危險的… 別看你今天玩得開心,過段時間就有可能你的支付寶被盜刷臉了?不過這事兒很難怪 ZAO,誰讓你認知淺薄了呢?”


AI換臉ZAO一晚,成本燒掉幾百萬


還有ZAO使用者、隱私協議裡的一些話,也被很多人拿出來質疑。


AI換臉ZAO一晚,成本燒掉幾百萬


比如上面這句,就被集火抨擊。

當然還有人替ZAO著急,畢竟之前大火過的各種換臉應用。基本上都難逃一陣風的宿命,親愛的使用者們新鮮勁很快就過去了,保質期可能都不到一個禮拜。

換臉背後的技術

ZAO沒有公佈背後的技術細節,但AI換臉本質上都是大同小異。

前幾天,有個國外的團隊製作出毫無破綻的換臉影片,同時也披露了背後的技術細節。那就是開源專案:DeepFaceLab。

DeepFaceLab是Deepfakes換臉術的一個軟體工具包,安裝簡單,使用方便,更新及時。在GitHub上已有5000多星。

程式碼公開是一方面。另一方面,從專案描述看, 不需要太多算力就能跑 (詳見下文) 。總體說來門檻很低。

軟體包裡有多種模型,各有特點:

H64 (2GB+視訊記憶體) ,64畫素模式。這是 經典模型,DeepFakes最初揚名就是靠它。DeepFaceLab對它做了些改進,讓這個模型在低視訊記憶體情況下也能用低配置引數執行。


AI換臉ZAO一晚,成本燒掉幾百萬


H128 (3GB+視訊記憶體) ,128畫素模型,比H64畫素更高,細節更豐富。能應對大部分遠景和中景鏡頭,適合亞洲臉型。

AI換臉ZAO一晚,成本燒掉幾百萬

DF (5GB+視訊記憶體) ,H128的全臉模型。它換出來的臉通常比H128更像,但相容性更差,邊緣問題突出。

AI換臉ZAO一晚,成本燒掉幾百萬

LIAEF128 (5GB+視訊記憶體) ,結合了DF,IAE的改進型128全臉模型。這個模型存在閉眼識別問題。

AI換臉ZAO一晚,成本燒掉幾百萬

SAE (最低配置2GB+,推薦配置11GB+) ,風格化的編碼器,基於風格損失的新型超級模型。可以有效重建被遮擋的臉。可玩性高,引數可調,調優空間大。

AI換臉ZAO一晚,成本燒掉幾百萬

DeepFaceLab唯一的安裝要求就是對應版本的 顯示卡驅動,甚至不需要CUDA和CuDNN。

軟體的中文官網提供了下載通道 (有無需魔法的百度網盤版本) ,以及詳細的安裝教程。

同時還自帶許多人臉圖片資料。

官網說,DeepFaceLab雖然沒有視覺化介面,但步驟非常清晰,操作並不複雜。

AI換臉ZAO一晚,成本燒掉幾百萬

換臉主要分為五個階段:

影片轉圖片、提取臉部、訓練模型、人臉替換、合成影片。

每個步驟只需點選BAT檔案即可執行。


AI換臉ZAO一晚,成本燒掉幾百萬


想要入門AI換臉的小夥伴,也可以在DeepFaceLab中文官網找到豐富的教程:

雖然,DeepFaceLab描述的硬體要求不高,但ctrl shift face能做到今天的效果,背後很可能有貴貴的GPU在燃燒 (儘管沒披露技術細節,不知道有沒有改進演算法) 。

自學換臉配置指南

最後,貼一個量子位之前就發過的指南。如何才能自己動手搞AI換臉。

目前網上已經有fakeapp、faceswap、deepfacelab等一大批現成換臉軟體,只要有夠強的硬體,你也能自制一段換臉影片。

這些軟體都一個基本要求,就是必須支援英偉達的CUDA。

通俗地說,如果你最近幾年為了玩吃雞這類遊戲配置了一臺PC,而且安裝的是英偉達的獨立顯示卡,那麼執行Deepfakes應該是沒問題的。

根據國外網友的實測效果,要執行fakeapp且電腦不崩潰,至少需要以下配置:

  • 至少有2GB視訊記憶體的英偉達GPU
  • 英特爾i3或者AMD 9處理器
  • 8GB記憶體
  • 20GB剩餘硬碟空間

以上只是最低的配置,製作一個換臉影片可能需要幾天才行,是不是感到電費在燃燒?如果為了省事中途截斷,效果會慘不忍睹。

去年科技媒體The Verge的記者還真試了一把,她的電腦給人換臉大概需要一天的時間,如果只訓練幾個小時,結果根本沒法看:


AI換臉ZAO一晚,成本燒掉幾百萬


從電腦螢幕上來看,訓練過程是這樣的:


AI換臉ZAO一晚,成本燒掉幾百萬


如果你不想每天早晨開啟電腦都看到上面的畫面,那麼我們推薦以下配置,它能講訓練時間縮短到只有幾個小時:

  • 至少4GB視訊記憶體的英偉達GPU(GTX 9系或者更高,多數網友推薦GTX 1060 6GB視訊記憶體,售價1699元)
  • 英特爾i5或AMD Ryzen處理器(以i5-8400為例,售價1599元)
  • 12GB記憶體(購買2條8GB記憶體,總價700元)
  • 100GB剩餘硬碟空間(考慮到其他佔用空間,購買250GB固態硬碟,價格大約300元)

以上只是主要部件的價格,再加上主機板、電源、機箱,總的主機(不包括顯示器)價格區間在 5000~6000元之間。

需要注意的是,在這裡,硬碟空間比硬碟讀寫速度更重要。

因為訓練Deepfake過程中大約每分鐘會產生1GB的影像檔案,通常SSD的空間較小,如果被訓練資料佔滿,將會導致SSD效能下降。而機械硬碟的效能幾乎不受剩餘空間影響,非常適合用在訓練Deepfake中。

當然,除了軟硬體條件,你還得準備相應的影片素材。

最後友情提示,你自己準備好軟硬體,也需要面臨最開始提到的,錢的問題。根據Deepfake軟體要求的硬體配置和訓練時間,換一次臉就需要燒掉至少一度電以上。

—   —

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2655648/,如需轉載,請註明出處,否則將追究法律責任。

相關文章