你所不知道的 AI 進展

阮一峰發表於2019-10-29

人工智慧現在是常見詞彙,大多數人可能覺得,它是學術話題,跟普通人關係不大。

但是實際上,AI 突飛猛進,正在脫離實驗室,進入日常生活。僅僅是現在的技術水平,就足以模糊現實與虛擬的界限,顛覆一般民眾的認知。

(圖1:2018年10月,世界第一幅 AI 生成的肖像畫,拍賣成交價43.25萬美元。)

為了讓普通人瞭解 AI 的進展,谷歌的機器學習專家格里高利·薩普諾夫(Grigory Sapunov)寫了一篇通俗的科普文章,介紹目前的技術成果。這盤文章非常精彩,有大量的圖片,加上一些簡單的解釋,資訊量很大,對於瞭解技術動態很有幫助。

(圖2:谷歌的機器學習專家格里高利·薩普諾夫)

下面就是那篇文章的翻譯,比較長,圖片很多,但是值得耐心讀完。我保證,有些內容一定會讓你感到吃驚。

另外,插播一條活動訊息。大家知道,國內最大的線上教育平臺之一的騰訊課堂,贊助了我的個人網站。他們最近啟動了"騰訊課堂101計劃",推廣優質的技術教育資源。 大家可以留意一下本文結尾的免費活動資訊,幫你掌握開發網頁和手機 App,提高技術水平。

一、影像處理

人工智慧最早是從影像處理開始的。影像處理是一種常見任務,智慧要求比較高,需要使用 PhotoShop 之類的軟體人工編輯,一般的演算法解決不了。

1.1 物件補全

2017年,日本科學家提出了一種影像的物件補全模型。經過訓練,模型可以補全圖片上缺失的部分。

(圖3:影像的物件補全模型)

上圖中,左邊是原始圖片,然後把中間的花盆塗掉,輸入模型。模型會自動補全缺失的部分(右圖),由於它不知道,那裡有一個花盆,所以只會根據沒有塗掉的部分,補上地板和扶手。

下面是更多這樣的例子。塗掉的部分,模型都會補上,哪怕它根本不知道,那裡原來是什麼。

(圖4:影像的物件補全示例)

Nvidia 公司將這個模型做成了產品,放在網上。你可以到它的網站,上傳一張圖片,然後塗掉一些部分,讓網站替你補全。

(圖5:塗掉沙發旁邊的茶几)

有的影像軟體已經應用這項技術,去除人像臉上的斑點。

1.2 背景處理

背景處理指的是,將前景物體從圖片分離出來,再對背景進行加工。目前,已經有很好的智慧演算法可以去除圖片背景。

(圖6:圖片的背景去除)

在模型內部,圖片會轉成畫素的色塊。下圖的淺紫色塊就是前景物體,然後再把這些畫素提取出來。

(圖7:背景去除模型)

這個模型也已經做成了線上服務,大家可以上傳圖片感受一下它的效果。

既然可以去除背景,那當然就可以更改背景,為圖片合成開啟方便之門。

(圖8:更改圖片背景)

1.3 樣式轉換

人工智慧還能夠識別圖片的風格樣式(即畫素的變化規律),將其套用在另一張圖片。

(圖9:原始圖片)

上圖是兩張原始圖片,第一張是梵高的名畫《星夜》,第二張是普通的風景照。模型可以提取第一張圖片的風格,將其套用在第二張圖片。

(圖10:套用梵高的《星夜》風格)

其他名畫的風格,同樣可以套用。

(圖11:影像的風格轉換)

1.4 影像著色

一旦識別出圖片中的物體,模型就可以統計不同物體的畫素顏色規律,然後就能推斷黑白照片可能的顏色,從而實現照片著色

(圖12:黑白照片的著色)

網上也有免費的著色服務,大家可以體驗。

二、GAN 方法

2.1 簡介

GAN 是"生成對抗網路"(Generative Adversarial Networks)的縮寫,它是一種革命性的提升人工智慧模型效果、生成虛擬影像的方法。

原理很簡單,就是兩個神經網路互相對抗。一個神經網路負責生成虛擬影像,另一個神經網路負責鑑定假影像。理論上,如果 GAN 訓練成功,那麼生成的假影像與真影像將無法區分。2014年,這種方法提出以後,快速發展,目前效果已經可以亂真。

(圖13:GAN 的改進速度)

上圖是過去幾年,GAN 生成的虛擬人像。可以發現,每過一年,圖片越來越大,細節越來越豐富,越發接近真實人像。它的工作方法也是如此,第一步生成一張低解析度圖片,然後慢慢放大,依次修改每一個畫素,確定該畫素怎樣才能最大機率透過鑑定器。

GAN 不僅能生成虛擬影像,還能生成音訊、文字,甚至是化合物分子。AI 模型可能創造出來的任何東西,都能使用 GAN 提升效果。GitHub 有一個倉庫,專門收集不同用途的 GAN,目前已經有500多種模型。

2.2 StyleGAN

目前,生成虛擬人像效果最好的模型是 Nvidia 公司的 StyleGAN。下面兩張頭像,你能分辨哪張是虛擬的,哪張是真實的嗎?

(圖14:GAN 虛擬人像)

這是網站截圖,你可以去那個網站試試看,能猜對多少張。需要提醒的是,這是2018年底的模型產物,隨著模型進化,遲早將無法分辨真假。

GAN 不僅能生成人像,實際上可以生成任何影像。下面是 BigGAN 模型生成的各種影像,圖片裡的東西都是不存在的。

(圖15:BigGAN 模型生成的虛擬影像)

2.3 影像翻譯

一種影像透過 GAN 轉變為另一種影像,稱為影像翻譯。空拍照片變成地圖、黑白照片變成彩色照片,都是影像翻譯的例子。

pix2pix 是影像翻譯的開源工具,它可以讓黑夜變成白天,示意圖變成實物圖。

(圖16:影像翻譯)

也可以讓春天變成夏天,晴天變成雨天。

(圖17:影像翻譯)

影像翻譯的難點在於,它需要有成對的示例(源影像和相應的目標影像),告訴模型應該怎麼翻譯,這些示例可能很難建立。但是反過來,只要有配對的示例,就可以翻譯影像,不管這種翻譯是否合理。下面是兩隻小貓翻譯成對應的豹子、獅子和老虎。

(圖18:影像翻譯)

CycleGAN 模型還支援跨域翻譯,將照片翻譯成油畫,斑馬翻譯成馬。

(圖19:影像翻譯)

Nvidia 開發了一個 GauGAN 軟體,可以線上試玩。使用者只需手繪一個示意圖,軟體就能生成一張對應的風景照片。

(圖20:GauGAN 將示意圖變成照片)

2.4 人像翻譯

影像翻譯用於人像,就是人像翻譯。StarGAN 模型可以翻譯面部屬性,比如頭髮的顏色、性別、膚色等。

(圖21:臉部屬性的改變)

還可以把其他人的表情移植到你的臉上,下圖分別是憤怒、快樂、恐懼的表情翻譯。

(圖22:表情的改變)

SC-FEGAN 是人像翻譯的開源軟體,可以讓你編輯人像,比如加上劉海,去除墨鏡等等。

(圖23:人像編輯軟體 SC_FEGAN)

2.5 文字到影像生成

GAN 最驚人的成果之一,大概就是根據文字生成影像。使用者提供一個句子,軟體生成對應的影像。原始文字"一隻紅中透白、長著非常短的尖嘴的鳥",可以得到下面的影像。

(圖24:根據文字生成影像)

論文甚至提到,將來存在可能,根據劇本直接生成一部電影。

三、影片生成

影像處理逐漸成熟以後,人工智慧業界的關注重點就轉向了影片。

從一個影片生成另一個影片,這就叫影片翻譯。目前比較成熟的兩個方向是運動傳遞和麵部交換。

3.1 運動傳遞

運動傳遞指的是,將一個人的動作(包括身體、眼睛或嘴唇的動作)翻譯到另一個人身上,使得另一個人出現一模一樣的動作。

2018的論文《Everybody Dance Now》,給出了一個模型,可以將舞者的動作移植到任何人身上。

(圖25:動作傳遞)

上圖中,藍衣女子的跳舞影片完全是假的,是將左上角舞者的動作套用在她身上,自動生成的。

NVIDIA 公司的開源軟體 vid2vid 更為強大,可以生成高解析度的、連貫的逼真影片。

(圖26:vidvid 軟體)

3.2 臉部生成

臉部生成指的是,根據一張臉的表情和動作,重建另一張臉。最著名的例子是虛擬的奧巴馬演講。2017年,華盛頓大學的團隊發表了一段奧巴馬的演講影片。奧巴馬其實從未做過這個演講,是將別人的表情和口型套在他臉上生成的,語音也是合成的。

(圖27:虛擬的奧巴馬演講)

這種偽造的影片被稱為 Deepfake(深度偽造),具有很大的欺騙性,許多線上平臺都禁止上傳這一類影片。

(圖28:偽造的川普演講,將喜劇演員的表演變成川普自己在講。)

(圖29:深度偽造的普京)

2018年出現的《深度影片肖像》更進了一步,生成的影片不侷限於虛擬的面部表情,還會頭部旋轉、眼睛凝視和眨眼,是 3D 的肖像重構。

(圖29:深度影片肖像)

這些技術還在繼續發展,現在你可以給出任意文字,從任何你指定的物件嘴裡說出來。甚至只憑一張照片,就可以生成一段表情變化的影片。

(圖30:一張照片生成各種表情)

3.3 中國的實踐

國內的人工智慧影片生成,並不落後於國外。換臉應用 ZAO 只需使用者上傳一張照片,就能把影視劇主人公的臉換掉,好像你本人在表演電影一樣。

(圖31:換臉應用 ZAO)

2018年,新華社與搜狗合作推出了虛擬新聞主播,具有真人的形象,帶有聲音、面部表情和動作,在電視上播報新聞,已經開通了英語、俄語、阿拉伯語的主持人。

(圖32:虛擬新聞主播)

3.4 影片渲染

除了影片生成,人工智慧在影片渲染上也取得了很大進展。

Nvidia 公司2018年展示了實時光線追蹤 RTX 技術。這項技術用人工智慧預測光線的變化,從而不用耗費大量計算去追蹤光線,因此可以實時渲染出高畫質的 3D 動畫。這對於影片遊戲有重大意義。

下面是使用這項技術的 Unreal Engine 4,實時渲染出的一個女子的3D 動畫,可以一邊計算生成,一邊播放,完全沒有延遲。

(圖32:實時渲染的動畫)

實時光線追蹤技術還可以用於自動駕駛,在白天和黑夜的不同時間,不同的路面和環境下,預測出暴雨、風雪和強烈的眩光導致的光線變化,對駕駛做出調整。

四、文字和聲音處理

最後,簡單提一下,人工智慧在文字和聲音處理領域的進展。

(1)語音合成

谷歌在2018年推出了智慧助手 Google Duplex,它會根據你的日程,自動打電話去餐廳訂座位。谷歌 CEO 說,這個機器人的對話能力,使得對方完全沒有發現這是機器人。

(2)音樂合成

OpenAI 基金會推出的 MuseNet,透過學習數十萬段 MIDI 音樂,能做到使用10種樂器,生成一段4分鐘的音樂。它的官網有這些音樂的下載,相當動聽。

(3)自動評論

據報導,使用 Yelp 網站的資料進行訓練的模型,可以自動生成餐廳評論。

  1. 我喜歡這個地方,一直來這裡已經好多年。它是與朋友和家人相聚的好地點,我喜歡這裡的食物和服務,從未有過糟糕的經歷。
  2. 我吃了烤蔬菜漢堡配薯條!哦,很好吃!
  3. 我和我的家人都是這個地方的忠實粉絲。工作人員超級好,食物也很棒。雞肉很好,大蒜醬也很完美。配水果的冰淇淋也很美味。強烈推薦!

上面這些都是機器生成的評論。

(4)智慧郵件

Gmail 會根據電子郵件的來信內容,自動生成三種不同的回覆,讓使用者選擇。如果只是簡單回應,使用者不用自己動手寫。

Gmail 的另一個功能是,根據使用者已經寫的內容,預測接下來會寫的句子,供使用者選擇。

五、小結

毫無疑問,人工智慧是很酷的技術,創造出了神奇的產品,有著難以想象的巨大應用前景。

但是,人工智慧也是一把雙刃劍,模糊了現實與虛擬之間的界限,把我們帶上了一條不可預測的道路。作為個人,瞭解這些技術的進展和潛力,有助於保持一份清醒,享受技術之福的同時,避免它帶來的一些副作用。

(正文完)

前端學習資料免費送

時間過得很快,2019年接近尾聲了。你今年有沒有達到年初設定的目標?技術水平提升了多少?是不是感嘆時間太少,永遠有學不完的東西?

下面是前端開發的10份免費專題資料,既有基礎內容,也有進階內容,都是實戰一定會用到的東西。不管你是剛開始學習前端,還是已經從事了0~3年的開發實務,這些資料相信都會讓你有所收穫。

  • HTML 專題
  • JavaScript 進階
  • ES6 專題
  • TypeScript 深入剖析專題
  • VUE 入門到進階實戰專題
  • React 專題
  • 底層原始碼剖析專題
  • Node.js 專題
  • 伺服器部署專題
  • 大型實戰專案解析

這10份專題資料,來自《騰訊課堂101計劃》重點推廣的優質機構"金渡教育"。金渡教育培訓人次累計超過了40000,好評度98%,很多學員就職於 BAT 等一線網際網路企業,許多薪水超過了 20K。 只要微信掃描識別下面的二維碼,就能免費獲取上面這些最新的前端資料。

金渡教育專注於做前端進階培訓。他們在騰訊課堂這個平臺上,有一門精品課程 《Web 前端進階班試聽課》。如果你看了上面資料,想了解更多,或者想接受系統的前端培訓,還可以 0 成本得到這門課的試聽。

目前正值"雙十一",他們提供各種優惠,是騰訊課堂上價效比非常高的一門課程。

(完)

相關文章