你所不知道的 AI 進展

阮一峰發表於2019-10-29

原文網址 : http://www.ruanyifeng.com/blog/2019/10/artificial-intelligenence.html

人工智慧現在是常見詞彙，大多數人可能覺得，它是學術話題，跟普通人關係不大。

但是實際上，AI 突飛猛進，正在脫離實驗室，進入日常生活。僅僅是現在的技術水平，就足以模糊現實與虛擬的界限，顛覆一般民眾的認知。

（圖1：2018年10月，世界第一幅 AI 生成的肖像畫，拍賣成交價43.25萬美元。）

為了讓普通人瞭解 AI 的進展，谷歌的機器學習專家格里高利·薩普諾夫（Grigory Sapunov）寫了一篇通俗的科普文章，介紹目前的技術成果。這盤文章非常精彩，有大量的圖片，加上一些簡單的解釋，資訊量很大，對於瞭解技術動態很有幫助。

（圖2：谷歌的機器學習專家格里高利·薩普諾夫）

下面就是那篇文章的翻譯，比較長，圖片很多，但是值得耐心讀完。我保證，有些內容一定會讓你感到吃驚。

另外，插播一條活動訊息。大家知道，國內最大的線上教育平臺之一的騰訊課堂，贊助了我的個人網站。他們最近啟動了"騰訊課堂101計劃"，推廣優質的技術教育資源。 大家可以留意一下本文結尾的免費活動資訊，幫你掌握開發網頁和手機 App，提高技術水平。

一、影象處理

人工智慧最早是從影象處理開始的。影象處理是一種常見任務，智慧要求比較高，需要使用 PhotoShop 之類的軟體人工編輯，一般的演算法解決不了。

1.1 物件補全

2017年，日本科學家提出了一種影象的物件補全模型。經過訓練，模型可以補全圖片上缺失的部分。

（圖3：影象的物件補全模型）

上圖中，左邊是原始圖片，然後把中間的花盆塗掉，輸入模型。模型會自動補全缺失的部分（右圖），由於它不知道，那裡有一個花盆，所以只會根據沒有塗掉的部分，補上地板和扶手。

下面是更多這樣的例子。塗掉的部分，模型都會補上，哪怕它根本不知道，那裡原來是什麼。

（圖4：影象的物件補全示例）

Nvidia 公司將這個模型做成了產品，放在網上。你可以到它的網站，上傳一張圖片，然後塗掉一些部分，讓網站替你補全。

（圖5：塗掉沙發旁邊的茶几）

有的影象軟體已經應用這項技術，去除人像臉上的斑點。

1.2 背景處理

背景處理指的是，將前景物體從圖片分離出來，再對背景進行加工。目前，已經有很好的智慧演算法可以去除圖片背景。

（圖6：圖片的背景去除）

在模型內部，圖片會轉成畫素的色塊。下圖的淺紫色塊就是前景物體，然後再把這些畫素提取出來。

（圖7：背景去除模型）

這個模型也已經做成了線上服務，大家可以上傳圖片感受一下它的效果。

既然可以去除背景，那當然就可以更改背景，為圖片合成開啟方便之門。

（圖8：更改圖片背景）

1.3 樣式轉換

人工智慧還能夠識別圖片的風格樣式（即畫素的變化規律），將其套用在另一張圖片。

（圖9：原始圖片）

上圖是兩張原始圖片，第一張是梵高的名畫《星夜》，第二張是普通的風景照。模型可以提取第一張圖片的風格，將其套用在第二張圖片。

（圖10：套用梵高的《星夜》風格）

其他名畫的風格，同樣可以套用。

（圖11：影象的風格轉換）

1.4 影象著色

一旦識別出圖片中的物體，模型就可以統計不同物體的畫素顏色規律，然後就能推斷黑白照片可能的顏色，從而實現照片著色。

（圖12：黑白照片的著色）

網上也有免費的著色服務，大家可以體驗。

二、GAN 方法

2.1 簡介

GAN 是"生成對抗網路"（Generative Adversarial Networks）的縮寫，它是一種革命性的提升人工智慧模型效果、生成虛擬影象的方法。

原理很簡單，就是兩個神經網路互相對抗。一個神經網路負責生成虛擬影象，另一個神經網路負責鑑定假影象。理論上，如果 GAN 訓練成功，那麼生成的假影象與真影象將無法區分。2014年，這種方法提出以後，快速發展，目前效果已經可以亂真。

（圖13：GAN 的改進速度）

上圖是過去幾年，GAN 生成的虛擬人像。可以發現，每過一年，圖片越來越大，細節越來越豐富，越發接近真實人像。它的工作方法也是如此，第一步生成一張低解析度圖片，然後慢慢放大，依次修改每一個畫素，確定該畫素怎樣才能最大概率通過鑑定器。

GAN 不僅能生成虛擬影象，還能生成音訊、文字，甚至是化合物分子。AI 模型可能創造出來的任何東西，都能使用 GAN 提升效果。GitHub 有一個倉庫，專門收集不同用途的 GAN，目前已經有500多種模型。

2.2 StyleGAN

目前，生成虛擬人像效果最好的模型是 Nvidia 公司的 StyleGAN。下面兩張頭像，你能分辨哪張是虛擬的，哪張是真實的嗎？

（圖14：GAN 虛擬人像）

這是網站截圖，你可以去那個網站試試看，能猜對多少張。需要提醒的是，這是2018年底的模型產物，隨著模型進化，遲早將無法分辨真假。

GAN 不僅能生成人像，實際上可以生成任何影象。下面是 BigGAN 模型生成的各種影象，圖片裡的東西都是不存在的。

（圖15：BigGAN 模型生成的虛擬影象）

2.3 影象翻譯

一種影象通過 GAN 轉變為另一種影象，稱為影象翻譯。空拍照片變成地圖、黑白照片變成彩色照片，都是影象翻譯的例子。

pix2pix 是影象翻譯的開源工具，它可以讓黑夜變成白天，示意圖變成實物圖。

（圖16：影象翻譯）

也可以讓春天變成夏天，晴天變成雨天。

（圖17：影象翻譯）

影象翻譯的難點在於，它需要有成對的示例（源影象和相應的目標影象），告訴模型應該怎麼翻譯，這些示例可能很難建立。但是反過來，只要有配對的示例，就可以翻譯影象，不管這種翻譯是否合理。下面是兩隻小貓翻譯成對應的豹子、獅子和老虎。

（圖18：影象翻譯）

CycleGAN 模型還支援跨域翻譯，將照片翻譯成油畫，斑馬翻譯成馬。

（圖19：影象翻譯）

Nvidia 開發了一個 GauGAN 軟體，可以線上試玩。使用者只需手繪一個示意圖，軟體就能生成一張對應的風景照片。

（圖20：GauGAN 將示意圖變成照片）

2.4 人像翻譯

影象翻譯用於人像，就是人像翻譯。StarGAN 模型可以翻譯面部屬性，比如頭髮的顏色、性別、膚色等。

（圖21：臉部屬性的改變）

還可以把其他人的表情移植到你的臉上，下圖分別是憤怒、快樂、恐懼的表情翻譯。

（圖22：表情的改變）

SC-FEGAN 是人像翻譯的開源軟體，可以讓你編輯人像，比如加上劉海，去除墨鏡等等。

（圖23：人像編輯軟體 SC_FEGAN）

2.5 文字到影象生成

GAN 最驚人的成果之一，大概就是根據文字生成影象。使用者提供一個句子，軟體生成對應的影象。原始文字"一隻紅中透白、長著非常短的尖嘴的鳥"，可以得到下面的影象。

（圖24：根據文字生成影象）

論文甚至提到，將來存在可能，根據劇本直接生成一部電影。

三、視訊生成

影象處理逐漸成熟以後，人工智慧業界的關注重點就轉向了視訊。

從一個視訊生成另一個視訊，這就叫視訊翻譯。目前比較成熟的兩個方向是運動傳遞和麵部交換。

3.1 運動傳遞

運動傳遞指的是，將一個人的動作（包括身體、眼睛或嘴脣的動作）翻譯到另一個人身上，使得另一個人出現一模一樣的動作。

2018的論文《Everybody Dance Now》，給出了一個模型，可以將舞者的動作移植到任何人身上。

（圖25：動作傳遞）

上圖中，藍衣女子的跳舞視訊完全是假的，是將左上角舞者的動作套用在她身上，自動生成的。

NVIDIA 公司的開源軟體 vid2vid 更為強大，可以生成高解析度的、連貫的逼真視訊。

（圖26：vidvid 軟體）

3.2 臉部生成

臉部生成指的是，根據一張臉的表情和動作，重建另一張臉。最著名的例子是虛擬的奧巴馬演講。2017年，華盛頓大學的團隊發表了一段奧巴馬的演講視訊。奧巴馬其實從未做過這個演講，是將別人的表情和口型套在他臉上生成的，語音也是合成的。

（圖27：虛擬的奧巴馬演講）

這種偽造的視訊被稱為 Deepfake（深度偽造），具有很大的欺騙性，許多線上平臺都禁止上傳這一類視訊。

（圖28：偽造的川普演講，將喜劇演員的表演變成川普自己在講。）

（圖29：深度偽造的普京）

2018年出現的《深度視訊肖像》更進了一步，生成的視訊不侷限於虛擬的面部表情，還會頭部旋轉、眼睛凝視和眨眼，是 3D 的肖像重構。

（圖29：深度視訊肖像）

這些技術還在繼續發展，現在你可以給出任意文字，從任何你指定的物件嘴裡說出來。甚至只憑一張照片，就可以生成一段表情變化的視訊。

（圖30：一張照片生成各種表情）

3.3 中國的實踐

國內的人工智慧視訊生成，並不落後於國外。換臉應用 ZAO 只需使用者上傳一張照片，就能把影視劇主人公的臉換掉，好像你本人在表演電影一樣。

（圖31：換臉應用 ZAO）

2018年，新華社與搜狗合作推出了虛擬新聞主播，具有真人的形象，帶有聲音、面部表情和動作，在電視上播報新聞，已經開通了英語、俄語、阿拉伯語的主持人。

（圖32：虛擬新聞主播）

3.4 視訊渲染

除了視訊生成，人工智慧在視訊渲染上也取得了很大進展。

Nvidia 公司2018年展示了實時光線追蹤 RTX 技術。這項技術用人工智慧預測光線的變化，從而不用耗費大量計算去追蹤光線，因此可以實時渲染出高畫質的 3D 動畫。這對於視訊遊戲有重大意義。

下面是使用這項技術的 Unreal Engine 4，實時渲染出的一個女子的3D 動畫，可以一邊計算生成，一邊播放，完全沒有延遲。

（圖32：實時渲染的動畫）

實時光線追蹤技術還可以用於自動駕駛，在白天和黑夜的不同時間，不同的路面和環境下，預測出暴雨、風雪和強烈的眩光導致的光線變化，對駕駛做出調整。

四、文字和聲音處理

最後，簡單提一下，人工智慧在文字和聲音處理領域的進展。

（1）語音合成

谷歌在2018年推出了智慧助手 Google Duplex，它會根據你的日程，自動打電話去餐廳訂座位。谷歌 CEO 說，這個機器人的對話能力，使得對方完全沒有發現這是機器人。

（2）音樂合成

OpenAI 基金會推出的 MuseNet，通過學習數十萬段 MIDI 音樂，能做到使用10種樂器，生成一段4分鐘的音樂。它的官網有這些音樂的下載，相當動聽。

（3）自動評論

據報導，使用 Yelp 網站的資料進行訓練的模型，可以自動生成餐廳評論。

我喜歡這個地方，一直來這裡已經好多年。它是與朋友和家人相聚的好地點，我喜歡這裡的食物和服務，從未有過糟糕的經歷。

我吃了烤蔬菜漢堡配薯條！哦，很好吃！

我和我的家人都是這個地方的忠實粉絲。工作人員超級好，食物也很棒。雞肉很好，大蒜醬也很完美。配水果的冰淇淋也很美味。強烈推薦！

上面這些都是機器生成的評論。

（4）智慧郵件

Gmail 會根據電子郵件的來信內容，自動生成三種不同的回覆，讓使用者選擇。如果只是簡單迴應，使用者不用自己動手寫。

Gmail 的另一個功能是，根據使用者已經寫的內容，預測接下來會寫的句子，供使用者選擇。

五、小結

毫無疑問，人工智慧是很酷的技術，創造出了神奇的產品，有著難以想象的巨大應用前景。

但是，人工智慧也是一把雙刃劍，模糊了現實與虛擬之間的界限，把我們帶上了一條不可預測的道路。作為個人，瞭解這些技術的進展和潛力，有助於保持一份清醒，享受技術之福的同時，避免它帶來的一些副作用。

（正文完）

前端學習資料免費送

時間過得很快，2019年接近尾聲了。你今年有沒有達到年初設定的目標？技術水平提升了多少？是不是感嘆時間太少，永遠有學不完的東西？

下面是前端開發的10份免費專題資料，既有基礎內容，也有進階內容，都是實戰一定會用到的東西。不管你是剛開始學習前端，還是已經從事了0～3年的開發實務，這些資料相信都會讓你有所收穫。

HTML 專題

JavaScript 進階

ES6 專題

TypeScript 深入剖析專題

VUE 入門到進階實戰專題

React 專題

底層原始碼剖析專題

Node.js 專題

伺服器部署專題

大型實戰專案解析

這10份專題資料，來自《騰訊課堂101計劃》重點推廣的優質機構"金渡教育"。金渡教育培訓人次累計超過了40000，好評度98%，很多學員就職於 BAT 等一線網際網路企業，許多薪水超過了 20K。 只要微信掃描識別下面的二維碼，就能免費獲取上面這些最新的前端資料。

金渡教育專注於做前端進階培訓。他們在騰訊課堂這個平臺上，有一門精品課程 《Web 前端進階班試聽課》。如果你看了上面資料，想了解更多，或者想接受系統的前端培訓，還可以 0 成本得到這門課的試聽。

目前正值"雙十一"，他們提供各種優惠，是騰訊課堂上價效比非常高的一門課程。

（完）

你所不知道的css
2018-12-18
CSS
你所不知道的 POST
2018-04-21
你所不知道的 Transformer！
2021-06-01
ORM
你所不知道的JavaScript（三）
2018-03-15
JavaScript
你所不知道的XML安全
2020-08-19
XML
你所不知道的JavaScript 二
2020-11-20
JavaScript
你所不知道的ASP.NET Core進階系列（三）
2023-11-20
ASP.NET
你所不知道的Python | 函式引數的演進之路
2019-02-27
Python函式
你所不知道的Python | 字串格式化的演進之路
2018-06-11
Python字串格式化
他，她，他，它？深夜AI小酒館你所不知道的祕密
2020-10-18
AI
提升----你所不知道的JavaScript系列（3）
2021-09-09
JavaScript
Python: 你所不知道的星號 * 用法
2022-11-28
Python
閉包—-你所不知道的JavaScript系列（4）
2018-07-02
JavaScript
Python中你所不知道的“隱藏技巧”!
2023-05-16
Python
你所不知道的 C# 10新特性
2022-02-26
C#
JavaScript中你所不知道的陣列ArrayBuffer
2023-02-23
JavaScript陣列
你所不知道的跨域資源共享(CORS)
2019-03-03
跨域CORS
關於HTTP/3背後你所不知道的
2018-11-20
HTTP
你所不知道的阿里開源那些事兒
2018-11-20
阿里
你所不知道的 Chrome 控制檯除錯技巧
2019-02-19
Chrome除錯
你所不知道的Java效能優化之String！
2020-12-26
Java優化
你所不知道的Python | 字串連線的祕密
2019-03-04
Python字串
你所不知道的js的小知識點(1)
2018-09-12
JS
你所不知道的 Typescript 與 Redux 型別優化
2019-03-03
TypeScriptRedux型別優化
你所不知道的 CSS 陰影技巧與細節
2018-11-06
CSS
五個你所不知道的Flutter開發細節
2018-10-14
Flutter
你所不知道的Typescript與Redux型別優化
2018-07-18
TypeScriptRedux型別優化
你所不知道的 Python 冷知識！（建議收藏）
2018-09-03
Python
效能測試工具Jmeter你所不知道的內幕
2020-03-30
JMeter
效能測試工具LoadRunner你所不知道的內幕
2020-04-06
【MySQL】你所不知道的行復制(binlog_format=row)
2019-02-28
MySqlORM
你所不知道的 Python 冷知識！(二)（建議收藏）
2019-03-02
Python
你所不知道的AWS 雲服務清單（71種）
2023-11-22
你所不知道的用 less 檢視檔案的高階用法
2020-03-16
你所不知道的前端效能優化不完全手冊
2019-04-10
前端優化
ios蘋果企業賬號你所不知道的那些點
2020-05-08
iOS蘋果
關於JavaScript物件，你所不知道的事（一）- 先談物件
2019-02-17
JavaScript物件
關於JavaScript物件，你所不知道的事（二）- 再說屬性
2019-02-17
JavaScript物件