深度學習和幾何(演講提要)

特邀精選發表於2018-12-04

感恩節來臨,生活節奏終於緩慢下來。紐約長島天空一片湛藍,豔陽高照,滿地碎金。這一階段,老顧收到很多讀者來信,大多詢問深度學習和最優傳輸理論的關係,很多問題反映出讀者的深度思考和獨特見解。恰逢老顧也在研究生課堂上為學生們講解深度學習的幾何觀點,最近也在世界各地給了很多相關的演講。本文由機器之心經授權轉載自老顧談幾何(ID:conformalgeometry ),未經授權禁止二次轉載。

目前正是生成對抗模型理論迅猛發展階段,也是深度學習演算法和硬體迅速演化階段。老顧傾向認為最優傳輸理論對於深度學習中的生成模型給出了迄今為止最為嚴格的理論解釋,並對未來的發展有一定指導作用。最優傳輸理論(Optimal Mass Transportation ),凸幾何(Convex Geometry),蒙日-安培方程(Monge-Ampere Equation)的交匯給出了生成模型的幾何觀點。

為此,老顧求教於世界上這一領域的知名數學家,向丘成桐先生請教蒙日-安培方程和Alexandrov理論,和Villani探討最優傳輸的Brenier理論和GAN的關係,向汪徐家先生請教蒙日-安培方程解的正則性和Alexadrov逼近的收斂階[5]。老顧也鼓勵身邊的年輕人投身到這一研究方向,深入理解最優傳輸理論,下苦功取得工程突破。

目前,老顧在哈佛大學的數學科學和應用中心負責人工智慧方面的研究工作。誠聘博士後,有意願者,請和老顧聯絡(gu@cmsa.fas.harvard.edu)。

最近,老顧在世界各地給出了一些演講,主題是深度學習的幾何觀點,下面將這幾次演講的內容簡略記錄一下。相信的數學推導,可以參看以前的系列文章,深度學習的幾何觀點學習能力上限概率變換觀點蒙日-安培方程

基本假設

近些年來,深度學習方法摧枯拉朽般地超越了傳統方法,我們認為基於統計的深度學習方法的成功是因為如下的兩個資料分佈規律:

流形分佈律(law of manifold distribution):在高維背景空間中,特定類的真實資料分佈靠近某個低維流形;

聚類分佈律(law of cluster distribution):同一類資料中的不同子類,對應於流形上不同的概率分佈;並且這些概率分佈之間的距離足夠遠,使得這些子類可以被區分。

比如,我們考察所有的128乘128的彩色影像,所有這樣的影像構成了深度學習和幾何(演講提要)維歐氏空間中的一個單位立方體,我們稱之為影像空間(image space)或者背景空間(Ambient space)。大多數影像並沒有實際的物理意義,我們只對特定類別的影像感興趣,例如人臉影像。所有的人臉影像分佈在背景空間中的一個維數很低的流形附近,我們稱之為資料流形(data manifold)。經過實驗驗證,人臉資料流形大概在100維左右。

流形嵌入

那麼,我們如何來描繪這個流形如何獲取這個流形如何保證逼近的精度?這些正是深度學習的第一個主要任務:學習流形的結構,計算流形嵌入。數學上,假設給定嵌入在背景空間中的流形,我們將流形上的一個開鄰域,同胚對映引數空間,這一過程被稱為是流形的區域性引數化。用深度學習的語言來講,就是學習編碼對映(encoding map)和解碼對映(decoding map),引數域被稱為是隱空間(latent space)或者特徵空間(feature space)。資料流形上的每個點被對映引數域上的一個點,即每張人臉圖片被對映成隱空間中的一個點,被稱為是這張圖片的特徵(feature),或者編碼(code)。

數學上,給定一個流形嵌入在高維歐氏空間之中,我們在流形上稠密取樣,通過取樣點,我們可以重構分片線性流形,用以逼近初始流形。在數字幾何中,我們用三維掃描器掃描一張人臉曲面,得到的是稠密點雲,然後我們對點雲端計算三維背景空間的Delaunay三角剖分,得到一張分片線性的曲面(三角網格),這張分片線性的曲面就是真實光滑人臉曲面的離散逼近。逼近的精度,取決於取樣的密度,理論上一般用深度學習和幾何(演講提要)網(深度學習和幾何(演講提要)-net)。所謂深度學習和幾何(演講提要)取樣條件如下:曲面上任意一個半徑為深度學習和幾何(演講提要)的測地圓盤內部,至少有一個取樣點;任意兩個取樣點之間的距離不小於深度學習和幾何(演講提要)。可以嚴密證明,合適選取深度學習和幾何(演講提要)可以保證重構的離散曲面收斂於原來光滑曲面,這裡收斂指Hausdorff距離收斂,測地距離收斂,曲率測度收斂和Laplace-Beltrami運算元收斂

深度學習採取同樣的手法,我們在資料流形上稠密取樣,然後重構分片線性流形,用以逼近資料流形。理論上深度學習和幾何(演講提要)-網的取樣條件同樣適用於深度學習理論,但是目前這方面研究一片空白。在深度學習模型之中,我們用流形的引數表示來描繪流形。舉例而言,如果我們描述單位球面,我們可以用如下的引數曲面形式:

深度學習和幾何(演講提要)

深度學習中,這種引數表示就是解碼對映,一般由一個DNN來表示。通常我們用ReLU DNN,因此引數表示是分片線性對映

深度學習和幾何(演講提要)Fig.1 Autoencoder 學習流形。

我們將這些概念應用,做一個思想實驗(thought experiment):假定背景空間是三維歐氏空間,資料流形是彌勒佛曲面(圖1左幀)。我們在曲面上稠密取樣,用經典的自動編碼器(autoencoder)學習,將資料流形編碼到二維隱空間(圖1中幀);在將隱空間的特徵向量對映會背景空間,得到分片線性的重構流形(圖1右幀)。我們看到,重構流形較好地逼近了初始流形,編碼對映和解碼對映是:連續單射,即拓撲同胚。

深度學習和幾何(演講提要)Fig 2. 解碼對映的分片線性結構。

ReLU DNN可以表示分片線性對映,例如彌勒佛的編碼對映和解碼對映。圖2顯示了這種分片線性結構。背景空間中的任意一點被對映到隱空間中,啟用一系列的神經元,如果背景空間中的兩點啟用同樣的神經元,那麼它們彼此等價。所有彼此等價的點構成一個等價類,形成背景空間中的一個胞腔,每個胞腔被ReLU DNN線性對映到隱空間的一個胞腔。圖2中不同的胞腔用不同的顏色來表示。由此,我們可以真切看到編碼對映的分片線性結構。

概率變換

深度神經網路將資料流形的一個鄰域對映到隱空間中,將資料的概率分佈對映到隱空間中引數域上的一個概率分佈。不同的編碼對映會得到隱空間中的不同概率分佈

深度學習和幾何(演講提要)

深度學習和幾何(演講提要)Fig. 3 不同的編碼對映得到不同的概率分佈

圖3顯示了這一概念。兩種編碼對映將彌勒佛曲面對映到隱空間(平面圓盤),我們在平面圓盤上均勻取樣,在拉回到彌勒佛曲面上。上面一行的編碼對映將平面的均勻取樣拉回成曲面上的非均勻取樣;下面一行的編碼對映將隱空間的均勻取樣拉回成曲面上的均勻取樣。這意味著,通過對隱空間進行變換,我們可以控制概率分佈。在生成模型中,我們希望在隱空間均勻取樣,從而得的資料流形上的均勻取樣,即圖3中的第二種情形。

最優傳輸

將一種概率分佈變換成另外一種概率分佈,這正是最優傳輸理論(Optimal Mass Transportation)的拿手好戲。這一理論有三種解讀方式:概率論,偏微分方程和微分幾何。我們簡述如下:給定歐氏空間中的凸區域深度學習和幾何(演講提要),其上定義了另個概率測度深度學習和幾何(演講提要),滿足總測度相同的條件,我們尋求一個隱空間到自身的同胚變換深度學習和幾何(演講提要),將概率分佈深度學習和幾何(演講提要)對映概率分佈深度學習和幾何(演講提要),記為深度學習和幾何(演講提要)。這樣的對映有無窮多個,我們希望找到一個使得傳輸代價最小,傳輸代價可以定義成

深度學習和幾何(演講提要),

這裡距離函式深度學習和幾何(演講提要)是將單位質量從源點運輸到目標點所花費的代價。最優傳輸對映就是滿足條件深度學習和幾何(演講提要)並且使得傳輸代價最小者。最優傳輸對映的傳輸代價被定義為概率分佈間的Wasserstein距離。

深度學習和幾何(演講提要)Fig 4. Wasserstein-GAN 模型的幾何解釋。

最優傳輸理論和Wasserstein距離被廣泛應用於對抗生成網路(Generative Adverseral Net),生成器(Generator)的主要任務就是計算最優傳輸對映,將隱空間的均勻(或者Gauss)分佈對映成資料分佈;判別器(Discriminator)核心是計算資料分佈和生成分佈之間的Wasserstein距離。在目前的GAN模型中,判別器和生成器的計算相對獨立,彼此競爭。圖4給出了W-GAN的幾何解釋。

不同的距離函式深度學習和幾何(演講提要)誘導不同的最優傳輸對映。Brenier和Villani建立的理論表明,如果距離函式是歐氏距離的平方,深度學習和幾何(演講提要),那麼存在一個凸函式,Brenier勢能函式深度學習和幾何(演講提要),滿足蒙日-安培偏微分方程:

深度學習和幾何(演講提要)

Briener勢能的梯度對映深度學習和幾何(演講提要)給出了隱空間的自同胚,並且將概率分佈深度學習和幾何(演講提要)對映概率分佈深度學習和幾何(演講提要),並且這一對映使得傳輸代價最小,即最優傳輸對映

Brenier理論同時表明,Wasserstein距離的計算結果和最優傳輸對映的計算結果之間相差一個數學變換。因此,生成器和判別器的計算可以大為簡化。

凸幾何

另一方面,蒙日-安培方程刻畫了微分幾何種閔可夫斯基(Minkowski)問題和亞歷山大(Alexandrov)問題,因此最優傳輸對映可以用幾何方法求解。

深度學習和幾何(演講提要)Fig. 5 閔可夫斯基問題和亞歷山大問題。

圖5 顯示了Minkowski和Alexandrov問題的幾何圖景:給定凸多面體每個面的法向量和麵積,我們可以唯一決定凸多面體的形狀。Alenxandrov問題中的凸多面體就是Brenier勢能函式。根據我們的理論,Alexandrov問題可以通過凸優化來求解。

半透明模型

我們可以將流形嵌入和概率變換分拆,前者用AutoEncoder實現,後者用我們倡導的OMT 幾何方法求解,這樣我們將一部分的黑箱變得透明,得到半透明生成模型 AE-OMT。

深度學習和幾何(演講提要)Fig 6. AE-OMT 半透明生成模型

如圖6所示,資料流形到隱空間的編碼和解碼對映用AutoEncoder實現,在隱空間中我們用幾何方法計算Brenier勢能函式,得到最優傳輸對映,將均勻分佈對映成資料在隱空間的分佈。

這種學習模型異常簡單,同時概率變換部分的理論透明,優化能量為凸,保證了最優傳輸對映的存在性,唯一性,和數值穩定性。同時,離散解到光滑解的逼近階也有理論保證。

深度學習和幾何(演講提要)Fig 7. 隨機生成的人臉影像。

我們用這一模型來生成人臉影像,用CelebA資料集進行訓練,然後在隱空間對編碼隨機取樣,再用解碼對映得到影像,如圖7所示。

深度學習和幾何(演講提要)

    Fig 8. 人臉影像流形上的一條曲線。

我們在隱空間任選兩點,然後畫出連線兩點的直線段,解碼對映將線段映成人臉資料流形上的一條曲線,如圖8所示,我們看到姿態、表情、膚色的光滑變化過程。

Mode Collapse

很多自然資料分散式多模態的,就是說同一類資料中有多個子類,每個子類對應著資料流形上的不同分佈。這些分佈的支集(support)可能彼此分離。這時,傳統的GAN模型非常難以訓練,學習的結果也不盡人意。一般會出現兩種情況,有可能GAN只能生成一兩個數字,而無法生成所有10個數字;或者,GAN模型可能生成一些沒有意義的圖片。

深度學習和幾何(演講提要)Fig 9. MNIST 的生成結果。

比如我們學習MNIST資料,如圖9所示,第二行第四列、第七行第四列的數字比較有歧義。

深度學習和幾何(演講提要)Fig 10. 第三行的人臉,左眼為棕色、右眼為藍色。 

再如我們學習CelebA資料,如圖10所示,第三行的人臉一隻眼睛為藍色,另外一隻眼睛為棕色。這在生物學上是極其罕見的事情。

深度學習和幾何(演講提要)Fig 11. Mode collapse 的幾何解釋。

我們用圖11來解釋Mode Collapse的原因。在平面上,資料集合為離散點集,分成三個團簇,所有資料點的概率測度都相同。我們將單位圓盤對映到資料集合,就是說我們求取單位圓盤的一個胞腔分解,每個胞腔對映到一個資料點,胞腔的面積彼此相等。同時,在所有這種胞腔分解中,求得唯一的一種,使得傳輸代價最小,即離散最優傳輸對映。Brenier勢能函式表示成定義在單位圓盤上的凸多面體曲面。我們看到,凸多面體有3條尖脊,平面圓盤的胞腔分解有3條分割線,將圓盤分成3個區域,每個區域映到一個團簇。因此,最優傳輸對映不是連續對映。但是,ReLU DNN只能表達連續的分片線性對映,這意味著最優解不在DNN的函式空間裡面。因此ReLU DNN或者映到某幾個團簇,或者映到團簇之間的無意義區域。半藍半棕眼睛的影像就是如此生成。在這種情形下,Brenier勢能函式是連續的,傳輸對映是非連續的,DNN應該去表示Brenier勢能函式,而非直接表示傳輸對映

小結

這裡,我們基於流形分佈假設、團簇分佈假設將深度學習的任務分解為流形嵌入和概率變換。概率變換可以由經典的最優傳輸理論來解釋,並用幾何方法來取代。簡單的Autoencoder-OptimalTransportation (AE-OMT)模型可以用於各種生成任務,對於Mode Collapse給出了幾何解釋。

幾何觀點下的深度學習方向具有大量的理論問題期待解決,大量的技術細節需要仔細探討,大量的實際應用等待開發。如果廣大同學和朋友有興趣合作,歡迎切磋交流!

鳴謝

這些工作是和世界各地很多學者共同完成,哈佛大學的丘成桐先生,格羅斯大學的羅鋒教授,石溪大學的Dimitris Samaras教授【4】,大連理工大學的羅鍾鉉教授,雷娜教授,鄭曉朋教授,武漢大學的蘇科華教授,北京師範大學的崔麗教授,Arizona大學的王雅琳教授,UCLA的劉克峰教授,首都師範大學的方復全教授,香港中文大學的雷樂銘教授等等,一概表示感謝!特別感謝Cedric Villani先生,汪徐家教授!也特別感謝研究生團隊,溫成峰,齊鑫,李新元,郭洋,安東生,李軒,劉會東,王怡碩,陳偉,任玉雪,柯景耀和很多同學!

References                              

  1. Na Lei, Zhongxuan Luo, Shing-Tung Yau and David Xianfeng Gu.  "Geometric Understanding of Deep Learning". arXiv:1805.10451 . 

    https://arxiv.org/abs/1805.10451

  2. Xianfeng Gu, Feng Luo, Jian Sun, and Shing-Tung Yau. "Variational principles for minkowski type problems, discrete optimal transport", and discrete monge-ampere equations. Asian Journal of Mathematics (AJM), 20(2):383-398, 2016.

  3. Na Lei,Kehua Su,Li Cui,Shing-Tung Yau,David Xianfeng Gu, "A Geometric View of Optimal Transportation and Generative Model", arXiv:1710.05488. https://arxiv.org/abs/1710.05488

  4. Huidong L,Xianfeng Gu, Dimitris Samaras, "A Two-Step Computation of the Exact GAN Wasserstein Distance", ICML 2018.

  5. Haodi Chen, Genggeng Huang and Xu-Jia Wang, “Convergence rate estimates for Aleksandrov's solution to the Monge-Ampere Equation", Accepted by SIAM J. Numerical Analysis.
    本文由機器之心經授權轉載自老顧談幾何(ID:conformalgeometry ),未經授權禁止二次轉載。
    原文連結:https://mp.weixin.qq.com/s/Upkci9ovvrlmA7EhqmNd0g











相關文章