InfoGAN：一種無監督生成方法 | 經典論文復現

PaperWeekly發表於2018-10-29

原文網址 : https://www.jiqizhixin.com/articles/2018-10-29-21

論文復現程式碼： http://aistudio.baidu.com/#/projectdetail/23600

GAN

生成對抗網路（Generative Adversarial Nets）是一類新興的生成模型，由兩部分組成：一部分是判別模型（discriminator）D(·)，用來判別輸入資料是真實資料還是生成出來的資料；另一部分是是生成模型（generator）G(·)，由輸入的噪聲生成目標資料。GAN 的優化問題可以表示為：

InfoGAN：一種無監督生成方法 | 經典論文復現

其中 Pdata 是生成樣本，noise 是隨機噪聲。而對於帶標籤的資料，通常用潛碼（latent code）c 來表示這一標籤，作為生成模型的一個輸入，這樣我們有：

InfoGAN：一種無監督生成方法 | 經典論文復現

然而當我們遇到存在潛在的類別差別而沒有標籤資料，要使 GAN 能夠在這類資料上擁有更好表現，我們就需要一類能夠無監督地辨別出這類潛在標籤的資料，InfoGAN 就給出了一個較好的解決方案。

互資訊（Mutual Information）

互資訊是兩個隨機變數依賴程度的量度，可以表示為：

InfoGAN：一種無監督生成方法 | 經典論文復現

要去直接優化 I(c;G(z,c)) 是極其困難的，因為這意味著我們要能夠計算後驗概率（posterior probability）P(c|x)，但是我們可以用一個輔助分佈（auxiliary distribution）Q(c|x)，來近似這一後驗概率。這樣我們能夠給出互資訊的一個下界（lower bounding）：

InfoGAN：一種無監督生成方法 | 經典論文復現

InfoGAN

在 InfoGAN 中，為了能夠增加潛碼和生成資料間的依賴程度，我們可以增大潛碼和生成資料間的互資訊，使生成資料變得與潛碼更相關：

InfoGAN：一種無監督生成方法 | 經典論文復現

InfoGAN：一種無監督生成方法 | 經典論文復現 ▲ 圖1. InfoGAN的整體結構圖

由上面的，對於一個極大化互資訊的問題轉化為一個極大化互資訊下界的問題，我們接下來就可以定義：

InfoGAN：一種無監督生成方法 | 經典論文復現

在論文的附錄中，作者證明了：

InfoGAN：一種無監督生成方法 | 經典論文復現

於是：

InfoGAN：一種無監督生成方法 | 經典論文復現

故 LI (G, Q) 是互資訊的一個下界。作者指出，用蒙特卡羅模擬（Monte Carlo simulation）去逼近 LI (G, Q) 是較為方便的，這樣我們的優化問題就可以表示為：

實現

在實現中，D(x)、G(z, c) 和 Q(x) 分別用一個 CNN (Convolutional Neural Networks)、CNN、DCNN (DeConv Neural Networks) 來實現。同時，潛碼 c 也包含兩部分：一部分是類別，服從 Cat(K = N,p = 1/N)，其中 N 為類別數量；另一部分是連續的與生成資料有關的引數，服從 Unif(−1,1) 的分佈。

在此應指出，Q(c|x) 可以表示為一個神經網路 Q(x) 的輸出。對於輸入隨機變數 z 和類別潛碼 c，實際的 LI(G, Q) 可以表示為：

InfoGAN：一種無監督生成方法 | 經典論文復現

其中 · 表示內積（inner product），c 是一個選擇計算哪個 log 的引數，例如 ci = 1 而 cj = 0(∀j = 1,2,···,i − 1,i + 1,···,n)，那麼 z 這時候計算出的 LI(G,Q) 就等於 log(Q(z,c)i)。這裡我們可以消去 H(c)，因為 c 的分佈是固定的，即優化目標與 H(c) 無關：

InfoGAN：一種無監督生成方法 | 經典論文復現

而對於引數潛碼，我們假設它符合正態分佈，神經網路 Q(x) 則輸出其預測出的該潛碼的均值和標準差，我們知道，對於均值 μ，標準差 σ 的隨機變數，其概率密度函式為：

InfoGAN：一種無監督生成方法 | 經典論文復現

要計算引數潛碼 c 的 InfoGAN：一種無監督生成方法 | 經典論文復現，就是要計算 log p(c)，即：

設 Q(x) 輸出的引數潛碼 c 的均值 μ，標準差 σ 分別為 Q(x)μ 和 Q(x)σ，那麼對於引數潛碼 c：

InfoGAN：一種無監督生成方法 | 經典論文復現

同樣的，我們可以消去 H(c)，因為 c 的分佈是固定的，那麼：

InfoGAN：一種無監督生成方法 | 經典論文復現

實驗

首先，通過和普通的 GAN 比較 LI ，作者證明了 InfoGAN 確實能夠優化這一互資訊的下界 2。

作者在 MNIST 手寫數字資料集（3）、3D 面部資料集（4）、3D 椅子資料集（5）、SVHN 街景房號資料集（6）以及 CelebA 人臉資料集（7）上進行了模型的相關測試。

InfoGAN：一種無監督生成方法 | 經典論文復現 ▲ 圖2. MNIST手寫字元資料集上的結果

InfoGAN：一種無監督生成方法 | 經典論文復現 ▲ 圖3. 3D面部資料集上的結果

InfoGAN：一種無監督生成方法 | 經典論文復現 ▲ 圖4. 3D椅子資料集上的結果

InfoGAN：一種無監督生成方法 | 經典論文復現 ▲ 圖5. SVHN街景房號資料集上的結果

InfoGAN：一種無監督生成方法 | 經典論文復現 ▲ 圖6. CelebA人臉資料集上的結果

作者展示了這些資料集上學習到的類別潛碼（從上至下變化）和引數潛碼（從左至右變化，由 -2 到 2），我們可以看出，InfoGAN 不僅能夠很好地學習資料之間的型別差別，也能夠很好地學習到資料本身的一些易於區分的特點，而且生成模型對這些特點的泛化能力還是很好的。

再論InfoGAN的LI

讀完論文，我們發現，對於類別潛碼，這個 LI 本質上是 x 與 G(z, c) 之間的 KL 散度：

InfoGAN：一種無監督生成方法 | 經典論文復現

也就是說：

InfoGAN：一種無監督生成方法 | 經典論文復現

而 min DKL(c||Q(G(z, c))) 意味著減小 c 與 Q(G(z, c)) 的差別。

InfoGAN：一種無監督生成方法 | 經典論文復現 ▲ 圖7. 普通GAN和InfoGAN的LI在訓練過程中的比較如果我們不考慮 Q(x)σ 的影響，LI 的優化過程：

InfoGAN：一種無監督生成方法 | 經典論文復現而也意味著減小 c 與 Q(G(z, c))μ 的差。

再縱觀整個模型，我們會發現這一對 LI 優化的過程，實質上是以 G 為編碼器（Encoder）， Q 為解碼器（Decoder），生成的影像作為我們要編碼的碼（code），訓練一個自編碼器（Autoencoder），也就是說，作者口中的資訊理論優化問題，本質上是無監督訓練問題。

關於PaddlePaddle

在 PaddlePaddle 中，一個極為重要的概念即是 fluid.Program()，在官方文件裡常見的 exe.run(program= fluid.default_startup_program())的 fluid.default_startup_program() 就是其中一個例子。

在這一使用中可以瞭解到，我們要用 exe.run() 中的 program 引數執行指定的 fluid.Program()，而官方文件指出，當該引數未指定時，會執行 fluid.default_main_program()，而 fluid.default_main_program() 代表的是未指定 fluid.Program() 的所有操作。

注意，這裡說的是“所有”，由於 PaddlePaddle 沒有計算依賴檢測機制，即使在計算 fetch_list 中的值的時候不會用到操作也會被計算，這一點與 TensorFlow 極其不同，作者本人在使用過程中踩了很大的坑，還望各位注意。在執行多種任務的時候不要一股腦全部寫在 fluid.default_main_program() 之中，這樣極其浪費資源，也容易造成一些問題。

一個新的 fluid.Program() 被建立之後，可以在 fluid.program_guard() 中指定該 fluid.Program() 中的操作與變數：

#建立Infer_program
Infer_program = fluid.Program()
#在這裡面定義Infer_program中的操作與變數
with fluid.program_guard(main_program = Infer_program):
    #從外部通過feed傳入的變數，一般是輸入、標籤等
    X = fluid.layers.data(name='X', shape=[X_dim], dtype='float32')
    #全連結層
    output = fluid.layers.fc(input = X, size = 128)

PaddlePaddle 中還需要注意的一點是，fluid.Variable 的名稱空間是全域性的，也就是說在同一或者不同 fluid. Program() 間，同名（fluid.Variable 的 name 屬性相同）的 fluid.Variable 所指向的變數是相同的，所以同一名稱在同一或者不同 fluid.Program () 中可以被使用多次，而不用擔心 TensorFlow 中會出現的 reuse 問題。

要對一個操作的中的權值的名稱進行定義（權值命名為 W1，偏置命名為 b1）：

output = fluid.layers.fc(input = X, 
                         size = 10, 
                         param_attr = fluid.ParamAttr(name="W1"), 
                         bias_attr = fluid.ParamAttr(name="b1"))

要在之後使用這些 fluid.Variable，例如在 Optimizer 中使用：

#可以直接用名稱指代對應的fluid.Variable
parameter_list = ["W1", "b1"]
#構建optimizer
optimizer = fluid.optimizer.AdamOptimizer()
#指定optimizer優化的目標和物件
optimizer.minimize(loss, parameter_list=parameter_list)

在構建完基本的運算操作後，便可以開始初始化操作了：

#初始化fluid.Executor（指定執行程式位置）
exe = fluid.Executor(fluid.CPUPlace())
#執行fluid.default_startup_program()，在fluid.program_guard()中
#若沒有指定初始化program,則預設為此program
exe.run(program=fluid.default_startup_program())

初始化完成後，可以開始訓練啦：

#在從外部傳入資料的時候要注意，傳入資料的資料型別必須與fluid.layers.data #中定義的型別一致，否則會報錯 #如果傳入資料是list型別，建議轉換為np.array，否則可能回報錯： #fedding的資料中包含lod資訊，請您轉換成lodtensor #（渣翻譯，原因是list被預設為含有變長資料） feeding = {"X" : np.array(Z_noise).astype('float32')} #傳入feeding中的資料，執行program程式，從計算結果中獲取loss #（預設會被轉換成np.array，可在函式引數中設定） loss_curr = exe.run(feed = feeding, program = program, fetch_list = [loss])

GAN實現

InfoGAN：一種無監督生成方法 | 經典論文復現

其中 Pdata 是生成樣本，noise 是隨機噪聲。我們用一個雙層的 MLP 來演示：

#判別模型
def discriminator(x):
    #使用fluid.unique_name.guard()新增模型內引數名稱的字首
    with fluid.unique_name.guard('D_'):
        D_h1 = fluid.layers.fc(input = x, size = 256, act = "relu")
        D_logit = fluid.layers.fc(input = D_h1, size = 1, act = "sigmoid")
    return D_logit

#生成模型
def generator(inputs):
    with fluid.unique_name.guard('G_'):
        D_h1 = fluid.layers.fc(input = inputs, size = 256, act = "relu")
        D_logit = fluid.layers.fc(input = D_h1, size = 784, act = "sigmoid")
    return D_logit

通常，一個 GAN 的訓練由兩部分組成，第一部分是對 D(·) 進行訓練，極大化目標函式：

InfoGAN：一種無監督生成方法 | 經典論文復現

第二部分是對 G(·) 進行訓練，極小化目標函式：

InfoGAN：一種無監督生成方法 | 經典論文復現以下是兩部分優化的定義：

#參考Todd的LSGAN的實現，使用函式獲取模型所有變數
def get_params(program, prefix):
    all_params = program.global_block().all_parameters()
    return [t.name for t in all_params if t.name.startswith(prefix)]

#G優化程式
G_program = fluid.Program()
with fluid.program_guard(main_program = G_program):
    #定義輸入資料
    Z = fluid.layers.data(name='Z', shape=[Z_dim], dtype='float32')

    #執行相關模型的計算
    G_sample = generator(Z)
    D_fake = discriminator(G_sample) 

    #計算損失函式
    G_loss = 0.0 - fluid.layers.reduce_mean(fluid.layers.log(D_fake + 1e-8))

    #定義optimizer優化的變數的範圍
    theta_G = get_params(G_program, "G")
    G_optimizer = fluid.optimizer.AdamOptimizer()
    G_optimizer.minimize(G_loss, parameter_list=theta_G)

#D優化程式
D_program = fluid.Program()
with fluid.program_guard(main_program = D_program):
    Z = fluid.layers.data(name='Z', shape=[Z_dim], dtype='float32')
    X = fluid.layers.data(name='X', shape=[784], dtype='float32')
    #在使用資料集時，要注意相應介面傳入資料的值的範圍
    #paddle.dataset.mnist中的資料，範圍在[-1, 1]
    #要將其轉換到sigmoid函式的值域內
    X = X * 0.5 + 0.5

    G_sample = generator(Z)
    D_real = discriminator(X)
    D_fake = discriminator(G_sample)  

    D_loss = 0.0 - fluid.layers.reduce_mean(fluid.layers.log(D_real + 1e-8) 
    + fluid.layers.log(1.0 - D_fake + 1e-8))

    theta_D = get_params(G_program, "D")
    D_optimizer = fluid.optimizer.AdamOptimizer()
    D_optimizer.minimize(D_loss, parameter_list=theta_D)

在定義好這些之後，是時候開訓練了：

#定義傳入的資料
feeding_withx= {"X" : np.array(X_mb).astype('float32'), 
    "Z" : np.array(Z_noise).astype('float32')}
feeding = {"Z" : np.array(Z_noise).astype('float32')}
#執行訓練操作並獲取當前損失函式的值
D_loss_curr = exe.run(feed = feeding_withx, program = D_program, 
                      fetch_list = [D_loss])
G_loss_curr = exe.run(feed = feeding, program = G_program, 
                      fetch_list = [G_loss])

若欲測試模型效果，可再定義一個 Inference：

#Inference
Infer_program = fluid.Program()
with fluid.program_guard(main_program = Infer_program):   
    Z = fluid.layers.data(name='Z', shape=[Z_dim], dtype='float32')
    G_sample = generator(Z)

然後再這樣獲取 samples：

feeding = {"Z" : np.array(Z_noise).astype('float32')}
samples = exe.run(feed = feeding, program = Infer_program, 
                  fetch_list = [G_sample])

後記

本文先前於今年 8 月完成，共享於 PaddlePaddle 論文復現群內，在 10 月 LSGAN 的復現公開之後，參考該復現更改了模型引數命名和引數列表的實現方法，在此感謝 Todd 同學的復現對本文的幫助。

自監督影像論文復現 | BYOL（pytorch）| 2020
2021-01-30
PyTorch
ICML 2017大熱論文：Wasserstein GAN | 經典論文復現
2018-10-31
小白經典CNN論文復現系列（一）：LeNet1989
2020-12-29
CNN
python 無監督生成模型
2024-06-30
Python模型
人工智慧-深度學習-生成模型：GAN經典模型--＞InfoGAN
2021-01-02
人工智慧深度學習模型
一文簡述多種無監督聚類演算法的Python實現
2018-05-22
聚類演算法Python
手把手帶你復現ICCV 2017經典論文—PyraNet
2018-11-12
無監督詩詞風格生成
2018-11-23
COLING 2018 最佳論文解讀：序列標註經典模型復現
2018-07-02
模型
論文閱讀：基於無監督整合聚類的開放關係抽取方法
2024-05-13
聚類
一圖看懂監督學習、無監督學習和半監督學習
2020-02-18
計算機經典論文
2018-06-21
計算機
基於attention的半監督GCN | 論文分享
2019-03-05
GC
圖片質量評估論文 | 無監督SER-FIQ | CVPR2020
2021-01-14
Attention模型方法綜述 | 多篇經典論文解讀
2018-06-11
模型
PointCloud及其經典論文介紹
2019-07-27
Cloud
自監督、半監督和有監督全涵蓋，四篇論文遍歷對比學習的研究進展
2020-09-15
巨經典論文！推薦系統經典模型Wide & Deep
2020-12-09
模型IDE
經典論文復現 | 基於標註策略的實體和關係聯合抽取
2018-11-27
基於標註策略的實體和關係聯合抽取 | 經典論文復現
2019-02-15
大彙總 | 一文學會八篇經典CNN論文
2020-07-24
CNN
只有條件GAN才能穩定訓練？對抗+自監督的無監督方法瞭解一下
2019-01-02
PyraNet：基於特徵金字塔網路的人體姿態估計 | 經典論文復現
2018-10-18
特徵
SQLite是一種經典的無伺服器Serverless
2020-01-27
SQLite伺服器Server
機器學習——監督學習&無監督學習
2019-07-24
機器學習
Split to Be Slim: 論文復現
2023-04-24
網路表述學習經典論文——DeepWalk
2019-04-19
TopPaper：AI 初學者經典論文列表
2021-06-01
AI
ICML 2019最佳論文：測試12000個模型後，谷歌質疑現有無監督分離式表徵學習
2019-06-12
模型谷歌
經典論文復現 | 基於深度卷積網路的影像超解析度演算法
2018-12-14
卷積演算法
經典論文復現 | 基於深度卷積網路的影象超解析度演算法
2018-12-14
卷積演算法
人臉識別三大經典演算法（附經典論文列表）
2018-10-30
演算法
[論文][半監督語義分割]Adversarial Learning for Semi-Supervised Semantic Segmentation
2022-02-08
Segmentation
【論文解讀】【半監督學習】【Google教你水論文】A Simple Semi-Supervised Learning Framework for Object Detection
2020-12-01
GoFrameworkObject
小白的經典CNN復現（三）：AlexNet
2021-02-07
CNN
【ML吳恩達】3 有監督學習和無監督學習
2020-11-19
吳恩達
無需成對示例、無監督訓練，CycleGAN生成影像簡直不要太簡單
2019-08-25
監督學習，無監督學習常用演算法集合總結，引用scikit-learn庫（監督篇）
2022-03-19
演算法

InfoGAN：一種無監督生成方法 | 經典論文復現

GAN

互資訊（Mutual Information）

InfoGAN

實現

實驗

再論InfoGAN的LI

關於PaddlePaddle

GAN實現

後記

相關文章