BAIR提出MC-GAN，使用GAN實現字型風格遷移

机器之心發表於2018-03-27

原文網址 : http://www.jiqizhixin.com/articles/2018-03-26-3

左圖：已有的一張電影海報；右圖：使用 MC-GAN 生成的新電影名稱。

文字是二維設計中的一個顯著視覺元素。藝術家投入了大量時間設計在視覺上與其他元素的形狀和紋理相相容的字形。這個過程需要大量勞動，藝術家們通常只設計標題或註釋所必需的字形子集，這使得設計完成後文字很難更改，或者很難把看到的字型例項遷移到自己的專案中。

早期字形合成研究集中在輪廓的幾何建模上，侷限於特定的字形拓撲上（例如，不能應用到裝飾字型或者手寫體），並且不能與影象輸入一起使用。隨著深度神經網路的興起，研究者研究了從影象進行字形建模的問題。另一方面，合成與區域性觀察相一致的資料在計算機視覺和圖形學中是一個有趣的問題，例如，多視角影象生成、補全影象中的缺失區域，以及三維形狀的生成。字型資料是一個典型的例子，它提供了文字樣式和內容的清晰分解。

條件生成對抗網路（cGANS）[1] 的最新進展在許多生成應用中取得了成功。然而，它們只有在相當特定的領域中才能發揮最佳效果，無法適應通用領域或多領域遷移。類似地，當被直接用來生成字型時，cGAN 模型會生成嚴重的失真。例如，給定下面五個字母：

BAIR提出MC-GAN，使用GAN實現字型風格遷移

條件生成對抗網路模型無法以同一種風格生成 26 個字母：

BAIR提出MC-GAN，使用GAN實現字型風格遷移

用於 Few Shot 字型風格遷移的多內容生成對抗網路

我們設計了多內容 GAN 架構 [2] 來為每個觀察到的字符集（只具備少量觀察到的字形）重新訓練定製的魔法網路，而不是為所有可能的字型裝飾訓練單個網路。該模型考慮沿著通道的內容（即 A-Z 字形）和沿著網路層的樣式（即字形裝飾），將給定字形的樣式遷移到模型未見過的字形的內容。

多內容 GAN 模型包括用於預測粗糙字形形狀的堆疊 cGAN 架構和用於預測最終字形顏色和紋理的裝飾網路（ornamentation network）。第一個網路稱為 GlyphNet，用於預測字形掩碼；第二個網路稱為 OrnaNet，用於微調從第一個網路生成字形的顏色和裝飾。每個子網路遵循條件生成對抗網路（cGAN）的結構，並修改該結構以達到使字形風格化或裝飾預測的特定目的。

網路架構

下面是 GlyphNet 示意圖，它從一組訓練字型中學習字型流形的一般形狀。GlyphNet 的輸入和輸出是字形的堆疊，其中每個字母分配有一個通道。在每個訓練迭代中，x_1 包含一個由 y_1 字形組成的隨機子集，剩餘輸入通道被清零。

BAIR提出MC-GAN，使用GAN實現字型風格遷移

通過這種新穎的字形堆疊設計，跨網路通道學習不同字形之間的相關性得以實現，並實現風格自動遷移。下圖通過結構類似性（SSIM）指標在包含 1500 個字型樣例的隨機集合上展示了這種相關性。計算每個生成字形與其真實字形之間的結構相似性時，當一次觀察到一個字母時，共發現了 25 種分佈。這些曲線圖顯示了當觀察到字母 β（藍色）時生成字母 α 的分佈 α|β 與當給出除 β 以外的任何其它字母（紅色）時生成字母 α 的分佈 α|β。在生成 26 個字母中的每一個字母時，兩個資訊量最大的給定字母和兩個資訊量最少的給定字母的分佈如圖所示。例如，從圖的第五行來看，與其他字母相比，字母 F 和 B 在生成字母 E 方面是最有資訊貢獻的，而 I 和 W 是資訊最少的。其他例子中，O 和 C 是構造 G 的最具指導性的字母，R 和 B 是生成 P 的最具指導性的字母。

BAIR提出MC-GAN，使用GAN實現字型風格遷移

因此，對於任何僅有幾個觀察字母的期望字型，預訓練的 GlyphNet 要生成全部的 26 個 A-Z 字形。但是我們應該如何遷移裝飾呢？第二個網路 OrnaNet 採用這些生成的字形，在簡單的整形變換（reshape transformation）和灰度通道重複之後（在下圖中用 T 表示），使用條件 GAN 架構生成具備期望顏色和裝飾的輸出。OrnaNet 的輸入和輸出是批量的 RGB 影象，而不是堆疊（其中每個字母的 RGB 通道是其對應的灰度字形的重複）。OrnaNet 中的多個正則化器會懲罰風格化字母掩膜與其對應字形形狀的偏差。

BAIR提出MC-GAN，使用GAN實現字型風格遷移

結果

下面，我們將使用單個單詞給出的字型樣式演示例句。

BAIR提出MC-GAN，使用GAN實現字型風格遷移

此外，以下是 OrnaNet 預測的逐步改進：

BAIR提出MC-GAN，使用GAN實現字型風格遷移

參考資料

[1] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A. Efros. "Image-to-Image Translation with Conditional Adversarial Networks." CVPR 2017.

[2] Samaneh Azadi, Matthew Fisher, Vladimir Kim, Zhaowen Wang, Eli Shechtman, and Trevor Darrell. "Multi-Content GAN for Few-Shot Font Style Transfer." CVPR 2018.

相關論文：https://arxiv.org/abs/1712.00516

GitHub 地址：https://github.com/azadis/MC-GAN

伯克利AI實驗室出品：用GAN實現字型風格遷移
2018-04-08
AI
基於GAN的字型風格遷移 | CVPR 2018論文解讀
2018-04-03
Python 超簡單實現 9 種影像風格遷移
2020-05-16
Python
Flora影象風格遷移App
2018-12-17
APP
Perceptual Losses 風格遷移論文復現小記
2023-10-16
Android 端影象多風格遷移
2019-04-22
Android
[譯] TensorFlow 教程 #15 – 風格遷移
2019-03-04
二維網格的遷移（java實現）
2020-11-03
Java
深度有趣 | 30 快速影象風格遷移
2018-09-21
英偉達再出GAN神作！多層次特徵的風格遷移人臉生成器
2018-12-14
特徵
Python+OpenCV 影象風格遷移(模仿名畫)
2018-10-15
PythonOpenCV
android中的深度學習——快速風格遷移
2018-05-19
Android深度學習
AI繪畫第二彈——影象風格遷移
2019-04-29
AI
1.2 使用OGG實現全量和增量遷移
2019-11-06
遷移部落格至掘金
2018-12-04
SpringBoot整合Redis使用Restful風格實現CRUD功能
2019-05-08
Spring BootRedisREST
機器學習之光：神經風格遷移的直觀指南！
2019-01-22
機器學習
如何用Keras打造出“風格遷移”的AI藝術作品
2018-05-23
KerasAI
Gram格拉姆矩陣在風格遷移中的應用
2018-07-27
矩陣
機器學習開源框架系列：Torch：3：影像風格遷移
2020-12-29
機器學習框架
雲遷移的安全風險
2022-05-26
部落格圖床遷移記
2019-05-03
圖床
暢談人工智慧藝術新命題：神經風格遷移
2018-11-20
人工智慧
讀“基於深度學習的影像風格遷移研究綜述”有感
2020-11-21
深度學習
使用DiskGenius工具來實現物理機遷移虛擬機器，實現虛擬化
2024-04-30
虛擬機
[置頂] About Me & 部落格遷移
2024-03-31
使用SQL SERVER儲存過程實現歷史資料遷移
2021-09-19
SQLServer儲存過程
神經風格遷移：使用 tf.keras 和 Eager Execution，藉助深度學習創作藝術作品
2018-08-31
Keras深度學習
xtts遷移實踐
2018-10-18
TTS
人工智慧AI影像風格遷移(StyleTransfer),基於雙層ControlNet(Python3.10)
2023-04-21
人工智慧AIPython
React 實現 instagram 風格進度條
2018-09-20
React
在Sequelize中使用遷移
2019-05-10
下一個GAN？OpenAI提出可逆生成模型Glow
2018-07-10
OpenAI模型
【Redis 技術探索】「資料遷移實戰」手把手教你如何實現線上 + 離線模式進行遷移 Redis 資料實戰指南（scan模式遷移）
2023-01-10
Redis模式
快速實現地圖遷移資料視覺化
2018-12-19
地圖視覺化
我有個大膽的想法，用風格遷移玩《絕地》版的《堡壘之夜》
2019-01-29
scp使用者遷移rsync
2020-09-16
使用 `postMessage` 跨域名遷移 `localStorage`
2023-02-09
跨域

BAIR提出MC-GAN，使用GAN實現字型風格遷移

用於 Few Shot 字型風格遷移的多內容生成對抗網路

相關文章