[論文速覽] Separating Style and Content for Generalized Style Transfer

NoNoe發表於2024-03-11

原文網址 : https://www.cnblogs.com/Stareven233/p/18030065

Pre

title: Separating Style and Content for Generalized Style Transfer
accepted: CVPR 2018
paper:https://arxiv.org/abs/1711.06454
code: none

關鍵詞: style transfer, chinese typeface transfer, font geration
閱讀理由: 回顧經典

Idea

將圖片解耦成內容和風格兩種特徵，兩兩組合以生成具有一方內容與另一方風格的圖片

Motivation

現有的風格遷移方法顯式學習某種源風格到目標風格的變換，無法泛化到新風格

[論文速覽] Separating Style and Content for Generalized Style Transfer

圖1 本文提出的EMD模型的框架

Background

相關工作分三部分介紹：

Neural Style Transfer
Image-to-Image Translation
Character Style Transfer

[論文速覽] Separating Style and Content for Generalized Style Transfer

表1 EMD與現存方法的比較

Method（Model）

Overview

[論文速覽] Separating Style and Content for Generalized Style Transfer

圖2 EMD做風格遷移的詳細架構

Encoder Network

原文講得很細，略

Mixer Network

提到 Mixer 是一個雙線性模型（bilinear model）

雙線性：對函式\(f(x, y)\)，當固定其中一個引數（x）時，\(f(x, y)\)對另一個引數（y）是線性的

實際上這個模型似乎只有一個簡單的可學習引數\(W\)，對內容C風格S按下式進行融合：

\[F_{ij} = S_{i}\bold{W}C_{j} \tag{3} \]

對照圖2看能發現透過W能夠將維度不同的內容(\(1\times B\))風格(\(1\times R\))融合為任意維度的F
(\(1\times K\))，還挺方便，看起來是相加和拼接的進階版？

Decoder Network

多層 Deconvolution-BatchNorm-ReLU 上取樣

Loss

使用加權的L1損失函式（weighted L1 loss）作為生成損失（generation loss），用於衡量生成的影像與目標影像之間的差異。比起L2，L1損失傾向於產生更清晰、更乾淨的影像。函式定義如下：

[論文速覽] Separating Style and Content for Generalized Style Transfer

公式4-5

其中 \(W^{ij}_{st}\) 和 \(W^{ij}_{b}\) 是兩個權重，用於緩解目標集中由隨機取樣引起的不平衡。這兩個權重分別關於字元的大小和厚度（\(W^{ij}_{st}\)）以及字元的黑暗程度（\(W^{ij}_{b}\)）。

因為每個迭代中目標圖片的尺寸和厚度都會改變，模型主要最佳化那些有更多的畫素的圖片，例如那些更大更厚的漢字。

作者定義 \(W^{ij}_{st}\) 為每個目標影像中黑色畫素數量的倒數。對於 \(W^{ij}_{b}\) ，作者計算每個目標影像中黑色畫素的平均值，並計算其 softmax 權重。但是什麼叫做黑畫素的平均值（mean value of the black pixels）？難道是考慮每個圖片裡黑色畫素有的略大於0，並非完全0/255的二元圖片？

[論文速覽] Separating Style and Content for Generalized Style Transfer

公式6-7

這種損失函式的選擇是基於字元字型遷移問題的特點，L1損失傾向於產生更清晰、更乾淨的影像。透過引入這些權重，模型在訓練過程中能夠更好地處理不同大小和厚度的字元，以及不同黑暗程度的字元，從而提高生成影像的質量。

Experiment

Settings

詳細講了網路的配置，略

值得注意的是該模型需要風格參考也要內容參考，兩者都要多張輸入，由同一個引數r控制，也就是每次生成需要r張風格r張內容參考圖片

Dataset

832 字型，每個有 1732 漢字，圖片解析度80x80

[論文速覽] Separating Style and Content for Generalized Style Transfer

圖3 資料集劃分示意圖，目標圖片選擇和參考集構建

資料集劃分為圖3所示的D1~D4四部分，紅叉是目標圖片，同一行的橙色圈是它的參考風格圖片，而同一列的綠色圈則是它的參考內容圖片

Influence of the Training Set Size

[論文速覽] Separating Style and Content for Generalized Style Transfer

圖4 D1~D4的生成結果（從左上到右下），TG: 目標圖片, O1: Nt=20k的輸出, O2: Nt=50k的輸出, O3: Nt=100k的輸出, O4: Nt=300k的輸出, O5: Nt=500k的輸出。固定r=10

Influence of the Reference Set Size

[論文速覽] Separating Style and Content for Generalized Style Transfer

圖5 參考圖片數量的影響（從左上到右下D1~D4），TG: 目標圖片, O1: r=5的輸出, O2:

r=10的輸出, O3: r=15的輸出. 固定Nt=300k

Effect of the Skip-connection

[論文速覽] Separating Style and Content for Generalized Style Transfer

圖6 跳躍連線的影響（從左上到右下D1~D4），TG: 目標圖片, O1: 沒跳躍連線的輸出, O2:

有跳躍連線的輸出, O3: r=15的輸出. 固定Nt=300k，r=10

Validation of Style and Content Separation

[論文速覽] Separating Style and Content for Generalized Style Transfer

圖7 風格抽取的驗證 CR：內容參考 TG：目標圖片 O1~O3分別由CR和三組不同的風格參考生成

[論文速覽] Separating Style and Content for Generalized Style Transfer

圖8 內容抽取的驗證 SR：風格參考 TG：目標圖片 O1~O3分別由SR和三組不同的內容參考生成

作者認為圖7說明風格編碼器抽取很準確，能抽取出穩定的特徵以生成相似的結果，對圖8也是類似的理解。如果像CF-Font那樣分析內容字形與目標字形的風格相似性或許能發現，內容字形會嚴重影響結果。可能這裡內容字形太多，導致抽取的特徵較為平均，以及圖片解析度也小，體現不出影響。

Comparison with Baseline Methods

[論文速覽] Separating Style and Content for Generalized Style Transfer

圖9 和baseline的比較，所有模型使用相同數量的圖片對來訓練

[論文速覽] Separating Style and Content for Generalized Style Transfer

圖10 生成新風格新內容的比較。模型名後面的數字對於EMD（有泛化能力無需重新訓練）來說是參考圖片數量，對於baseline來說是訓練的圖片對數量

Conclusion

略

Critique

跟同期的SA-VAE相比，訓練資料更多，圖片更清晰美觀，對比的baseline更多，貢獻更直接且集中，指出瞭解耦的作用。而SA-VAE多了關於漢字結構資訊的使用，而且用的是VAE，實驗多了插值、其他語言文字生成

本文對內容也需要多張參考圖片，而後續工作似乎想降低開銷，固定了一種字型作為源字型來提供內容圖片

相關文章

[論文速覽] CalliGAN@ Style and Structure-aware Chinese Calligraphy Character Generator
2024-03-11
Struct
Chapter7-6_Text Style Transfer
2020-10-07
APT
WPF style BasedOn base style
2024-11-17
[Javascript] Refactor blocking style code to stream style for fetching the stream data
2024-08-25
JavaScriptBloC
vue class與style 繫結詳解——小白速會
2018-04-03
Vue
Wpf ComboBox style
2024-04-01
"sideEffects": [ "dist/*", "esm/**/style/*", "lib/**/style/*", "*.less" ], 的作用是什麼
2024-04-01
IDE
JavaScript style 屬性
2018-05-27
JavaScript
vim Google style format
2018-03-14
GoORM
list-style-position
2020-01-29
html中list-style-type與list-style的區別
2019-07-08
HTML
[論文速覽] Learning to Write Stylized Chinese Characters
2024-03-11
Zed
style attribute 'attr/progressDrawable ' not find
2018-10-22
document.documentElement.style用法
2018-04-12
Notes about Vue Style Guide
2018-05-14
VueGUIIDE
offset與style區別
2020-11-22
vue style樣式失效
2020-04-26
Vue
flutter隨筆- Text and Style
2019-02-18
Flutter
論文速覽：Multi-source Domain Adaptation for Semantic Segmentation
2020-12-02
AIAPTSegmentation
CSS3 transform-style
2018-12-22
CSSS3ORM
1、Flutter Widget(IOS Style) - CupertinoApp;
2019-03-07
FlutteriOSAPP
vue 的 class 與 style 使用
2019-01-24
Vue
2、Flutter Widget(IOS Style) - CupertinoActionSheet;
2019-03-11
FlutteriOS
3、Flutter Widget(IOS Style) - CupertinoAlertDialog;
2019-03-11
FlutteriOS
Vue Class與Style繫結
2019-10-12
Vue
vue Class 與 Style 繫結
2019-05-21
Vue
5、Flutter Widget(IOS Style) - CupertinoSegmentedControl;
2019-03-13
FlutteriOS
CSS( Cascading Style Sheets )簡書
2018-03-08
CSS
vue style三級運算子
2020-12-24
Vue
卷積神經網路第四周作業2: Art Generation with Neural Style Transfer - v1
2018-12-31
卷積神經網路
Eslint Standard Style語法規則
2019-02-16
EsLint
內嵌樣式標記style
2018-10-31
offsetwidth與style.width 區別
2018-12-05
Android中Style和Theme資源
2020-06-03
Android
The elements of programming style，好程式的要素
2020-09-26
強制修改CSS的屬性style
2018-11-01
CSS
4、Flutter Widget(IOS Style) - CupertinoPicker、CupertinoDatePicker等;
2019-03-12
FlutteriOS
使用 Angular Shortcut 匯入 style 檔案
2023-05-16
Angular