[論文速覽] Separating Style and Content for Generalized Style Transfer

NoNoe發表於2024-03-11

Pre

title: Separating Style and Content for Generalized Style Transfer
accepted: CVPR 2018
paper:https://arxiv.org/abs/1711.06454
code: none

關鍵詞: style transfer, chinese typeface transfer, font geration
閱讀理由: 回顧經典

Idea

將圖片解耦成內容和風格兩種特徵,兩兩組合以生成具有一方內容與另一方風格的圖片

Motivation

現有的風格遷移方法顯式學習某種源風格到目標風格的變換,無法泛化到新風格

[論文速覽] Separating Style and Content for Generalized Style Transfer

圖1 本文提出的EMD模型的框架

Background

相關工作分三部分介紹:

  1. Neural Style Transfer
  2. Image-to-Image Translation
  3. Character Style Transfer
[論文速覽] Separating Style and Content for Generalized Style Transfer

表1 EMD與現存方法的比較

Method(Model)

Overview

[論文速覽] Separating Style and Content for Generalized Style Transfer

圖2 EMD做風格遷移的詳細架構

Encoder Network

原文講得很細,略

Mixer Network

提到 Mixer 是一個雙線性模型(bilinear model)

雙線性:對函式\(f(x, y)\),當固定其中一個引數(x)時,\(f(x, y)\)對另一個引數(y)是線性的

實際上這個模型似乎只有一個簡單的可學習引數\(W\),對內容C風格S按下式進行融合:

\[F_{ij} = S_{i}\bold{W}C_{j} \tag{3} \]

對照圖2看能發現透過W能夠將維度不同的內容(\(1\times B\))風格(\(1\times R\))融合為任意維度的F
(\(1\times K\)),還挺方便,看起來是相加和拼接的進階版?

Decoder Network

多層 Deconvolution-BatchNorm-ReLU 上取樣

Loss

使用加權的L1損失函式(weighted L1 loss)作為生成損失(generation loss),用於衡量生成的影像與目標影像之間的差異。比起L2,L1損失傾向於產生更清晰、更乾淨的影像。函式定義如下:

[論文速覽] Separating Style and Content for Generalized Style Transfer

公式4-5

其中 \(W^{ij}_{st}\)\(W^{ij}_{b}\) 是兩個權重,用於緩解目標集中由隨機取樣引起的不平衡。這兩個權重分別關於字元的大小和厚度(\(W^{ij}_{st}\))以及字元的黑暗程度(\(W^{ij}_{b}\))。

因為每個迭代中目標圖片的尺寸和厚度都會改變,模型主要最佳化那些有更多的畫素的圖片,例如那些更大更厚的漢字。

作者定義 \(W^{ij}_{st}\) 為每個目標影像中黑色畫素數量的倒數。對於 \(W^{ij}_{b}\) ,作者計算每個目標影像中黑色畫素的平均值,並計算其 softmax 權重。但是什麼叫做黑畫素的平均值(mean value of the black pixels)?難道是考慮每個圖片裡黑色畫素有的略大於0,並非完全0/255的二元圖片?

[論文速覽] Separating Style and Content for Generalized Style Transfer

公式6-7

這種損失函式的選擇是基於字元字型遷移問題的特點,L1損失傾向於產生更清晰、更乾淨的影像。透過引入這些權重,模型在訓練過程中能夠更好地處理不同大小和厚度的字元,以及不同黑暗程度的字元,從而提高生成影像的質量。

Experiment

Settings

詳細講了網路的配置,略

值得注意的是該模型需要風格參考也要內容參考,兩者都要多張輸入,由同一個引數r控制,也就是每次生成需要r張風格r張內容參考圖片

Dataset

832 字型,每個有 1732 漢字,圖片解析度80x80

[論文速覽] Separating Style and Content for Generalized Style Transfer

圖3 資料集劃分示意圖,目標圖片選擇和參考集構建

資料集劃分為圖3所示的D1~D4四部分,紅叉是目標圖片,同一行的橙色圈是它的參考風格圖片,而同一列的綠色圈則是它的參考內容圖片

Influence of the Training Set Size

[論文速覽] Separating Style and Content for Generalized Style Transfer

圖4 D1~D4的生成結果(從左上到右下),TG: 目標圖片, O1: Nt=20k的輸出, O2: Nt=50k的輸出, O3: Nt=100k的輸出, O4: Nt=300k的輸出, O5: Nt=500k的輸出。固定r=10

Influence of the Reference Set Size

[論文速覽] Separating Style and Content for Generalized Style Transfer

圖5 參考圖片數量的影響(從左上到右下D1~D4),TG: 目標圖片, O1: r=5的輸出, O2:

r=10的輸出, O3: r=15的輸出. 固定Nt=300k

Effect of the Skip-connection

[論文速覽] Separating Style and Content for Generalized Style Transfer

圖6 跳躍連線的影響(從左上到右下D1~D4),TG: 目標圖片, O1: 沒跳躍連線的輸出, O2:

有跳躍連線的輸出, O3: r=15的輸出. 固定Nt=300k,r=10

Validation of Style and Content Separation

[論文速覽] Separating Style and Content for Generalized Style Transfer

圖7 風格抽取的驗證 CR:內容參考 TG:目標圖片 O1~O3分別由CR和三組不同的風格參考生成

[論文速覽] Separating Style and Content for Generalized Style Transfer

圖8 內容抽取的驗證 SR:風格參考 TG:目標圖片 O1~O3分別由SR和三組不同的內容參考生成

作者認為圖7說明風格編碼器抽取很準確,能抽取出穩定的特徵以生成相似的結果,對圖8也是類似的理解。如果像CF-Font那樣分析內容字形與目標字形的風格相似性或許能發現,內容字形會嚴重影響結果。可能這裡內容字形太多,導致抽取的特徵較為平均,以及圖片解析度也小,體現不出影響。

Comparison with Baseline Methods

[論文速覽] Separating Style and Content for Generalized Style Transfer

圖9 和baseline的比較,所有模型使用相同數量的圖片對來訓練

[論文速覽] Separating Style and Content for Generalized Style Transfer

圖10 生成新風格新內容的比較。模型名後面的數字對於EMD(有泛化能力無需重新訓練)來說是參考圖片數量,對於baseline來說是訓練的圖片對數量

Conclusion

Critique

跟同期的SA-VAE相比,訓練資料更多,圖片更清晰美觀,對比的baseline更多,貢獻更直接且集中,指出瞭解耦的作用。而SA-VAE多了關於漢字結構資訊的使用,而且用的是VAE,實驗多了插值、其他語言文字生成

本文對內容也需要多張參考圖片,而後續工作似乎想降低開銷,固定了一種字型作為源字型來提供內容圖片

相關文章