來自華南理工大學、新加坡國立大學、崑崙萬維以及琶洲實驗室的研究者們提出一種新的風格化手寫文字生成方法,僅需提供單張參考樣本即可臨摹使用者的書寫風格,支援英文,中文和日文三種文字的臨摹。
一眼臨摹 AI 的研究背景
手寫體自動臨摹是一項有趣的 AI 生成式任務,使用者只需將少量書寫樣本輸入到筆跡模仿 AI 中,就能獲得一套符合自己書寫風格的電子字型。該字型可以用於社交和辦公軟體中,幫助使用者更好的表達個性和傳遞情感,兼顧了傳統手寫的人情味和數字化時代的高效表達。
在去年早些時候,機器之心也報導過一個CVPR’23筆跡模仿的工作,名為Disentangling Writer and Character Styles for Handwriting Generation。彼時的筆跡模仿 AI 還需要提供 15 張樣本作為風格參考,使用者使用起來覺得略顯繁瑣。在實際應用中,使用者更傾向於只需單張樣本作為輸入的筆跡模仿 AI,因為其更加高效,便捷以及節約時間。
在這篇發表在 ECCV 2024 上的新工作中,研究者們設計了一種能夠一眼臨摹的手寫文字生成方法。該方法僅需單張樣本作為風格輸入,為使用者帶來更好的使用體驗。在具體介紹該工作之前,我們可以思考一個問題:目前大火的文生圖方法和風格遷移方法是在海量的資料上進行訓練的,擁有強大的泛化能力,能否可以直接實現一眼臨摹?答案是否定的。研究者們挑選了 DALL-E3, Stable Diffusion , Artbreeder , IP-Adapter 等工業方法進行測試,實驗顯示現有工業方法在手寫文字的風格臨摹 (墨跡顏色,傾斜程度,字母間的連筆和間隔等) 上離目標還有較大距離,暫時還無法做到一眼臨摹。
為了實現一眼臨摹,研究者們提出一個風格化的手寫文字生成模型 (stylized handwritten text generation method),該模型能夠從單張手寫樣本中臨摹出使用者的書寫風格,進而合成任意書寫內容的手寫筆跡。目前論文的程式碼和資料已經開源,歡迎感興趣的小夥伴們上手試玩!
- 論文地址:https://arxiv.org/abs/2409.04004
- 程式碼開源:https://github.com/dailenson/One-DM
關鍵問題
圍繞上述目標,研究者們分析了兩個關鍵問題:1. 使用者只能提供單張書寫樣本,如何從單張參考樣本中準確學習使用者獨特的書寫風格呢?換句話說,一眼臨摹的要求過於苛刻,僅僅使用單張樣本能否臨摹出令人滿意的使用者筆跡?2. 實際應用中,使用者書寫的紙張可能沒那麼幹淨,提供的樣本中存在多樣的噪聲背景,如何在臨摹風格的過程中避免這些噪聲的干擾?接下來讓我們看看這篇 ECCV2024 提出的 One-DM(One-Shot Diffusion Mimicker)是如何解決上述問題的吧。
技術方案
研究動機 研究者發現,由於單張樣本影像中存在背景干擾,書寫風格模式並不清晰,很難直接從原始的樣本影像中提取出準確的書寫風格。為了解決上述問題,研究者對樣本進行高低頻分離,發現書寫樣本的高頻成分中具有清晰的文字輪廓,蘊含著顯著的書寫風格模式,包含文字的傾斜,字母間距和連筆模式等。受啟發於上述觀察,One-DM 旨在引入個人筆跡的高頻成分來增強使用者書寫風格的提取。
然而,這聽起來簡單,實際操作卻不容易。這裡有兩個尚未解決的難題:(1) 儘管高頻成分中存在更清晰的風格模式,如何準確引導 One-DM 從高頻影像中提取出風格特徵而不是其他的特徵呢?(2) 由於高頻成分中缺乏筆跡顏色,仍然需要從原始樣本中提取風格模式作為補充,這導致最終提取出的風格特徵依然保留了樣本的背景噪聲,從而對後續的文字合成過程產生不利影響。為了解決這些難題,One-DM 提出了兩個解決策略:(a)拉普拉斯風格增強模組,(b)自適應過濾噪聲的門控機制。
方法框架 One-DM 的整體框架如下圖所示,包含高頻風格編碼器、空域風格編碼器、內容編碼器、風格 - 內容融合模組和擴散生成模組。首先,One-DM 利用高通濾波器從原始風格參考影像中提取高頻成分,其次將高頻和原始影像並行輸入到高頻和空域風格編碼器中,分別獲得高頻和空域風格特徵。然後,利用門控機制來自適應過濾空域風格特徵中的背景噪聲。接著將內容編碼器提取的內容特徵,高頻風格特徵和過濾後的空域風格特徵送入風格 - 內容融合模組中獲得合併後的條件輸入。最後,利用該條件輸入引導擴散模型合成滿足期望風格和目標內容的手寫文字。
(a) 拉普拉斯風格增強模組 One-DM 提出拉普拉斯風格增強模組來從單張書寫樣本中高效提取使用者的書寫風格。首先利用拉普拉斯運算元獲取原始樣本的高頻成分。相比其他運算元,例如:傅立葉運算元,索貝爾運算元和小波運算元,拉普拉斯運算元的優勢在於能夠提取更加清晰的字元風格模式。隨後,在拉普拉斯對比學習損失函式(LapNCE)的引導下,高頻風格編碼器從高頻成分中提取出判別性強的風格模式,用於促進手寫文字合成的真實性和多樣性。LapNCE 和高頻成分是不可分割的整體,與其他直接作用於影像上的對比學習損失函式不同,LapNCE 只有作用在高頻成分上才能準確引導風格的提取。
(b) 自適應門控機制 為了過濾空域風格特徵中存在的噪聲資訊,One-DM 提出自適應門控機制。門控機制中存在多個可學習的門控單元,其數量與空域風格特徵的長度相同。門控單元W的值會隨著的改變而自適應變化,每個門控單元決定了對應位置的透過率,使得較大的位置透過率越高。該機制能夠從獲取有意義的風格資訊,同時抑制多餘的背景噪聲,其中。
(c) 風格 - 內容的融合摸塊 獲取了高頻和空域風格特徵後,如何將風格資訊和內容編碼器提取出的內容資訊注入到擴散模型中,引導後續的文字生成過程呢?One-DM 提出先將內容資訊和風格資訊融合後再進行注入擴散模型,而不是分開注入。具體來說,所提出的風格 - 內容融合模組包含兩個 attention 機制。首先,內容資訊E作為 query 向量,合併後的風格資訊作為 key & value 向量,在交叉注意力機制中,E動態查詢風格資訊中與自身最相關的風格特徵。然後,將查詢出的風格特徵和內容資訊合併,送入自注意力機制中完成進一步的資訊融合。
實驗評估
定量評價 One-DM 在多個英文、中文和日文資料集上都取得了最優異的臨摹效能。尤其強調的是,僅需一張參考樣本的 One-DM 超過了之前依賴十幾張參考樣本的 SOTA 方法 (HWT 和 VATr)。
定性評價 在英文文字生成任務上,相比以前的 SOTA 方法,One-DM 生成的結果可以更好的臨摹出參考樣本的墨跡、字元間隔和筆畫粗細等風格特徵。
在其他語言上 One-DM 也表現良好。從下圖中可以看出,Diffusion-based (One-DM 和 WordStylist) 的方法在生成中文和日文等字元結構複雜的文字時,顯著優於 GAN-based (GANwriting,HWT 和 VATr) 方法。而相比同為 Diffusion-based 的 WordStylist,One-DM 在字元細節上更勝一籌。
與工業方法對比,One-DM 也有較大優勢。在英文文字合成任務上,One-DM 的文字內容準確度和風格臨摹上都顯著優於現有的主流工業方法。其中,DALL-E3 跟 Stable Diffusion 表現稍好,可以合成正確的文字內容,但是在風格臨摹上效果不佳,並且 Stable Diffusion 容易生成多餘的背景。而中文文字合成任務上,One-DM 在字元的墨跡和字元細節上與目標風格更接近。
消融實驗
核心模組對演算法效能的影響 如下表所示,本文提出的拉普拉斯風格增強模組和門控機制具有協同作用,有效提升了對使用者筆跡的臨摹效能。此外,實驗也證明了拉普拉斯運算元比其他運算元提取的風格模式更加清晰,有助於提升文字合成效能。
拉普拉斯風格增強模組的分析 實驗驗證了高頻成分和拉普拉斯對比學習 (LapNCE) 是不可分割的整體:單獨使用會導致 One-DM 效能顯著下降,聯合使用二者才能最大程度上提升效能。原因在於,沒有 LapNCE 的引導,One-DM 很難從高頻成分中準確提取風格模式。另一方面,由於原圖中的風格模式並不清晰,直接將 LapNCE 應用在原圖上也很難提取到理想的風格模式。
一眼臨摹的深入分析 為什麼僅需單張樣本的 One-DM 可以超越需要 10 幾張樣本的 SOTA 方法呢?本文給出了潛在的分析:首先,One-DM 學習到了有意義的風格特徵空間,可以根據訓練過程中見過的風格靈活創造新的書寫風格而不是機械的記憶訓練集中的已有風格,如下圖所示。然後,藉助拉普拉斯風格增強模組,One-DM 可以從使用者提供的參考樣本中準確提取出書寫風格特徵,並將其對映到特徵空間中與使用者相近的位置,從而產生高質量的風格化手寫文字影像。
One-DM 在中文和日文實驗上的深入分析 為什麼 One-DM 在中文和日文實驗上遠超 GAN-based 的方法?本文對此做了進一步探究。作者認為,GAN-based 方法在較低效能可能源於其基礎卷積架構難以處理這些字元的複雜幾何結構。相比之下,One-DM 作為 Diffusion-based 方法,將中文和日文等複雜字元的生成過程分解為更簡單的步驟。如上圖所示,在擴散生成過程的早期階段,One-DM 首先嚐試生成一個粗略的中文手寫字元。然後,在條件輸入的引導下,模型繼續細化書寫風格(例如字元形狀和筆畫顏色),直到合成出令人滿意的手寫體。
總結與展望
One-DM 從使用者的實際體驗出發,提出了一眼臨摹的筆跡臨摹 AI。相比之前的類似工作,One-DM 僅需單張樣本作為風格輸入,使用起來更加高效、便捷和節約時間,並且在效能上也優於以往依賴 10 幾張風格樣本的 SOTA 工作。希望在未來,人人都可以在網際網路上使用自己的專屬字型,能夠同時享受傳統手寫體帶來的人情味與 AI 時代帶來的高效便捷。