CVPR 2024 | 打破黑白邊界,融合美學與實用性的二維碼生成技術來了

新闻助手發表於2024-09-19

CVPR 2024 | 打破黑白邊界,融合美學與實用性的二維碼生成技術來了

圖表 1第一行:對於同一個二維碼,我們可以提供不同美化風格的支援。第二行:放大影像的細節,可以看到我們的演算法能得到細節豐富且自然的美學二維碼。

在數字世界與物理世界無縫連線的今天,二維碼(QR codes)已經成為了連線這兩個領域的重要橋樑。這種二維編碼方式廣泛應用於各類場景中,從廣告到支付,再到資訊傳遞,幾乎無處不在。然而,儘管二維碼在功能上表現出色,但它的外觀卻相對單調,通常以黑白方塊為主,難以與現代視覺美學相契合。隨著使用者和行業需求的不斷變化,越來越多的人希望二維碼不僅能夠高效傳遞資訊,還能具有視覺上的吸引力。然而,傳統的二維碼設計過於強調功能性,忽略了美學上的潛力。

為了解決這一問題,上海交通大學的研究人員提出了首個基於Diffusion模型的美化二維碼生成框架Text2QR。該論文已被CVPR2024接收。

CVPR 2024 | 打破黑白邊界,融合美學與實用性的二維碼生成技術來了

論文連結:https://arxiv.org/abs/2403.06452

專案主頁:https://mulns.github.io/Text2QR/

傳統與創新:美學二維碼的進化之路

早期的美學二維碼生成方法多采用影像變換技術,如重組、融合以及風格遷移等方式,雖然這些方法能夠生成預定義的影像風格,但在滿足使用者個性化需求方面仍然存在侷限性。不同使用者的審美偏好多種多樣,現有的方法很難同時兼顧二維碼的功能性與美觀性。

近年來,影像生成與控制技術的進步為美學二維碼的生成帶來了新的契機。基於穩定擴散模型(stable diffusion models)的技術已經成為生成高質量、靈活影像內容的重要引擎。特別是ControlNet的出現,使得控制二維碼中亮度和暗度關係的操作成為可能。然而,這些方法在保持二維碼掃描穩定性方面仍然存在挑戰,尤其是生成過程中容易出現不穩定性,導致需要大量的手動調整和輔助控制模型介入。

全新Text2QR框架:美學與功能性的完美結合

Text2QR框架的設計初衷是解決二維碼生成過程中常見的兩大難題:美學要求功能性(可掃描性)的平衡。傳統二維碼雖然能夠高效傳遞資訊,但其設計以黑白方塊為主,視覺上缺乏美感。而當嘗試引入影像或藝術元素時,二維碼的可識別性往往受到影響。為了解決這一痛點,Text2QR透過三大核心步驟,將使用者的美學需求與二維碼的可掃描性緊密結合。

CVPR 2024 | 打破黑白邊界,融合美學與實用性的二維碼生成技術來了

圖 2上圖為我們的演算法Pipeline,除了第一階段為使用者定製階段,第二、三階段均為自動化最佳化過程,可以端到端地得到可掃且美學上對齊的二維碼。在使用者定製階段,使用者可以透過調整Prompt獲得自己想要的影像內容,再進入第二階段將二維碼資訊嵌入影像中,最後透過第三階段來增強二維碼的掃描魯棒性。

1. 影像生成與資訊編碼的定製

Text2QR的第一步是利用穩定擴散模型(stable diffusion model)生成使用者所需的影像。使用者可以根據個人需求,設計出具有美學元素的影像,如品牌標誌、藝術插畫等。同時,使用者還可以輸入需要編碼的資訊,系統將其轉換為標準的二維碼。這一過程生成了兩個核心元件:一個是使用者自定義的影像,另一個是代表資訊內容的二維碼。

2. QR美學藍圖(QAB):視覺與功能的第一次交匯

在第二步,Text2QR引入了QR美學藍圖(QAB)模組,這是該框架的核心創新之一。QAB模組的作用是將使用者生成的影像與二維碼進行融合,生成一個“二維碼藍圖”,既包含二維碼的資訊,也保留了使用者定義的美學風格。

該藍圖生成過程基於穩定擴散模型的ControlNet技術,它能夠智慧調節影像中的亮暗關係,使影像中的亮暗塊自然地對映到二維碼的模組上,確保二維碼資訊的完整性不會被破壞。具體而言,QAB模組會根據使用者的指導影像,生成與二維碼資訊相匹配的美學圖案,並在此過程中確保圖案與二維碼資訊之間的結構和明暗關係得到合理分佈。

雖然這一階段生成的結果已經具備了較好的視覺美感,但由於引入了複雜的影像元素,二維碼在實際掃描時仍可能面臨一定的解碼挑戰。因此,接下來的步驟著重解決這一潛在問題。

3. 掃描魯棒性最佳化(SELR):從美學到可用性的進一步提升

Text2QR的最後一步是透過掃描魯棒性最佳化(Scannability-Enhancing Latent Refinement,SELR)技術來提升二維碼的可掃描性。該步驟透過一個能量方程,精確衡量生成影像的內容一致性二維碼資訊的可識別性

具體來說,SELR技術會以之前生成的二維碼藍圖為參考,逐步最佳化第二步輸出圖片中的細節,使得二維碼在視覺美感不被破壞的前提下,提高其掃描成功率。透過多次梯度上升迭代,Text2QR框架能夠在使用者定義的美學標準與二維碼的可掃描性之間找到一個最佳平衡點。這種最佳化過程不僅確保了二維碼能夠被大多數掃描裝置識別,還保留了使用者期望的影像風格。

最終生成的二維碼不僅具備高度的視覺美感,能與各種設計風格相融合,還能穩定、快速地傳遞資訊,真正實現了藝術性實用性的雙贏。

實驗資料:Text2QR的優越效能

CVPR 2024 | 打破黑白邊界,融合美學與實用性的二維碼生成技術來了

在對比實驗中,Text2QR表現出色。透過與現有技術的對比,我們的方法在視覺質量和掃描穩定性方面均取得了顯著的提升。在實際應用中,Text2QR為需要兼顧美學與功能性的場景提供了一種理想的解決方案,無論是在廣告設計、藝術創作還是品牌營銷中,都展現出廣闊的應用前景。

展望未來:美學二維碼的應用前景

Text2QR的出現不僅為二維碼的美學設計提供了新的可能性,也為未來的研究方向提供了啟發。隨著技術的不斷進步,二維碼在具身智慧、製造業和擴增實境等領域的應用潛力正在不斷擴大。未來,我們期待Text2QR能夠在這些領域中發揮更大的作用,推動數字與物理世界的進一步融合。

團隊介紹

CVPR 2024 | 打破黑白邊界,融合美學與實用性的二維碼生成技術來了

劉笑宏,博士,上海交通大學,電子資訊與電氣工程學院助理教授,博士生導師。博士畢業於加拿大麥克馬斯特大學,研究方向為計算機視覺、多媒體資訊處理,現已在頂級國際會議與期刊上發表學術論文60餘篇,包括CVPR、ICCV、ECCV、NeurIPS、IEEE TIP等。入選2022年上海市領軍人才(海外)、2022年上海市浦江人才、2024年微軟亞洲研究院鑄星計劃,獲得2021年國家優秀自費留學生獎學金。主持國家自然科學基金青年科學基金專案、四川省自然科學基金青年科學基金專案、“交大之星”醫工交叉研究基金青年專案,參與國家自然科學基金重點專案2項,還承擔了國內外多家著名公司的技術研發專案,榮獲華為“火花獎”。擔任多媒體領域知名期刊ACM TOMM副主編、上海市計算機學會計算機視覺專委會副秘書長。個人主頁:https://jhc.sjtu.edu.cn/~xiaohongliu/

CVPR 2024 | 打破黑白邊界,融合美學與實用性的二維碼生成技術來了

翟廣濤,上海交通大學電子資訊與電氣工程學院教授、國家傑出青年科學基金獲得者。獲中國電子學會自然科學一等獎、技術發明一等獎和中國影像圖形學會技術發明一等獎。任Elsevier期刊Displays主編、上海市影像圖形學學會理事長。

相關文章