國慶期間,抖音上一款名為“AI治癒繪本”的特效憑藉溫暖優美的畫風和高還原度吸引了數百萬使用者投稿,採用了動態繪本的擬物玩法,“AI治癒繪本”特效首次使用了3D立體翻書的形式,巧妙地將首張使用者圖作為書皮呈現,玩法新穎有趣。基於該特效投稿的“成為繪本里的溫暖主角”話題播放量超過11億。
據瞭解,“AI治癒繪本”特效底層使用了位元組跳動豆包大模型的影像生成能力,技術團隊透過多項自研演算法,保證了模型有更好的風格響應度、畫面美觀度,讓風格化效果更富有表現力,並且更大程度還原了人物面部特徵、服裝款式、顏色、配飾等主體特徵,在“美且像”的維度上取得了良好的效果。
為呈現更好的互動方式,技術團隊還使用了自研的主體抹除、擴圖能力,對風格化結果圖進行後處理,使得多張結果圖可以在端上進行切換。上述過程中應用到的IP保持技術RealCustom和 AI擴圖和AI消除技術ByteEdit,兩項成果分別入選CVPR2024和ECCV2024。
RealCustom :生成效果又美又像本人的IP保持技術
RealCustom是一種個性化定製技術即IP保持,對於任意開放域物體或人物 IP 均可實現無需微調的實時定製化生成,在AI繪本中主要起到保持輸入圖片特徵的作用。不同於以往風格化特效中用的圖片特徵保持方法, RealCustom不僅能夠還原圖片的細節特徵,還具有對圖片的抽象語義理解,從而可以根據文字輸入自適應地做出變化,並生成更加和諧的效果。為了更好的還原主體外觀,RealCustom使用了多個層次的圖片資訊融合,為了讓視覺資訊跟文字資訊能更好的融合,RealCustom 透過自適應模組學習了視覺條件與文字條件之間的對齊能力,並根據不同時刻的狀態準確地推匯出相應的視覺條件。從而能對使用者多種多樣的輸入做出自適應的處理,在保證好看的風格化效果的同時,穩定的保持圖片特徵。
RealCustom 論文已入選CVPR2024,瞭解詳細內容見:https://corleone-huang.github.io/realcustom/,https://corleone-huang.github.io/RealCustom_plus_plus/
ByteEdit:讓填充背景更自然和諧的AI擴圖和AI消除能力
特效中用到了AI擴圖和AI消除的能力,其中AI消除是指消除影像中指定的某個物體或區域,並根據周圍的背景來填充消除位置的內容;AI擴圖則根據指定的擴充套件比例來延展原影像的內容。這兩個任務本質上都是根據已知影像的內容去填充周圍的區域,重點在於如何讓填充的內容和原圖沒有違和感。
為了達到這個目的,首先,技術團隊增大了訓練資料量級,讓模型「看到」更多泛化場景,此外,ByteEdit提出了一種創新的框架,利用反饋學習來增強生成性影像編輯任務。ByteEdit透過整合影像獎勵模型來提升美學質量、影像與文字的一致性,並引入密集的畫素級獎勵模型以增強輸出的一致性,讓希望填充的區域和非填充區域更加的和諧。此外,提出了一種對抗性和漸進式反饋學習策略,以加快模型的推理速度。
原圖 | 左:獎勵模型前生成的圖;右:加入獎勵模型後的圖。 | 原圖 | 左:獎勵模型前生成的圖;右:加入獎勵模型後的圖。 |
ByteEdit已入選ECCV2024,詳見論文主頁:https://byte-edit.github.io/
除此之外,“AI治癒繪本”特效可以支援使用者上傳多張圖,在做能力部署時,技術團隊針對該場景單獨做了一套多服務並行邏輯以及效能加速策略,最大程度保障了在流量高峰期時,能夠在最短時間內將風格化結果圖、後處理結果圖等順利返回到端上。端上獲取多張結果圖後,技術團隊依託自研的書本3D運動和陰影跟隨演算法,對書內各個物體的運動曲線進行引數自動化調整,在模擬書本翻頁以及內頁跳出的過程中,陰影效果可以隨書頁自然移動,更大程度保留了書頁翻動的立體感與自然感,邊緣的陰影過渡相對流暢。
近期,抖音特效團隊還在國慶期間上線了同樣是溫暖治癒系的“金秋繪本風特效”,特效投稿已超百萬,相關話題播放超過1.8億。
豆包大模型是位元組跳動自研的大語言模型,透過位元組跳動旗下雲服務平臺火山引擎面向企業開放服務。目前豆包模型家族已全面覆蓋語言、語音、影像、影片等全模態,全方位滿足不同行業和領域的業務場景需求。