百度搞了個AI「黑科技」,讓科技圈大佬們搶鏡拜年

机器之心發表於2025-01-26

用AI過一個賽博新年。

自從有了 AI,過個年都相當「有戲」。

再有三天,就要進入蛇年了。

各家 AI 廠商都憋足了勁兒想搞波大的,AI 全家福、AI 寫春聯、AI 賀歲短片統統整上,甚至還有跟親戚激情對線的 AI「嘴替」。

百度這次也沒閒著,推出了「AI 拜年」活動,只需一張照片和一句 prompt,人人都可免費定製拜年賀卡。

比如,讓「矽谷鋼鐵俠」馬斯克給特斯拉貼福字:

圖片

奧特曼在春晚舞臺上撒紅包:

圖片

或者讓「皮衣刀客」黃仁勳身穿喜慶的衣服點鞭炮:

圖片

再來句祝福語,一張年味十足的春節賀卡齊活。

圖片

外行看熱鬧,內行看門道。百度這一拜年神器的背後,離不開其自研的 iRAG(image-based RAG)技術。

憑藉百度搜尋的億級圖片資源和強大的基礎模型能力,它可以生成各種超真實的圖片,整體效果遠遠超過文生圖原生系統,不僅去掉了 AI 味兒,而且成本很低。

先來看看我們的一手實測成果。

蛇年春節,你可以 AI 拜年

對於當代年輕人來說,春節拜年簡直就是大型社死現場。

不僅要接受七大姑八大姨的「靈魂拷問」,還要絞盡腦汁找話題和不熟的親戚「尬聊」。

即使是發個拜年簡訊也得反覆編輯,要是太普通,總覺得沒啥誠意,發出去怕被淹沒在資訊洪流裡。要是太花哨,又顯得不真誠,讓人覺得在故意堆砌辭藻。要是用網路熱梗,還擔心長輩們看不懂,或者一不小心鬧出誤會……

總之,這個年,一拜一個不吱聲。

而百度搜尋的「AI 拜年」正好可以讓年輕人遠離這些尷尬。

玩法也很簡單。直接在百度搜尋「祝福語」,點選「做賀卡」進行文案調整,然後在「創意照片」中上傳一張單人正臉圖片,再輸入 Prompt,就能生成一張獨一無二的新年祝福賀卡。

圖片

比如我們讓名人來充當拜年大使,瑪麗蓮·夢露、馬斯克甚至是甄嬛…… 只要將參考圖提供給 iRAG 加持的百度文生圖大模型,再用文字描述一下自己的創意,就能獲得專屬的拜年圖片。

圖片
(左為原圖,右為生成圖。Prompt: 生成一張瑪麗蓮・夢露包餃子的圖)

圖片

(左為原圖,右為生成圖。Prompt: 生成一張甄嬛打燈籠的圖片)

圖片

(左為原圖,右為生成圖。Prompt: 生成一張馬斯克穿著年畫娃娃的衣服拱手作揖拜年的圖片。)

可以看到,生成的圖片非常精準地保留了人物的身份特徵,同時也嚴格地遵循了使用者的文字指令。在保證了超高質量的同時,生成的場景與物體也沒有出現很多文生圖模型常見的幻覺現象。

如果你更願意自己出鏡,但又是 P 圖苦手,也完全可以交給「AI 拜年」代勞 —— 只需一張你自己的照片和一句話,就能生成或莊重、或活潑、或妙趣、或古靈精怪的拜年圖。

圖片

此外,你還可以讓參考圖片中的人物出現在任何你想象的場景中或去做任何你想象的事情。

比如讓奧黛麗・赫本穿著東北大花襖寫春聯,甚至還能用它給小李子合成相親照片。

圖片
(左為原圖,右為生成圖。)

在測試過程中,我們還注意到,百度 iRAG 驅動的文生圖模型不僅具有非常強大的抗幻覺能力,而且還在漢語對齊方面下足了功夫。

我們知道,在文生圖時,使用成語的結果往往難以預料,因為很多文生圖模型在面對成語時往往會直接取用其字面含義,從而生成嚴重偏離期望的結果。

舉個例子,如果我們的提示詞是「幫我畫一個虎頭虎腦的大胖小子」,那麼文生圖模型可能會畫出一個真正老虎頭的人物來。

圖片

不過,如今的百度憑藉自身在中國文化上的積澱,能在很大程度上避免這種語義理解上的錯誤。

圖片
(Prompt:生成一張虎頭虎腦的大胖小子的圖片。)

再比如車水馬龍、青梅竹馬這類成語,甚至是唐伯虎點秋香,百度文生圖模型統統搞得定。

圖片

曾經中國美食也讓文生圖模型們頻頻「翻車」。驢肉火燒成了驢肉漢堡、啤酒鴨成了「泡」在啤酒裡的烤鴨。

圖片

而基於 iRAG 驅動的百度文生圖模型目前也已攻克這一難題。

圖片

(左為原圖,右為生成圖。Prompt:生成畫一張貝多芬吃虎皮蛋糕的圖片。)

基於影像的 RAG 究竟如何煉成?

既然這個有趣應用的背後是百度自研的一種名為 iRAG 的技術,那麼到底啥是 iRAG?

所謂 iRAG,就是檢索增強的文生圖技術,要想把它搞明白,我們就得先理解什麼是 RAG。

什麼是 RAG?

RAG(檢索增強生成)的概念其實並不複雜。簡單來說,就是讓大模型在執行生成之前參考或引用某些資料,而這些資料通常並不在該大模型的訓練資料集內,屬於專有或私有資料。

利用這些資料,RAG 可以提升響應的相關性,從而無需重新訓練模型就能提升大模型的輸出。RAG 尤其顯著的一大優勢是可以降低大模型的「幻覺」問題 ——RAG 可透過引用外部知識有效減少生成內容出現事實性錯誤的問題。正是因為這些優勢,RAG 已經在聊天機器人等 LLM 應用中得到了廣泛應用。

RAG 技術近年來發展迅速,並且可以明顯分成幾個階段。首先,RAG 誕生時,恰逢 Transformer 架構興起,其作用主要是透過預訓練模型來整合額外知識,從而增強語言模型。

後來,ChatGPT 橫空出世,LLM 表現出了非常強大的上下文學習(ICL)能力。RAG 的研究方向也轉向了為 LLM 提供更好的資訊,從而使其可以在推理階段回答更加複雜、需要更多知識的問題。這也是 RAG 高速發展的時代。

之後,隨著研究進步,RAG 也不再限於推理階段了,還開始與 LLM 微調技術結合在一起。

現在,RAG 這個研究方向可以說是百花齊放,但其核心流程基本可以歸結為三個階段:索引(Indexing)、檢索(Retrieval)、生成(Generation)。下圖就展示了一個典型的 RAG 應用。

圖片
一個應用於問答任務的 RAG 典型例項,圖源:arXiv:2312.10997

在這個示例中,使用者先向大模型提出一個涉及當時最新新聞的問題,而這個新聞自然不可能出現在該大模型之前的預訓練資料中。於是,RAG 就可以填補上這個空白 —— 收集與該使用者查詢相關的新聞文章,再將這些文章與原始問題一起組合成一個全面的提示詞提供給大模型;這樣一來,大模型便可以基於豐富的資訊生成答案了。

當然,現如今的 RAG 技術要遠遠更加多樣化,還會採用很多高階技術及模組化方法。百度的 iRAG 便是一種進階版的 RAG 技術,是 RAG 向多模態的泛化與擴充。

iRAG = 影像 + RAG

在此之前,RAG 採用的外部知識庫通常是文字資料或表格等結構化資料,而百度成功將這一技術思路應用在了影像資料上,併成功自主研發了 iRAG(檢索增強的文生圖技術 / Image-Based Retrieval-Augmented Generation)。該技術可解決文生圖系統生成結果真實感低以及幻覺問題。

很多文生圖系統都存在「一眼 AI」的問題,簡而言之就是太假了,之前一個非常著名的例子是「威爾・史密斯吃義大利麵」。

圖片
早期的文生圖系統既不能很好地還原人像,也無法很好地處理事物之間的互動。

此外,與大型語言模型一樣,文生圖大模型同樣也存在幻覺問題,也就是說這些模型可能會過度腦補,生成雖有真實感但卻不符合實際情況的影像。百度創始人兼 CEO 李彥宏曾在百度世界大會 2024 上舉了一個例子,一些文生圖模型在生成「天壇」的影像時會忽視現實情況,自行將天壇加高一層。這就是文生圖模型普遍存在的典型幻覺現象,並會在很大程度上限制多模態大模型的規模化應用。

圖片

圖源:百度世界大會 2024

iRAG 基於百度搜尋的億級圖片資源跟強大的基礎模型能力(文心大模型),解決了文生圖系統的兩大核心難點:真實感不足和幻覺。

透過檢索百度搜尋的大規模影像資料庫,iRAG 可透過參考和引用真實的影像元素為文生圖的真實感和事實性保駕護航。當然,需要指出,iRAG 並不會直接引用資料庫中的影像元素,而是會基於檢索到的影像進行符合文字提示詞要求的重繪。比如說,如果影像資料庫中僅有一張天壇的正面照片,而使用者想要生成一張天壇的航拍圖,iRAG 就會在生成這張航拍圖時以資料庫中的正面照片為參考,保證變換視角後的生成圖片不會偏離天壇的真實樣貌。

不僅如此,百度還成功壓低了 iRAG 的計算成本,能以非常快的速度、近乎零成本地為使用者提供服務。百度自己給出的總結是:「無幻覺、超真實、沒成本、立等可取」。

據瞭解,百度是在 2024 年初開始研究解決文生圖模型的幻覺問題,推進 iRAG 的相關研究,當時 OpenAI 剛公開展示了 Sora 生成的多個高畫質影片,引起了無限遐想和討論。幾個月後,在 Sora 依然還在內測時,百度開始公開展示自己的研究成果 —— 基於 iRAG 的文生圖系統已經能生成照片級真實感的影像!

在百度世界大會 2024 上,李彥宏展示了愛因斯坦漫遊世界的例子,讓這位無人不知的天才物理學家成功打卡長城、鳥巢等眾多地標。之後他更是自信地表示:「在全球範圍內,百度的 iRAG 能力是最領先的。」

圖片
百度 iRAG 能生成照片級真實感的影像

現在,時間又已經過去了兩個多月,百度 iRAG 的能力又得到了進一步精進,不僅基礎大模型更強了,而且百度還為之開拓了更多應用場景。透過百度搜尋 APP,百度也拉低了使用 AI 的門檻,讓任何人都能使用前沿的 AI 文生圖一展自己的想象力,做出奇妙、好玩又有用的視覺內容。

並且,你不僅能用 iRAG 製作新年賀卡或名人亂入圖,也能將其作為製作產品宣傳圖的生產力工具。舉個例子,以前為了拍攝產品宣傳圖,你可能會聘請專業的拍攝團隊,有時候還需要聘請產品模特 —— 有些汽車宣傳海報的製作成本可能會達到數十萬,但現在有了 iRAG,你只需要將自己的產品圖提供給大模型作為檢索資料來源,然後用文字描述你想要的場景,百度 iRAG 加持的 AI 就能為你直接生成心儀的產品宣傳圖。

此外,憑藉卓越的參考引用能力,百度 iRAG 還非常適合一些需要保持身份一致性的文生圖應用,比如製作連續的漫畫或畫本、運營虛擬偶像、影視作品概念設計、開發品牌 IP 形象……

蘊藏無限可能,iRAG 吹響智慧體之年序曲

前段時間,有不少 AI 從業者都對 2025 年做出了一個類似的判斷:這一年會是「智慧體之年」,也會是 AI 應用大爆發的一年。

圖片
很多 AI 從業者都認為 2025 年是智慧體之年,其中也包括 OpenAI 總裁和 CEO 等

現在,2025 年才剛過不到一個月,以蛇年春節為契機,大量 AI 應用就已經誕生。可以說蛇年春節會是有史以來 AI 濃度最高的一個春節,也會為「智慧體之年」吹響一個完美的序曲。

「AI 拜年」只是一個起點,也是一場立足中國傳統節日文化的技術展示。iRAG 技術必然還將進一步擴充其應用場景,視覺設計類工作當然是最基本的。考慮到 iRAG 潛力,其很可能會成為未來視覺設計工作的一大基本組成,甚至有可能完成視覺設計中超過一半的基礎工作量。甚至或許,街角煎餅攤的老闆也能設計出自己的高階選單。

視覺設計之外,iRAG 也可能會成為許多智慧體的核心元件。簡單想象一下,我們就能為其找到大量有價值的應用場景,包括基於現實場景建立遊戲世界、根據老照片甚至畫像進行人像復原、讓我們和喜歡的動漫人物同框合影,還有生成靚麗帥氣的春節相親照…… 就正如基於文字和資料庫的 RAG 讓大量 AI 應用變得更有價值一樣。

一點頭腦風暴,我們就能想象出 iRAG 蘊含的無盡可能性。現在,這一技術就已經擺在我們眼前了。透過百度搜尋,我們可以零成本且快速地抓住春節假期這個一年一次的大型營銷契機,用 iRAG 為我們產品甚至為我們自己代言。

相關文章