文生圖大型實踐:揭秘百度搜尋AIGC繪畫工具的背後故事!

人工智慧洞察站發表於2023-11-09

來源:百度Geek說
作者 | Tianbao

導讀 
introduction
2023年以來,AIGC技術已催生了新一輪人工智慧浪潮。AI繪畫作為大模型最引人矚目的應用領域之一,近年來也取得了重大突破。AI繪畫系統可以根據使用者的輸入或提示生成各種風格的影像,這為藝術家、設計師和創作者提供了強大的工具,也為數字創意領域帶來了新的可能性。

近日,百度搜尋主任架構師Tianbao應邀參加了知名技術媒體InfoQ的“極客有約”對話節目,與主持人和觀眾們就影像生成技術進行了深入探討,包括百度搜尋的應用場景、相關技術的思考,以及在搜尋業務場景的應用落地經驗。

本文詳細記錄了訪談內容。


全文10034字,預計閱讀時間26分鐘。


亮點:

1、這是一個巨大的變革,從過去使用者在全網尋找影像,轉變為結合了查詢影像和生成影像兩種方式,以滿足使用者更具體的需求,這也在一定程度上鼓勵使用者更主動地表達他們真正的需求。

2、要使一個模型更好地理解中文,準備和清理與中文語義相關的語料非常重要。

3、對於去除低質量樣本和構建高價值樣本,都是圖文對齊所必需的能力。

4、百度搜尋需要滿足使用者在內容和風格方面多樣化的需求,在百度搜尋目前支援了上千種不同的畫面風格定義。

5、遵循美學標準,構建自己的美學認知,無論是在整體模型構建方面還是在演算法最佳化方面,都需要按照這些先進標準來進行相關的指導和評估。


GEEK TALK

01

文生圖的技術發展過程

Q

AIGC從去年9月到現在,我們能看到各種各樣的模型和公司不斷湧現。從最初大家使用Stable Diffusion來生成簡單的影像,到後來用一些其它方法進行生成式影像編輯,後來甚至Adobe Photoshop 支援使用自然語言方式修改圖片。我覺得從之前看到的AIGC在生成文字方面取得的成就之外,還有更多有趣的應用領域。除了生成圖片,還能夠生成影片和音訊。最近,我也看到了一些令人驚豔的生成影片產品。今天想請TianBao老師跟大家展開介紹一下文生圖技術目前的整體發展趨勢是什麼樣的。

TianBao2022年可以算是文生圖的元年,整體上分為以Stable Diffusion為代表的開源的流派,以及Midjourney 、Adobe的Firefly、Dall-E 3 為代表的閉源模型。而之所以說這一年是元年,是源於 Disco Diffusion。Disco Diffusion的目標主要是 landscape 等風景類創作,風景類場景是一個容錯率比較高的場景,並結合了富有視覺衝擊的色彩,極具藝術質感,這在2021年底至2022年初,是一個很大膽、很驚豔的一個嘗試。

直到2022年2月,Midjourney釋出了v1版本。v1的整體效果相當令人吃驚,但在生成人像方面還差強人意。直到同年7月中旬,Midjourney v3才能正常地生成一些常規人像。在8月份時,作品《太空歌劇院》就透過Midjourney v3進行生成,加上 Photoshop的後期處理,這使得Midjourney成功引起了轟動。

stable-diffusion 1.5版本也在同一時期開源,這個開源事件具有里程碑的意義,因為從那時起,像C站這樣的更多使用者開始湧向去中心化的模型和最佳化領域。隨著開源技術的發展,整個生態系統,包括下游應用,都經歷了爆發式增長和湧現。之後,技術的進步以及下游應用的發展持續在相互促進。


GEEK TALK

02

百度文生圖的探索和成果

Q

AIGC從去年9月到現在,我們能看到各種各樣的模型和公司不斷湧現。從最初大家使用Stable Diffusion來生成簡單的影像,到後來用一些其它方法進行生成式影像編輯,後來甚至Adobe Photoshop 支援使用自然語言方式修改圖片。我覺得從之前看到的AIGC在生成文字方面取得的成就之外,還有更多有趣的應用領域。除了生成圖片,還能夠生成影片和音訊。最近,我也看到了一些令人驚豔的生成影片產品。今天想請TianBao老師跟大家展開介紹一下文生圖技術目前的整體發展趨勢是什麼樣的。

我大致還記得Stable Diffusion剛開始的效果並不太好,例如在嘗試生成人像時,出現了很多扭曲的結果,如一個人有三條腿或多個眼睛。隨著時間推移,這一技術逐漸變得更加逼真。同時,類似Civitai的AI技術也興起,允許人們根據他們的影像進行各種場景的創作,比如受歡迎的原神系列。這種生成影像技術的發展催生了多種應用。比如,在抽卡類遊戲中,原畫師可以利用這一技術來建立遊戲元件。在百度搜尋等國民級應用中,文生圖又如何與場景相結合的?剛開始,我理解它可能是在搜尋框中,使用者輸入關鍵詞後能夠找到相關的影像,但我相信你們會有更多不同的創新。

TianBao:早期,百度也進行了一些AIGC影像生成的嘗試。正如剛才和大家討論的,文生圖技術從最初的結果不夠可用,逐漸變得可用,並能夠釋放想象力,帶來了引人注目的視覺衝擊。
對於搜尋,使用者以前要找一張圖片,通常會進行文字搜尋。例如,一個戴著太陽鏡和帽子的貓,做著憤怒的手勢,使用者在腦海中構想的畫面,他們通常只能在全網中搜尋到已經被創作好的、可感知的內容。但對於一些更具體的場景,比如貓要做著憤怒的手勢,穿著特殊服飾,如果全網沒有人創作這種圖片,使用者需求的滿足就會受到限制,導致需求退化成尋找一個憤怒的貓,之後,他們將變成瀏覽型需求,檢視全網上是否有類似的憤怒的貓來滿足他們的需求。
然而,隨著生成式技術的迅速發展,我們現在有能力將使用者腦海中的影像具體呈現出來,以滿足他們的需求。我們將使用者的查詢需求,轉變為結合了查詢影像和生成影像兩種方式,以滿足使用者更具體的需求,這也在一定程度上鼓勵使用者更主動地表達他們真正的需求。在產品方面,使用者可以透過百度的App,搜尋"畫一個憤怒的貓"或者"畫一畫",然後進入文生圖的相關功能頁面,大家可以親自體驗一下。
尋找一張圖片是搜尋的第一步。在影像領域,許多創作者首先需要找到適合他們需求的影像,然後他們可能需要用這張影像作為頭像,或者用它作為創作素材,或者在工作中使用它。因此,在生成的過程中,我們正在加入編輯工作,例如修復(inpainting)、擴充套件(outpainting)。舉個例子,如果畫面中有一隻戴著帽子的貓,透過自然語言互動,我們可以將貓替換為一隻狗,從而增加了影像的再利用能力。這背後通常會涉及一個基於文生圖的預訓練大模型,用於影像編輯。
整體而言,從最初的尋找影像,變成了“找圖”加“生圖”的過程,然後進入到第二個階段,即影像的用途,以滿足使用者在影像領域的需求。


GEEK TALK

03

文生圖的實踐及挑戰

Q

聽起來這是一個非常有趣的應用場景,因為很多時候,比如我以前製作PPT時,需要找到能滿足我的想象場景的影像,例如客戶使用產品的場景或某個行業的照片。然而,我又不希望侵犯版權,或者避免涉及各種影像來源的糾紛。在這種情況下,能夠找到影像,並在此基礎上進行inpainting修改、邊框補全,甚至進行影像超解析度處理,這實際上是一個非常實用的應用場景。

外界可能認為我們只支援一些基本的影像生成和編輯功能,如生成、簡單編輯、邊框展開以及高解析度影像的補全。但實際上,根據我的瞭解,這項技術在中文語境下是相當具有挑戰性的。特別是針對中文文化和語義場景,大部分模型通常是在以英語為基礎的語境下進行訓練的,其原始語料庫也是英語為主。然而,百度作為中文搜尋引擎領域的巨頭,需要處理中文和英文,甚至一些方言的情況,面對這種挑戰是如何應對的?

TianBao作為最大的中文搜尋引擎,百度在理解中文方面具有更強的優勢,包括對中文特有元素、中文習慣表達以及方言的理解。要使一個模型更好地理解中文,準備和清理與中文語義相關的語料顯然是不可或缺的步驟。
我們在搜尋領域擁有感知全網最全的中文語料的能力,這是天然優勢。但除此之外,還需要進行樣本的清理、更全面的知識覆蓋、獲取更多多樣性的高質量樣本等,以更好地理解整體模型的語義。同時,如果我們希望模型生成的影像質量更高,就需要考慮影像質量、美學因素,例如影像中物體的明顯特徵和美學風格的準確呈現。此外,還需要進行去重處理,這些都需要有基礎的運算元能力支援。
所以對於清洗來說,底層基礎運算元的基建也是一個非常重要的工作。百度在圖片基礎層面的刻畫體系上有多年的積累,所以我們在收錄的資料優勢之上,可以快速根據模型的不同目標,進行樣本的組織和篩選。例如,我們想要更好的語義樣本,要做到樣本的均衡,要積累不同等級質量和美觀度的樣本,包括一些人像或者是特殊的 IP 概念等。我們對這些樣本進行快速學習,而後應用在模型裡。

Q

對於生成影像大模型,一方面,在訓練過程中,我們需要準備高質量的資料集,建立一個良好的基礎。另一方面,使用者在使用時可能會提供各種各樣的複雜描述,例如描述一個杯子,使用者可能會加入很多形容詞,比如高的、透明的、藍色的,裡面裝了一隻蟋蟀等,這些描述詞可能超出了標準模型支援的Token長度。特別是在中文語境中,使用者的描述可能更長,就像您剛才提到的,一隻戴著帽子、站在山峰頂、吹著西北風、雪花在背後飄落的貓。在這種情況下,如何處理具有大量描述詞和形容詞的影像是一個挑戰嗎?

TianBao這是一個非常好的問題。圖文配對的質量非常重要。目前,大家主要關注的是開源的Laion-5b,一個包含50億樣本的英文模型,主要基於英文資料集,中文資料相對較少。同時,從這個資料集中,我們也觀察到許多不相關的圖文對的問題,這些問題可能是由一些雜質引起的。因此,我們需要使用相關性建模演算法來過濾掉這些不相關的圖文對。
對於使用中文資料集,例如Laion-5b,有一種較快速的方法,即透過英文翻譯成中文。然而,這種方法可能會引入很多語言上的歧義,特別是中英文之間表達上的歧義,以及中文所特有的一些語義。例如,如果我們將"transformer"翻譯成中文,它可能會變成"變壓器",而如果是指一個頭像,對應的英文可能會是"阿凡達"。這些情況都是由於中文語料建設不足導致的中文理解能力上的不足。關於剛才提到的圖文對的相關性質量問題,過濾低質量的圖文對,需要使用類似於常規的CLIPScore等方式來度量圖文的相關性。
另一個方向是在優質資料集的構建上。畢竟,一張圖片可以被非常詳細地描述成上百個字,而當前網際網路上這種詳細描述的資料還相對較少。當前網際網路上的描述通常較為簡短,可能只包含幾十個標記,甚至更短。因此,在構建優質資料集方面,需要將一些高質量的影像與文字描述的力度和視角相結合,以進行文字描述的補充。通常,人們描述的可能是影像的主體和意境,但他們可能會忽略掉影像中的背景、物體的數量以及基本實體的描述。因此,如何實現影像和文字的對齊理解對於文生圖的構建非常重要。
因此,對於提供高質量樣本的問題,可能需要更適合於影像生成任務的模型,例如caption生成模型。百度在這方面積累了一些經驗,所以對於去除低質量樣本和構建高價值樣本,這些都是圖文對齊所必需的能力。

GEEK TALK

04

圖片美感的評估

Q

確實,與我想象的相比,這個處理的複雜度要高得多。您剛才提到的去除低質量、保留高質量的很重要。您所說的低值和高值是指影像質量對嗎?在生成影像時,如果要生成一隻貓,首先它必須是一隻貓,其次重要的是它必須符合美感。它必須符合一隻貓的形狀,或者說它必須符合一隻狗的形狀,而美感是一個非常主觀的事情。例如,即使是一隻貓,有些人喜歡圓圓的、胖胖的、毛髮豐富的貓,他們認為最好是長得像個球一樣,但有些人認為貓應該像貓一樣,應該有貓的特徵,頭是頭,腿是腿,脖子是脖子。在這種情況下,百度如何處理關於貓應該長成什麼樣子的問題呢?

TianBao對於美學,確實像剛才提到的,它是一個偏主觀的一個感知,其實是千人千面的,大家可能對美的認知是不太一樣的,但是這裡面我們其實是期望透過大部分人的美學認知,提出一些美學的定義。
例如,美學的定義通常包括影像的構圖,整個畫面的結構是什麼樣的,還包括色彩的應用,如飽和度、對比度、整體的配色,以及光感,例如在攝影棚中的光線設定,如何為不同場景創造更好和更合適的光感。除了視覺色彩方面的定義,畫面的內容也可以體現美學,例如畫面內容的豐富度或畫面的敘事性,這些都是由畫面內的內容構成的。因此,這些維度形成了更具普世性的美學標準。
我們遵循這些美學標準,然後構建自己的美學認知,無論是在整體模型構建方面還是在演算法最佳化方面,都按照這些先進標準來進行相關的指導和評估。除了美學之外,影像的清晰度也會影響整體的質感。同時,內容的一致性也很重要,如果看到一隻貓有三隻腿,內容實體的不一致性將會導致缺陷,從而間接影響影像的可用性和美感。

Q

您剛剛提到內容的一致性,可以展開這個解釋一下這個概念嗎?

TianBao內容一致性可以大概理解為內容的質量或可用性。比如,如果畫一隻手,出現了手部的畸形或畸變,這實際上與我們通常對手的概念不符。這會導致手的實體不一致,因此可以認為它存在質量問題。


GEEK TALK

05

文生圖提示工程

Q

不同場景和用途對美學要求不同,以戴帽子和太陽鏡的貓為例,使用者可能希望生成不同風格的漫畫,如日漫和美漫,它們在視覺體驗上有顯著差異。美漫通常色彩豐富、輪廓鮮明,而日漫則以黑白為主,視覺衝擊力較強。在保障在內容一致性的要求下,百度是如何在不同風格的情況下,從使用者的 prompt 中獲取相關資訊,以支援不同畫風的生成?

TianBao我們來看一下當前文生成圖的應用場景。目前,在主流的互動中,通常提供了一些明確定義的特定風格選項,如漫畫風格或水彩畫風格。但對於使用者而言,不應該受到過多的限制,例如,如果使用者需要生成一個賽博朋克風格的貓,將其繪製成卡通風格就無法滿足使用者需求。也就是說,使用者不僅可以描述生成畫面中出現的內容,如貓,還可以描述他們期望的畫面風格。因此,百度搜尋需要滿足使用者在內容和風格方面多樣化的需求。

在百度搜索中,我們目前支援上千種不同的畫面風格定義。舉例來說,使用者可以將一隻貓呈現為水墨畫或卡通畫,也可以將它呈現為鋁製品或雕刻品,甚至以不同的材質。此外,使用者還可以選擇不同的視角,如帶有運動模糊效果、延時攝影效果,或者魚眼和廣角視角等。我們覆蓋了多種不同的風格和分類,因此使用者如果有更具體的風格要求,只需在他們的prompt中包含相關風格,即可獲得符合他們期望的畫面並具備相應風格。

Q

我還有一個問題,就是關於風格的疊加,是否支援這種操作?例如,能否將魚眼廣角和水墨畫的風格同時應用在影像上?因為一個是關於畫風,另一個是視角,那如果我們想要將水墨畫與卡通風格結合,這是否也是支援的呢?

TianBao在模型方面,支援多風格是可行的,這樣可以激發新的風格創意。然而,我們面臨的另一個問題是如何在保持內容一致性的前提下,有效地融合和協調多種風格。因為不同風格之間的差異可能很大,可能會發生一些相互制約的情況,但這確實為使用者提供了更多的實驗和探索機會,可以透過嘗試不同風格的組合,實現更廣泛的創意空間。

Q

如果我有多個風格的關鍵詞去描述最後的主體,最後整張圖出來的效果和關鍵詞所在的位置的關聯度大嗎?比如說水墨、卡通風格的貓和卡通、水墨風格的貓,這兩個出來的效果會是一樣的嗎?

TianBao這個其實就會涉及到剛才說的一個可控性。最基本的,就像剛才提到的貓一樣。它關係到我們如何控制生成的內容,尤其是在涉及到風格方面。實際上,可控性與我們整體的prompt方式相關,因為不同的prompt方式可以導致不同的結果。有些人可能會提供簡短的提示,可能前後並列會輸入兩個不同的風格,而其他人可能更喜歡更詳細的prompt表達方式,比如他們可能希望描述一個場景的畫面,指定特定的風格,或者強調某種風格在生成中的比重。這些都是不同的prompt方式,可以影響生成內容的方式。
然後對於這種可控來說,其實現在這種順序上會有一些 Bias。比如Stable Diffusion 的prompt煉丹,也會提及一些,比如怎麼寫prompt,是放到前面好還是後面好,其實本質上是一種控制的能力,理想的話應該不會存在這樣的一些偏差。當然最理想的還是我們可以引導使用者能夠去更精準的去表達自己腦海中的畫面。

Q

剛才提到百度支援上千種風格,我想問,這上千種風格是人工梳理的,還是透過模型聚類後自動生成的?對於使用者來說,知道有這麼多風格可選可能一開始會覺得有點過多,有點難以選擇。

TianBao關於風格,基於我們之前提到的,我們對全網內容的感知非常廣泛,因此我們有能力感知到全網存在的各種風格資料。第二點是,我們也依賴於對影像相關的理解,無論是聚合演算法還是風格美觀度的描述,都需要首先有資料,然後透過資料的篩選和識別能力,對這些風格進行自然而然的呈現。這是對風格定義的方式。
另外剛才提到的,比如說我們當前支援上千種風格,對於使用者來說,其實大家可能還是得有一個認知的過程,因為每一種風格可能對於藝術向的使用者來說還是會有比較大的一些驚喜的。比如我們看到某種風格和我們常規看到的畫面有很大的這種區別,也具備很強的視覺衝擊感。所以這裡面怎麼樣能夠把我們已有的這些風格能夠更好的傳遞給使用者,讓使用者理解這種風格,並且在後續的這些需求滿足創作中能夠應用上這些風格,這其實是需要整體的產品和技術來引導的一個工作。

Q

正如你剛提到的,有上千種不同的藝術風格。即使對於非專業和一些專業的美術生來說,通常只瞭解一兩種風格,比如素描或水墨畫。實際上,很少有人能深入瞭解這麼多不同風格並寫出好的提示詞。那麼,當使用者不太瞭解如何編寫prompt提示詞時,我們該怎麼處理呢?比如,使用者第一次使用百度,除非有人告訴他們,他們可能不知道支援上千種風格。在這種情況下,我們應該如何處理,並引導他們瞭解更多有關百度的各種風格以及可以編寫的其他提示詞呢?

TianBao對於藝術風格和創造性而言,大家更常接觸到關鍵詞"Midjourney",可以將其作為一個例子,來講述一個從零開始激發想象力的過程。在早期的運營推廣中,有些資源並未過多最佳化提示詞。通常,它們提供了一些相對簡單的提示詞,比如"dog"(狗)。然而,這是建立在disco社群基礎之上的,允許所有使用者參與。一些使用者嘗試將他們的提示詞更改為描述一隻毛茸茸的狗,而其他使用者可能更喜歡科幻題材,例如一隻擁有鐳射眼睛的狗是什麼樣子。透過不斷的嘗試,他們會發現在不同的提示詞下可以獲得更引人入勝或有趣的效果。這導致了彼此學習,觀察其他人如何生成內容,如何設定提示詞,以及這會產生什麼樣的效果。因此,提示詞的最佳化逐漸變得流行起來。這個問題對於整個業界,包括百度搜尋和文生圖,也是類似的。
對於一般使用者而言,他們可能較少接觸文生圖這個場景。對於初次使用的使用者,通常只是嘗試繪製一隻貓或一隻小狗,這引出了一個問題,即如何在使用者使用環境相對簡單的情況下,為他們生成更好的效果。
這裡就會涉及到 prompt的擴充或者是改寫。這裡有兩種思路,一種是去擴充畫面的內容,類似於內容的一個豐富性或者是故事感。比如剛才說的戴著帽子,然後做著憤怒的手勢的狗,把畫面更具象,其實這是prompt的最佳化所做的一個工作。同樣也可以對風格進行一些擴充套件,我們可以感知到大部分人對於這個內容之下更喜歡哪些風格,我們就可以透過這種prompt來做更多風格的一些擴寫。像剛才說的內容以及在風格上的一些擴寫多樣性之後,就可以極大的去最佳化畫面的內容豐富度、故事性,以及風格和美觀的程度。所以這裡面會涉及到怎麼樣把一個簡單的表達的 prompt的輸入,透過最佳化的方式變成一個對模型來說效果更好的一組prompt。

Q

有一個更具體的問題需要討論,涉及到prompt的改寫。例如,當我們將一個提示從描述一隻狗轉變為一隻帶帽子的生氣的手勢狗時,使用者實際上無法看到被改寫的部分。我們是否能夠確保每次改寫都是一樣的,或者每次改寫的內容可能略有不同?舉例來說,第一次可能是一隻戴帽子的狗,而第二次可能是一隻戴眼鏡躺在沙灘上的狗。這個過程是否具有隨機性,或者每次都是固定的?

TianBao對於 prompt的改寫來說,其實我們更期望給到使用者更多多樣性、更多豐富的結果。因為如果是一條狗的話,我們可以想象到的是一個主體是一條狗,可能會有不同的一些犬類的品種,但是狗可能穿著不同服飾出現在不同場景之下,這個對更多人來說會有更多樣的一些結果,大家會有更多的預期。所以在模型層面,我們期望透過prompt這種改寫和最佳化,有更多的多樣性的備選,然後基於使用者實際的反饋,去來感知使用者對哪些風格,對什麼型別的內容場景的一個畫面結果會感興趣,後驗反饋會比較高,這對於整體的prompt的改寫模型也會有資料促進的作用。


GEEK TALK

06

反饋和評估

Q

剛剛提到了改寫,從使用者側收集反饋來迭代模型,有一個詞叫做 RLHF(Reinforcement Learning from Human Feedback)。這裡我覺得最難的點是human feedback是不穩定的,因為人與人之間的主觀觀點會差很多。如果我們需要依賴人的反饋來去迭代模型,其實是比較困難的。如果再落實到說模型的evaluation上來說,在這種情況下,百度是如何去manage balance,在影像生成的方向上去做評估。

TianBao關於後驗反饋,首先需要考慮反饋資料是否確實能夠代表人類的後驗反饋,這對於反饋質量有更高的要求。因此,可以將這一方面與產品的整體設計和使用者互動相結合,以收集更多積極的使用者行為反饋。例如,當使用者對某個結果感興趣時,他們可能會點選圖片以進行放大檢視,然後進行下載等後續行為,這些都是積極的反饋。如果使用者對某張圖片點贊或進行評論,也提供了直接的反饋。我們希望在整個反饋系統中更有效地收集這些反饋,因為它們實際上反映了使用者的偏好。至於模稜兩可的反饋,只能透過更大的樣本量來收集更具代表性的資料。

Q

過去,無論是傳統的統計機器學習還是標準的深度學習模型,基本上都是監督學習,需要樣本或監督來計算F1分數、IQZ和VCR等指標。然而,對於生成式模型,如GPT系列模型或DALL-E這樣的生成式模型,技術上並沒有像以前那樣的標準基準資料集,大家可以根據這些基準資料集來生成和評估。相比之下,生成式模型需要一種更高效的評價方法,而不是依賴人工逐個觀察。在這個領域,與其讓人們用肉眼逐個觀察,是否有方法可以更高效地進行評估呢?

TianBao更高效的方法實際上更多地涉及到人機結合的手段。就像之前提到的影像評價,我們可以透過一些初步的機器指標來進行觀察。
如果我們關注整體的相關性或質量美觀度,那麼在某些機器指標上可以進行一些刻畫。但如果需要精確評估兩張圖片之間的差異,這些機器指標可能並不具備太大的意義,更需要人工進行判斷。前面提到的機器初步評估可以幫助人們進行初步的篩選,從而在人工評價方面節省一些勞動力。

GEEK TALK

07

未來展望

Q

好的,接下來的問題稍微展望未來,儘管並不是非常遙遠,因為最近我看到許多初創團隊和相關公司正在嘗試這個領域。以動畫為例,動畫實際上是將多幅影像的幀疊加在一起呈現的。通常,動畫電影以每秒24幀或16幀的速度播放。除了靜態單幅影像的編輯,我們可以看到在AIGC領域,對於影片生成或短影片生成,無論是三秒還是七八秒的影片,都在不斷髮展。之前Runway團隊曾舉辦了一個使用文生圖進行影片生成的比賽。您認為在未來多久內,我們會看到第一部完全由AI生成的電影或電影狀態?

TianBao簡要回顧一下影像生成,在2022年初,影像生成效果並不是特別理想,但到了2022年的七八月份,整體變得更加可行。根據技術發展趨勢,對於動態圖或影片的生成,預計不會太久就會迎來技術的飛速發展。因為最近在影片生成領域還有很多探索,無論是基於可控生成的方法還是像Runway這樣生成幾秒小短片的方法。對於幾秒小短片,大家通常會將生成的最後一幀作為下一段的第一幀,以實現更連貫的長影片。然而,對於影片生成來說,面臨更大的挑戰,因為它不僅要保證空間效果,還需要確保時間上的一致性,這引入了一個額外的維度,對技術要求更高。隨著最近對影片生成的不斷探索,我們可以預計未來一到兩年內可能會出現類似於Stable Diffusion這樣革命性的時刻。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70027828/viewspace-2993599/,如需轉載,請註明出處,否則將追究法律責任。

相關文章