構建一個優秀的Prompt
在使用Stable Diffusion AI時,構建一個有效的提示(Prompt)是至關重要的第一步。這個過程涉及到創造性的嘗試和對AI行為的理解。這裡我會對如何構建一個好的Prompt進行一個總結。
什麼是一個好的提示詞
構建有效的提示是使用Stable Diffusion AI或其他AI影像生成工具的關鍵。一個好的提示能夠精確地指導AI生成你心中所想的影像。為了幫助你建立這樣的提示,我們可以探討不同的關鍵詞類別,並看看如何將它們組合起來生成影像。以下是一些主要的關鍵詞類別,以及如何使用它們來構建你的提示:
- 主題 (Subject)
這是你的影像的核心內容。它可能是一個物體、一個人、一個地方或一個事件。例如:“孤獨的燈塔”、“繁忙的市場”或“寧靜的森林”。
- 媒介 (Medium)
這裡指的是影像的物理或視覺表現形式。例如:“油畫”、“水彩畫”、“數字繪畫”或“鉛筆素描”。
- 風格 (Style)
這是指影像的整體視覺風格或藝術流派。你可以指定一個特定的藝術家、藝術時期或流行的視覺風格。例如:“印象派”、“賽博朋克”、“超現實主義”或“宮崎駿動畫風格”。
- 藝術分享網站 (Art Sharing Platforms)
有時候,你可能在藝術分享網站上看到了一些你喜歡的影像,你可以在提示中提及這些網站來獲取類似的風格。例如:“Behance上的數字藝術”、“DeviantArt的幻想插畫”或“Pinterest上的極簡主義設計”。
- 解析度 (Resolution)
指定你想要的影像尺寸。雖然Stable Diffusion的標準輸出是512×512畫素,但你可以根據需要調整。例如:“4K解析度”、“高畫質桌布”或“社交媒體縮圖”。
- 附加細節 (Additional Details)
這些是你希望在影像中包含的特定元素或特徵。例如:“穿著中世紀盔甲的騎士”、“有瀑布的熱帶雨林”或“未來城市的夜景”。
- 顏色 (Color)
指定影像的主要顏色或顏色方案。例如:“暖色調”、“冷色調”、“鮮豔的色彩”或“柔和的粉色”。
- 燈光 (Lighting)
描述你想要的光照效果。例如:“柔和的日落光線”、“戲劇性的陰影”、“明亮的陽光”或“神秘的月光”。
在構建提示時,你可以根據需要選擇使用這些類別中的一個或多個。下面是一個使用這些類別構建的示例提示:
A cyberpunk-style digital artwork, displaying neon lights and flying cars in the night scene of a future city. The image adopts 4K resolution, with bright colors and strong blue and purple tones under the light
使用這個提示,你可以在Dreamshaper模型或其他適合初學者的模型中生成影像。記得,生成影像的過程是一個迭代的過程,不斷嘗試和調整將幫助你獲得最佳結果。在後續的實踐中,你還可以探索如何使用負面提示來排除你不希望出現在影像中的元素。
主題
主題是您希望在影像中看到的內容。一個常見的錯誤是關於主題的描述不夠。比如說,我們想生成一個施展魔法的女巫。一個新手可能只寫了一個女巫的描述。
A witch
你會得到一些還不錯的影像,但這個提示留下了太多想象的空間。
你希望女巫的樣子是怎樣的?你有沒有一些關鍵詞來更具體地描述她?她穿著什麼?她施展的是什麼樣的魔法?她是站著、跑步還是漂浮在空中?背景是什麼樣的?
Stable Diffusion 無法讀取我們的想法。我們必須明確地表達我們想要的。
作為演示,比如說她是一個強大而神秘的女巫,使用閃電魔法。她穿著鑲有寶石的皮革服裝。她坐在一個岩石上。她戴著帽子。背景是一座城堡。
A beautiful and powerful mysterious witch, smiling, sitting on a rock, lightning magic, hat, detailed leather costume complete with gems, skirt, castle background
現在,我們生成更具體的影像。服裝、姿勢和背景在影像間保持一致。
Medium
Medium是製作藝術作品所使用的材料。一些例子包括插畫、油畫、3D渲染和攝影。Medium具有強大的影響力,因為一個關鍵詞就能極大地改變風格。
讓我們加入關鍵詞 數字藝術。
A beautiful and powerful mysterious witch, smiling, sitting on a rock, lightning magic, hat, detailed leather costume complete with gems, skirt, castle background, Digital Art
這些影像從逼真的繪畫風格轉變為更像是計算機圖形。那麼還能不能做更多的修改呢?
風格
風格指的是影像的藝術風格。例如印象派、超現實主義、波普藝術等。
在提示中新增超寫實、幻想、黑暗藝術。
A beautiful and powerful mysterious witch, smiling, sitting on a rock, lightning magic, hat, detailed leather costume complete with gems, skirt, castle background, Digital Art,Hyperrealistic, fantasy, dark art
現在,場景變得更加陰暗和憂鬱。
藝術分享網站
像Artstation和Deviant Art這樣的細分圖形網站匯聚了許多不同風格的圖片。在提示中使用它們是將圖片引向這些風格的一種方式。
讓我們在提示中加入artstation。
A beautiful and powerful mysterious witch, smiling, sitting on a rock, lightning magic, hat, detailed leather costume complete with gems, skirt, castle background, Digital Art,Hyperrealistic, fantasy, dark art
artstation
這個變化並不大,但這些圖片看起來確實像你在Artstation上找到的內容。
解析度
解析度代表著影像的清晰度和細節程度。讓我們新增關鍵詞高度詳細和清晰焦點。
A beautiful and powerful mysterious witch, smiling, sitting on a rock, lightning magic, hat, detailed leather costume complete with gems, skirt, castle background, Digital Art,Hyperrealistic, fantasy, dark art
artstation,Highly detailed,clear focus
嗯,效果並不是很明顯,也許是因為之前的影像已經相當清晰和詳細了。但新增一些也無妨。
附加細節
附加細節是用來修改影像的“甜味劑”。我們將新增科幻和反烏托邦來為影像增添一些氛圍。
A beautiful and powerful mysterious witch, smiling, sitting on a rock, lightning magic, hat, detailed leather costume complete with gems, skirt, castle background, Digital Art,Hyperrealistic, fantasy, dark art
artstation,Highly detailed,clear focus,Science fiction, dystopia
顏色
透過新增顏色 關鍵詞,您可以控制影像的整體顏色。您指定的顏色可能會以色調或物件的形式出現。
讓我們用關鍵詞閃光金向影像新增一些金色。
A beautiful and powerful mysterious witch, smiling, sitting on a rock, lightning magic, hat, detailed leather costume complete with gems, skirt, castle background, Digital Art,Hyperrealistic, fantasy, dark art
artstation,Highly detailed,clear focus,Science fiction, dystopia,Glitter gold
金色在一些地方表現得非常出色!
燈光
任何攝影師都會告訴你,燈光對於創造成功的影像至關重要。燈光關鍵詞對影像的外觀有很大影響。讓我們新增一些工作室燈光,使其看起來像是工作室拍攝的照片。
A beautiful and powerful mysterious witch, smiling, sitting on a rock, lightning magic, hat, detailed leather costume complete with gems, skirt, castle background, Digital Art,Hyperrealistic, fantasy, dark art
artstation,Highly detailed,clear focus,Science fiction, dystopia,Glitter gold,Studio lighting
備註
您可能已經注意到,這些圖片只需新增一些關鍵詞就已經相當不錯了。在構建提示時,並不總是越多越好。通常情況下,您並不需要太多關鍵詞來獲得好的圖片。
使用負面提示
使用負面提示是另一種引導影像的好方法,但與其輸入你想要的,不如輸入你不想要的。它們不一定是物體,也可以是風格和不想要的屬性(例如醜陋,畸形)。
對於v2模型來說,使用負面提示是必不可少的。沒有它,影像看起來會遠遠遜色於v1的。對於v1和SDXL模型來說,它們是可選的,但是最好新增上去,因為萬一有效果呢?
我將使用一個簡單的通用負面提示,它不會修改風格。
Misshapen, misshapen, ugly
構建一個優秀promot的過程
在電腦科學領域,一個好的提示是提高使用者體驗的關鍵。下面是構建一個良好提示的一般步驟:
-
明確提示的目的:首先要明確提示的目的是什麼,它是為了引導使用者完成某個操作,還是為了提供必要的資訊。只有明確了目的,才能更好地構建提示內容。
-
選擇合適的時機:提示的時機非常重要,過早或過晚的提示都會影響使用者的體驗。要根據使用者操作的上下文,選擇合適的時機進行提示。
-
簡潔明瞭的內容:提示內容要簡潔明瞭,避免使用過於晦澀的專業術語,讓使用者能夠快速理解並作出相應的反應。
-
考慮使用者反饋:在構建提示時,需要考慮使用者的反饋,尤其是之前類似提示的反饋。透過使用者反饋,及時對提示進行修改和最佳化。
-
測試和最佳化:構建完提示後,需要進行測試,觀察使用者對提示的反應,並根據反饋進行相應的最佳化和修改。
透過以上步驟,我們可以構建出一個良好的prompt,提高使用者體驗,促進使用者完成操作。
迭代式prompt構建
構建有效的提示確實是一個迭代的過程,需要透過不斷的試驗和調整來完善。以下是一些策略和建議,可以幫助你在構建Stable Diffusion AI的提示時更加高效和有目的性:
1. 從簡單開始
開始時,建立一個包含主題、媒介和風格的簡單提示。這將為AI提供一個基本的框架來生成影像。例如:“中世紀城堡的水彩畫”。
2. 批次生成和評估
每次生成至少4張影像,這樣可以更好地評估提示的效果。由於AI生成的影像可能存在差異,生成多張影像可以讓你有一個統計上的理解,哪些元素在提示中是有效的。
3. 逐步新增關鍵詞
在每次迭代中,嘗試新增一兩個新的關鍵詞到提示中。再次生成至少4張影像來評估新關鍵詞的影響。這種方法可以幫助你理解每個關鍵詞如何影響最終的影像。
4. 使用負面提示
負面提示是指導AI避免生成某些元素的強大工具。如果你發現某個模型在渲染特定物件或身體部位時存在問題,比如手部,可以在負面提示中加入這些關鍵詞,如“無手”或“不顯示手”。
5. 迭代過程中的關鍵詞細化
隨著你對模型的瞭解越來越深入,你可以開始將更具體的關鍵詞新增到負面提示中。這可以幫助你更精細地控制生成的影像,避免不想要的特徵或細節。
6. 記錄和回顧
在整個迭代過程中,記錄你的提示和生成的影像結果。這不僅有助於你追蹤哪些關鍵詞有效,哪些無效,還可以幫助你在未來的專案中更快地構建有效的提示。
透過遵循這些策略,你可以逐步完善你的提示,最終生成滿足你要求的高質量影像。記住,每個AI模型都有其獨特的特點和限制,因此投入時間來了解和適應你正在使用的特定模型是非常重要的。不斷實踐,你將能夠更加熟練地使用Stable Diffusion AI來創造出令人印象深刻的視覺作品。
prompt技巧
在特定的取樣步驟中,您可以透過切換到不同的關鍵詞來修改關鍵詞的重要性。
以下語法適用於AUTOMATIC1111 GUI。
關鍵詞權重
(此語法適用於AUTOMATIC1111 GUI。)
您可以透過語法(關鍵詞: 因子)
來調整關鍵詞的權重。因子
是一個數值,小於1表示不太重要,大於1表示更重要。
例如,我們可以調整以下提示中關鍵詞dog
的權重:
(Dog:1),mist,smoke,fire,chimney,rain,damp,primitive,puddle,melting,dripping water,snow,stream,lush,ice,bridge,forest,rose,flower,Stanley Artgerm Lau,Greg Rutkowski,Thomas Kincade,Alphonse Mucha,Loish,Norman Rockwell.,
增加dog
的權重傾向於生成更多的狗。減少它傾向於生成更少。對於每張圖片來說並不總是正確的,但從統計意義上來說是正確的。
這種技術可以應用於主題關鍵詞和所有類別,比如風格和光線。
()和[]語法
(此語法適用於 AUTOMATIC1111 GUI。)
調整關鍵字強度的等效方法是使用 ()
和 []
。
(關鍵字)
將關鍵字的強度增加1.1倍,與(關鍵字:1.1)
相同。[關鍵字]
將關鍵字的強度減少0.9倍,與(關鍵字:0.9)
相同。
你可以像在代數中一樣使用多個(),效果是乘法:
- (關鍵字) 等同於 (關鍵字: 1.1)
- ((關鍵字)) 等同於 (關鍵字: 1.21)
- (((關鍵字))) 等同於 (關鍵字: 1.33)
同樣,使用多個 []
的效果是:
- [關鍵字] 等同於 (關鍵字: 0.9)
- [[關鍵字]] 等同於 (關鍵字: 0.81)
- [[[關鍵字]]] 等同於 (關鍵字: 0.73)
AUTOMATIC1111 提示:您可以使用 Ctrl + 上/下箭頭(Windows)或 Cmd + 上/下箭頭來增加/減少關鍵字的權重。
關鍵詞混合
(此語法適用於 AUTOMATIC1111 GUI。)
您可以混合兩個關鍵詞。正確術語是提示排程。語法是
[keyword1 : keyword2: factor]
factor
用來控制關鍵詞1何時切換到關鍵詞2。它是一個介於0和1之間的數字。例如,如果我使用提示
Oil painting portrait of [Joe biden: donald trump: 0.5]
進行30個取樣步驟。
這意味著步驟1到15的提示是
Oil painting portrait of Joe biden
而步驟16到30的提示變為
Oil painting portrait of donald trump
因子確定了關鍵詞何時改變。
改變因子的效果是以不同程度混合兩位總統。
第一個關鍵詞決定了全域性構圖。早期擴散步驟確定了整體構圖。後續步驟完善細節。
混合面孔
一個常見的用例是建立一個具有特定外表的新面孔,借鑑演員和女演員的特點。例如,[Emma Watson: Amber heard: 0.85]:
當仔細選擇兩個名字並調整因子時,我們可以精確地得到想要的外表。
另外,你可以使用多個名人的名字和關鍵詞權重來調整面部特徵。例如:
(Emma Watson:0.5), (Tara Reid:0.9), (Ana de Armas:1.2)
從提示到提示
透過關鍵詞混合,你可以實現類似於提示到提示的效果,生成一對高度相似的影像並進行編輯。以下兩幅影像是使用相同的提示生成的,除了一個地方不同,那就是使用了apple 和fire混合。種子和步數保持不變。
拿著一個[apple: fire: 0.3]
這背後的理論是影像的整體構圖是由早期的擴散過程設定的。一旦擴散被困在一個小空間裡,交換任何關鍵詞對整體影像的影響不會很大。它只會改變一個小部分。
保持一致的面孔
使用多個名人的名字是混合兩個或更多面孔的簡單方法。混合在不同的圖片上都是一致的。當你使用多個名字時,Stable diffusion會理解為生成一個人,但具有這些面部特徵。
下面的短語使用多個名字來混合三個具有不同權重的面孔。
(Emma Watson:0.5), (Tara Reid:0.9), (Ana de Armas:1.2)
我們試下這種方式的效果,提示是:
(Emma Watson:0.5), (Tara Reid:0.9), (Ana de Armas:1.2),Photo of a young lady, prominent hair, sitting outside a restaurant, wearing a dress, edge lighting, studio lighting, looking into the lens, DSLR camera, Ultra High quality, Clear focus, depth of field, film grain, Fujifilm XT3, Crystal clear, 8K Ultra HD, Highly detailed shiny eyes, Highly detailed skin, skin pores
以下是具有相同提示的圖片:
看到這張臉在不同的圖片上重複出現了吧!
使用多個名人的名字和關鍵詞權重來精心調整你想要的面部特徵。你還可以在負面提示中使用名人的名字來避免你不想要的面部特徵。
提示可以有多長?
根據您使用的Stable Diffusion服務不同,提示中可以使用的關鍵詞數量可能會有限制。在基本的Stable Diffusion v1模型中,這個限制是75個token。
請注意,token與單詞不同。
例如,dream是一個token,beach是另一個token。但dreambeach是兩個token,因為這個模型不認識這個單詞,所以模型會將這個單詞分解成dream
和beach
,它認識這兩個單詞。
AUTOMATIC1111中的提示限制
AUTOMATIC1111沒有token限制。如果一個提示包含超過75個token,也就是CLIP分詞器的限制,它將開始一個新的另外75個token的塊,所以新的“限制”變成了150。這個過程可以無限延續,或者直到您的計算機記憶體用盡。
每個75個token的塊都是獨立處理的,處理後的表示會在輸入到Stable diffusion的U-Net之前進行連線。
在AUTOMATIC1111中,您可以透過檢視提示輸入框右上角的小框來檢查令牌的數量。
開始一個新的提示塊
如果你想在達到75個token之前開始一個新的提示塊怎麼辦?有時候你想這樣做是因為提示塊開頭的標記更有效,而且你可能想將相關關鍵詞分組在一個提示塊中。
你可以使用關鍵詞BREAK來開始一個提示塊。下面的提示使用了兩個提示塊來指定帽子是白色的,裙子是藍色的。
A picture of a woman in a white hat
BREAK
Blue skirt
如果沒有使用BREAK,Stable Diffusion更有可能混淆帽子和裙子的顏色。
名人姓名的關聯
每個關鍵詞都會有一些意想不到的關聯。這在名人姓名中尤其如此。一些演員喜歡擺特定的姿勢或穿特定的服裝拍照,這也會出現在訓練資料中。如果你想想,模型訓練本質上就是透過關聯學習。如果 Taylor Swift(在訓練資料中)總是交叉雙腿,模型會認為交叉雙腿也是 Taylor Swift。
當你在提示中使用 Taylor Swift 時,你可能本意是使用她的臉。但是主題的姿勢和服裝也會產生影響。可以透過僅使用她的名字作為提示來研究這種影響。
姿勢和服裝是全域性構圖。如果你想要她的臉但不要她的姿勢,你可以使用關鍵詞混合來在後續取樣步驟中替換她。
點我檢視更多精彩內容:www.flydean.com