Stable Diffusion中的常用術語解析

flydean發表於2024-04-23

Stable Diffusion中的常用術語解析

對於很多初學者來說,會對Stable Diffusion中的很多術語感到困惑,當然你不是唯一的那個。

在這篇文章中,我將會講解幾乎所有你在Stable Diffusion中需要了解的關鍵術語。搞懂了這些術語,使用stable diffusion起來就會事半功倍。

4x-Ultrasharp

4x-Ultrasharp是一款流行的人工智慧影像增強工具,能夠生成高畫質晰度的影像。它在Stable Diffusion的影像放大方面用的非常多。

AI upscaler

AI upscaler是一種採用人工智慧技術的模型,能夠在放大影像的同時增強影像細節。

Ancestral sampler

Ancestral sampler是一種在影像取樣過程中向影像新增噪音的技術。它們被稱為隨機取樣器,因為它們的取樣結果具有一定的隨機性。通常在它們的名稱中會包含一個獨立的字母“a”,比如說Euler a。

AnimateDiff

AnimateDiff是一種stable diffusion的文字到影片的技術。它採用了一個運動控制模型來影響Stable diffusion模型,從而生成一個以運動為序列的影像影片。這種方法可以幫助使用者更直觀地理解文字內容,並且為使用者提供了一種全新的視覺體驗。在實際應用中,AnimateDiff可以用於製作教育影片、科技演示等多種場景,為使用者帶來更加生動和有趣的學習體驗。

Anything v3

Anything v3是一款備受讚譽的動漫風格Stable diffusion模型。它是Stable diffusionv1.5模型的一個版本。這個模型以其穩定性和擴散效果而聞名,被廣泛應用於計算機圖形學和動畫製作領域。如果您正在尋找一個穩定且高效的擴散模型,Anything v3將是您的不二選擇。

AUTOMATIC1111

AUTOMATIC1111是一個備受歡迎的開源社群開發的Stable diffusion使用者介面。該專案最初由名為AUTOMATIC1111的使用者發起。官方專案名稱是Stable diffusion Web UI。

Civitai

Civitai是一個專注於Stable diffusion模型的網站,擁有大量的資源。您可以使用AUTOMATIC1111擴充套件Civitai Helper來方便地進行下載。

與Hugging Face相比,Civitai更專注於Stable diffusion模型。在這裡,您可以找到許多使用者生成的影像資源。

CFG scale

分類器自由指導Classifier-Free Guidance(CFG)規模控制了在txt2img和img2img中應該遵循prompt的程度。CFG scale的大小直接影響了生成影像時對輸入文字的理解程度。

較大的CFG scale意味著模型有更大的自由度來根據輸入文字進行影像生成,而較小的CFG scale則會更加嚴格地遵循輸入文字的提示。

透過調整CFG規模,我們可以更好地控制模型在生成影像時的創造性和準確性。

Checkpoint model

Checkpoint model是對Stable diffusion模型更精確的稱呼。它用於區分LoRA、textual inversion和Lycoris。

ComfyUI

ComfyUI 是基於節點的使用者介面,由 Stable Diffusion 開發。它深受高階 Stable Diffusion 使用者的喜愛。

ControlNet

ControlNet是一個神經網路,透過引入額外的條件來控制影像的生成過程。

它可以用來調整人體姿勢和影像構圖。這標誌著Stable diffusion領域的一個重大突破。

DDIM

Denoising Diffusion Implicit Models (DDIM) 是第一個用於解決擴散模型的取樣器之一。

DDIM是首個用於處理擴散模型的取樣器之一。它採用了一種全新的方法來處理噪音和模糊,旨在提高模型的精確度和穩定性。

DDIM的出現為解決擴散模型提供了全新的可能性,為計算機技術領域帶來了新的突破。透過DDIM,我們能夠更加有效地處理擴散模型,為計算機技術的發展帶來更多可能性。

Deforum

Deforum是一個利用Stable diffusion技術生成影片的工具。

這是一種能夠有效減少影片抖動和模糊的技術,透過Deforum工具,使用者可以輕鬆地生成高質量、穩定的影片內容。

無論是在拍攝運動場景還是在拍攝手持鏡頭下的影片,Deforum都能夠幫助使用者輕鬆實現穩定的影片生成。同時,Deforum工具還支援多種影片格式輸出,使用者可以根據自己的需求選擇最適合的影片格式進行輸出。

Denoiser/Noise predictor

在Stable diffusion模型中,denoiser扮演著核心角色。它在每個取樣步驟中對噪聲影像進行預測,並透過取樣方法將其從影像中減去。

Denoising strength

Denoising strength對影像在img2img過程中的變化程度進行了控制。它的取值範圍是從0到1。當取值為0時,表示影像沒有發生變化;當取值為1時,表示輸入影像完全改變。

我們可以透過調節降噪強度來控制影像轉換的效果。

Diffusion

Diffusion是一種人工智慧影像生成方法,它從隨機影像開始,逐漸去除噪音,直到生成清晰影像。這種方法受到了物理學中擴散過程的朗之萬動力學公式的啟發。

DPM-Solver

Diffusion Probability Model Solver (DPM-Solver) 是一個新的取樣器演算法。

Dreambooth

Dreambooth是一種訓練技術,用於修改checkpoint model。只需5張圖片,您就可以使用它將一個人或一個風格注入模型中。

Dreambooth模型需要在提示中有一個觸發關鍵詞來觸發注入的主題或風格。

Dreambooth技術的特點包括:

  • 只需少量的圖片即可實現模型修改
  • 可以輕鬆注入不同的主題或風格
  • 提供了觸發關鍵詞來幫助使用者控制注入效果

指數移動平均(EMA)

指數移動平均(EMA)是指在Stable diffusion模型中,它表示最近訓練步驟的平均權重,而不是最後一個訓練步驟。

checkpoint model通常使用EMA權重來提高穩定性。EMA在計算機技術領域中被廣泛應用,有助於提高模型的穩定性和可靠性。

Embedding

Embedding是textual inversion的產物,是一種用於修改影像的小檔案。

透過在提示或負面提示中嵌入相關的關鍵詞,可以實現對影像的修改。

在Stable diffusion中,embedding被用作prompt的編碼版本,它在去噪器的交叉注意力層中使用,以影響AI影像的生成。

Extension

Extension是用來增強 AUTOMATIC1111 WebUI 的功能。舉例來說,ControlNet 就是透過擴充套件功能來實現的。透過擴充套件功能,使用者可以更加靈活地定製和使用 AUTOMATIC1111 WebUI,滿足不同的需求和場景。擴充套件功能的引入為系統的功能擴充提供了更多可能性,讓 AUTOMATIC1111 WebUI 變得更加強大和多樣化。

Euler

Euler是擴散模型的最簡單的取樣方法。它是一種常見的數值計算方法,用於解決微分方程模型。在電腦科學和工程領域中,Euler被廣泛應用於模擬和預測系統的行為。它的優勢在於簡單易懂,適用於各種型別的擴散模型。

Face ID

Face ID是一個利用InsightFace提取準確人臉特徵的IP介面卡模型。該模型以這些特徵作為條件生成高度準確的自定義人臉影像。

Fooocus

Fooocus是一款Stable Diffusion軟體,設計簡潔易用。它專注於提升使用者體驗,並且在提示和影像生成方面表現出色。更重要的是,它是免費且開源的。

Heun

Heun是一種用於取樣的數值計算方法。它是對Euler方法的改進,能夠更準確地預測系統的演化。

然而,與Euler方法相比,Heun方法在每一步中需要兩次對噪音進行預測,因此計算速度比較慢,大約是Euler方法的兩倍。這種方法在某些特定情況下可能會被用於解決複雜的計算問題。

Hugging Face

Hugging Face是一個網站,專門用來託管大量AI模型。除此之外,他們還開發了一些工具,幫助使用者更方便地執行和託管這些模型。與Civitai相比,Hugging Face覆蓋了所有型別的AI模型,而不僅僅是Stable diffusion模型。

Hypernetwork

Hypernetwork是一種小型的神經網路,用於改進U-net噪聲預測器的交叉注意力模組。它類似於LoRAs和嵌入,都是用於修改檢查點模型的小型模型檔案的技術。

InstantID

InstantID是一個利用ControlNet和IP介面卡的模型,用於快速複製和美化人臉影像。

InstantID模型利用先進的ControlNet技術和IP介面卡,能夠快速、精準地複製和美化人臉影像。

IP-adapter

IP介面卡是一種利用影像作為輸入來控制影像生成的技術。它被用於生成與輸入影像類似的影像。

Karras Noise Schedule

Karras Noise Schedule是Karras論文提出的一種噪聲排程方法。

K-diffusion/K-sampler

K-diffusion/K-sampler是一種取樣方法,是由Katherine Crowson在她的k-diffusion GitHub倉庫中實現的。

這種取樣方法是用來處理影像生成的技術,它可以幫助我們在影像生成過程中更有效地獲得所需的樣本。透過K-diffusion/K-sampler,我們可以更好地控制影像的生成過程,使得生成的影像更加符合我們的預期。

Latent diffusion

Latent diffusion是指在潛在的空間中發生的擴散過程。

LCM LoRA

潛在一致性模型(LCM)是一種新型的Stable diffusion模型。

LCM LoRA是一種經過LCM方法訓練的LoRA。這種LoRA可以與任何檢查點模型一起使用,以加快生成速度。

潛在擴散模型(LDM)

The latent Diffusion Model 潛在擴散模型(LDM)是一種人工智慧模型,它能夠在潛在空間中執行擴散。

LMS

The Linear Multi Step method 線性多步法是一種用於解決常微分方程的方法。它旨在透過巧妙地利用先前時間步的值來提高精度。在AUTOMATIC1111中,線性多步法是其中一種可用的取樣方法之一。

LoRA

LoRA(Low-rank Adaptation)是一種用於修改checkpoint model的方法,使用一個名為LoRA的小檔案。它們用於修改風格或為檢查點模型新增特殊效果。

Lycoris

Lycoris是LoRA的升級版。它具有更多的檢查點模型部分,因此更加靈活。你可以像訓練LoRA一樣訓練Lycoris。

ModelScope

ModelScope是一個強大的文字到影片的轉換模型,它能夠根據輸入的文字內容生成精彩紛呈的短影片剪輯。這個模型的應用領域非常廣泛,可以用於影視製作、廣告營銷、教育培訓等多個領域。

特點

  • 高效快速:ModelScope採用先進的演算法和技術,能夠快速而高效地將文字轉換為影片,大大節省了製作影片的時間成本。
  • 個性定製:使用者可以根據自己的需求定製文字內容和影片風格,讓生成的影片更加符合個性化需求。
  • 多場景應用:無論是商業宣傳、新聞報導還是教學輔助,ModelScope都能夠勝任,為使用者提供多種場景下的影片生成解決方案。

應用場景

  • 影視製作:製片人可以利用ModelScope將劇本中的對話和情節快速轉化為影片,方便製作過程中的預覽和討論。
  • 廣告營銷:市場營銷人員可以利用ModelScope將產品特點和宣傳語快速轉化為影片廣告,吸引更多的消費者關注。
  • 教育培訓:教育機構可以利用ModelScope將教學內容轉化為生動有趣的影片,增強學生的學習體驗和記憶效果。

ModelScope的出現,為文字到影片的轉換提供了全新的解決方案,極大地豐富了影片製作的可能性。

Negative embedding

Negative embedding是指在計算機領域中使用的一種嵌入技術,用於傳遞負面的提示或資訊。這種技術通常被應用於各種機器學習和自然語言處理的任務中,以幫助系統更好地理解和處理負面情感或含義。負向嵌入的應用範圍非常廣泛,可以在情感分析、輿情監控和其他相關領域中發揮重要作用。

Negative Prompt

Negative Prompt是指向文字到影像AI模型輸入的文字,用於描述您不希望在影像中出現的內容。

Noise schedule

Noise schedule是指在取樣過程中確定影像應該具有多少噪聲的過程。它代表了取樣器試圖達到的預期噪聲水平。

Prompt

Prompt是指如何描述文字輸入到影像人工智慧模型的過程,以及描述你期望在輸出影像中看到的內容。

Prompt schedule

Prompt schedule是用在給定取樣步驟中使用的提示。Stable diffusion允許每個取樣步驟中的prompt都是不同的。

Regional prompter

Regional prompter是一種實用的擴充套件,它可以讓您為影像的不同部分指定不同的提示資訊。這個功能可以幫助使用者更輕鬆地理解影像內容,並且提供更豐富的使用者體驗。想象一下,在一張包含多個人物的圖片中,您可以為每個人物新增獨特的提示,讓使用者可以更方便地瞭解每個人物的資訊。這種個性化的提示功能可以大大提升使用者對圖片的互動體驗。

Sampling Method/Sampler

取樣方法或取樣器是Stable diffusion中用來去除影像噪音的技術。它可能會對渲染速度產生影響,並對最終影像產生微妙的影響。

Sampling steps

Sampling steps指的是取樣器進行離散化降噪時所經過的步驟數量。步驟數量的增加會提高結果的質量,但也會增加處理時間。建議將步驟設定至少為20。

SD.Next

SD.Next是一個免費的開源Stable diffusion軟體,可以在您的計算機本地安裝。它是基於AUTOMATIC1111開發的,許多AUTOMATIC1111的擴充套件也可以與SD.Next相容並且可以同時使用。

SDXL

SDXL代表Stable Diffusion XL。它是一個帶有本地解析度為1024×1024的Stable Diffusion模型,比Stable Diffusion v1.5高出4倍。

SDXL Turbo

SDXL Turbo是經過Turbo訓練方法訓練的SDXL模型。它能夠將影像生成時間縮短約3倍。

Stable Diffusion

Stable Diffusion是指將自然語言輸入轉換為影像的文字到影像人工智慧模型。它採用了具有frozen language encoder的潛在擴散模型。

Stable diffusion v1.4

Stable diffusion v1.4 是Stable diffusion模型的首個正式版本,於2022年8月正式釋出。該版本預設影像尺寸為512×512畫素,為使用者提供了更加穩定和高效的擴散模型體驗。

Stable diffusion v1.5

Stable diffusion v1.5 是在 v1.4 的基礎上進行了一些改進。雖然改進的細節並不十分明顯,但使用者們已經開始廣泛使用 v1.5。新版本的預設圖片尺寸為 512×512 畫素,帶來了更好的視覺體驗。這個改進為使用者帶來了更加流暢的使用體驗,並且在效能方面也有所提升。

Stable diffusion v2

Stable diffusion v2 是 v1 模型的升級版,擁有更大的畫面尺寸,達到了 768×768。該模型在遵循提示方面更加嚴格,使得提示更加具有挑戰性。v2 模型有兩個版本:v2 和 v2.1。

然而,隨著時間的推移,v2 模型逐漸被使用者遺忘,目前使用它們的人數非常有限。

Stable diffusion XL

Stable diffusion XL 是一個全新的Stable diffusion模型,相比Stable diffusion v1.5 模型,它能夠生成更高質量、更大尺寸的圖片。這意味著使用者可以獲得更加清晰、更具有影響力的影像。這一更新將為使用者帶來更好的使用體驗,為他們的工作和創作提供更多可能性。

Stable Zero123

Stable Zero123是一種可靠的擴散模型,能夠生成物體的全新視角或3D模型。

Textual inversion

Textual inversion是一種在檢查點模型中注入自定義主題或風格的方法。它透過建立一個新的關鍵字來施加影響,生成的結果被稱為嵌入。這個嵌入是一個小型檔案。

與Dreambooth、LoRA和LyCORIS相比,Textual inversion不會對檢查點模型進行修改,因此其影響較小。

文字轉圖片 (txt2img)

文字轉圖片是指將文字提示轉換成圖片的過程。這項技術可以讓使用者將文字資訊轉化為視覺形式,使得資訊更加直觀和易於理解。例如,在設計中,可以將文字標題轉換為吸引人的圖片,增加頁面的吸引力和可讀性。另外,文字轉圖片還可以應用在驗證碼生成、海報設計、個性化圖片製作等多個領域。

Trigger keyword

在Dreambooth模型的訓練中,我們使用關鍵詞來觸發特定的操作。你需要在使用Dreambooth修改的檢查點模型的提示符中使用trigger關鍵字。

變分自編碼器(VAE)

變分自編碼器(VAE)是一種神經網路,被用來在影像的畫素空間和潛在空間之間進行轉換。它是一種強大的工具,能夠有效地學習和表示影像的特徵,為影像處理和生成提供了新的可能性。

U-Net

U-Net是一種神經網路,用於在每個取樣步驟中預測噪音。它在Stable diffusion模型中扮演著重要的角色。一些微調方法,如LoRA和超網路,的原理就是修改U-Net。

UniPC

UniPC(Unified Predictor-Corrector)是一種全新的取樣器。受到ODE求解器的預測-校正方法的啟發,它能夠在經過5-10步之後生成高質量的影像。

Upscaler

Upscaler通常利用插值演算法來增加影像的畫素數量,從而使影像變得更加清晰。常見的插值演算法包括雙線性插值、雙三次插值等,它們能夠有效地增加影像的解析度,提高影像的質量。

相關文章