Stable Diffusion 小白的入坑鋪墊

SharpCJ發表於2024-08-31

小白的 Stable Diffusion 入坑鋪墊

本文主要講述一些 Stable Diffusion 入坑前需要了解的一些相關概念,不會涉及很高深的理論知識,因為我也講不明白。本文所講的內容基本上小學生就能看懂。如果你完全沒聽說過 Stable Diffusion 也沒關係,只要你聽說過 AI 繪畫,並且對此有興趣,就能跟著我一步步瞭解入坑。如果你想更進一步瞭解更深層次的計數原理,本文後面會給出一些連線,都是我看過的比較不錯的文章或者影片。

一、AIGC 的概念

2022年,是人工智慧爆發的元年,前有 Stability.Ai 公司開源了 Stable Diffusion 模型,後有 Open AI 釋出了 ChatGPT,二者都是 AI 領域發展的里程碑式的事件。它們讓 AI 不再是科研學術領域專屬的高深莫測的技術名詞,而是真真實實讓普通人觸手可及,提高生產效率的智慧工具。
那 AIGC 是什麼呢,AIGC (Artificial Intelligence Generative Content),即人工智慧生成內容。這個領域的比較寬泛,生成的內容可以是文字,影像,音訊,影片等等。機器可以跟人一樣,能夠看到、聽到、思考、判斷,然後做出決策,生成上述內容。比如前面提到的 ChatGPT 就是 AIGC 領域的一個具體應用。
本文接下來將圍繞 Stable Diffusion 來介紹。

二、Stable Diffusion

Stable Diffusion, 潛在的擴散模型,是一種深度學習文字到影像生成模型,它主要根據文字描述生成影像。簡單來說是一種文生圖的演算法。由 Stability.Ai 開源。

Stable Diffusion 和 Midjourney

目前市面上比較權威,並且能真正用於工作中的 AI 繪畫軟體,其實就兩款,一個是 Midjourney(簡稱MJ),另一個就是 Stable Diffusion(簡稱 SD),MJ 需要付費使用,使用起來相對簡單。而SD開源免費,但是上手難度和學習成本略大,並且對電腦配置有一定要求。

兩者在實際使用中也各有利弊,從大的方面來講,MJ 在生圖圖片時更具想象力,生成圖片的在細節上略優於 SD,商業服務完善,助力藝術創作。SD 比 MJ 擁有更加豐富的個性化體驗,使用者可以進行更精細的調教,以此生成更貼近需求的圖片。得益於 SD 的開源,全世界的開發者和愛好者都可以參與進來,SD 擁有非常活躍的社群,非常豐富好用的自定義外掛,甚至 SD 在 AI 生成影片特效、音樂生成等領域也有所建樹。

三、Stable Diffusion 對電腦配置的要求

電腦配置最核心的配件,是 CPU、顯示卡、記憶體、硬碟。一般在 AIGC 領域,最重要的還要數顯示卡,很多 AI 應用只支援 N 卡(英偉達 Nvidia 獨立顯示卡)。使用 Stable Diffusion 最常用的兩種方式有兩種 webui 和 comfyui 。其中 webui 對電腦顯示卡的要求最低 10 系起步,體驗感佳 40 系。其中視訊記憶體大小也很重要,最低 4G, 6G 及格,記憶體最低 8G, 16G 及格,硬碟空間最好有 500G 以上,固態硬碟最佳。而如果使用 comfyui,則對電腦配置要求更低,最低 3G 視訊記憶體可用,出圖速度也更快。

重要的事強調一遍:顯示卡最重要,儘量選 N 卡,支援 Cuda,視訊記憶體也重要。顯示卡計算能力強弱,只是出圖時間長短的問題,視訊記憶體不夠,直接就玩不了。

詳細的資料對比,大家可以到各大論壇,或者 Nvidia 官網瞭解。

四、概念理解

我自己在學習過程中,經常看到有一些剛入門的小夥伴,問 Stable Diffusion 和 Comfyui 學哪個。實際上,這個問題本身就是錯誤的。提問的人沒有分清楚一些基本概念。

前面講到,Stable Diffusion 是一種擴散模型。常見的使用方法有 webui 和 comfyui 兩種方式。
webui 使用介面如下:

comfyui 使用介面如下:

相比之下,webui 更適合新手入門,所有操作在介面上一目瞭然,上手起來很容易。而 comfyui 是工作流模式,需要新增各種節點,並將它們用線連起來,更符合 stable diffusion 的工作流流向,如果你對深入學習 stable diffusion 有興趣,可以選擇 comfyui,另外 comfyui 可以儲存成 json 檔案,用來複用,comfyui 生成的圖片中預設也包含完整的工作流資訊,可以將工作流 json 檔案,或者由 comfyui 生成的圖片直接拖入 comfyui 中,還原整個工作流。
webui 比較穩定了,迭代更新速度也較慢,而 comfyui 目前幾乎每天都會有新版本。具體使用哪個,看個人意願。
這裡只要是澄清,無論是 webui 還是 comfyui 都是上層的應用形式,stable diffusion 只是一種模型。比如近期非常火爆的一種新的文生圖模型 Flux,它也是可以在 webui 種執行。

五、 結尾放圖

首先給出一些學習過程中我認為非常好的資料連線:
7000字詳解!幼兒園都能看懂的 Stable Diffusion 工作原理

Stable Diffusion 維基百科

B站秋葉大佬的影片



目前來看,Stable Diffusion 能做的工作相當多,比如,模特換裝,照片放大,區域性重繪等等,感興趣的朋友可以認真學習一下。

相關文章