AI 繪畫發展史

在談論 Stable Diffusion 之前，有必要先了解 AI 繪畫的發展歷程。

早在 2012 年，華人科學家吳恩達領導的團隊訓練出了當時世界上最大的深度學習網路。這個網路能夠自主學習識別貓等物體，並在短短三天時間內繪製出了一張模糊但可辨識的貓圖。儘管這張圖片很模糊，但它展示了深度學習在影像識別方面的潛力。

到了 2014 年，加拿大蒙特利爾大學的谷歌科學家 Ian Goodfellow 提出了生成對抗網路 GAN 的演算法，這一演算法一度成為 AI 生成繪畫的主流方向。GAN 的原理是透過訓練兩個深度神經網路模型——生成器 Generator 和判別器 Discriminator ，使得生成器能夠生成與真實資料相似的新資料樣本，並且判別器可以準確地區分生成器生成的假樣本和真實資料。GAN 的核心思想是博弈，生成器試圖欺騙判別器，而判別器則努力辨別真偽，二者相互對抗、相互協作，最終實現高質量的資料生成效果。

2016 年，基於 GAN 的第一個文字到影像模型 GAN-INT-CLS 問世，證明了 GAN 在從文字生成影像方面的可行性，為各類基於 GAN 的有條件影像生成模型的湧現開啟了大門。然而，GAN 在訓練過程中很容易出現不穩定或崩潰的情況，因此難以大規模應用。

同年 10 月，NVIDIA 提出了 ProgressiveGAN，透過逐漸增加神經網路規模生成高解析度影像，從而降低了模型訓練難度並提高了生成質量，為後來的 StyleGAN 的崛起鋪平了道路。

2017 年，谷歌發表了著名論文《Attention Is All You Need》，提出了 Transformer 結構，隨後在自然語言處理領域大放異彩；雖然 Transformer 是為了解決自然語言處理問題而設計的，但它在影像生成領域也顯示了巨大的潛力。2020 年，他們又提出了 ViT 概念，嘗試用 Transformer 結構替代傳統的卷積神經網路 CNN 結構在計算機視覺中的應用。

2020 年出現了轉折。加州大學伯克利分校提出了眾所周知的去噪擴散機率模型 DDPM，簡化了原有模型的損失函式，將訓練目標轉變為預測當前步新增的噪聲資訊，極大降低了訓練難度，並將網路模組由全卷積網路替換為 Unet，提升了模型的表達能力。

2021 年 1 月，OpenAI 釋出了基於 VQVAE 模型的 DALL-E 和 CLIP 模型 Contrastive Language-Image Pre-Training，它們分別用於文字到影像生成和文字與影像之間的對比學習。這讓 AI 似乎第一次真正“理解”了人類的描述並進行創作，激發了人們前所未有的對 AI 繪畫的熱情。2021 年 10 月，谷歌釋出的 Disco Diffusion 模型以其驚人的影像生成效果拉開了擴散模型的時代序幕。

2022 年 2 月，由一些開源社群的工程師開發的基於擴散模型的 AI 繪圖生成器 Disco Diffusion 推出。從那時起，AI 繪畫進入了快速發展的軌道，潘多拉魔盒已然開啟。Disco Diffusion 相比傳統的 AI 模型更加易用，研究人員建立了完善的幫助文件和社群，越來越多的人開始關注它。同年 3 月，由 Disco Diffusion 核心開發人員參與開發的 AI 生成器 MidJourney 正式釋出。MidJourney 選擇搭載在 Discord 平臺，藉助聊天式的人機互動方式，使得操作更加簡便，而且無需複雜的引數調節，只需向聊天視窗輸入文字就可以生成影像。

更重要的是，MidJourney 生成的圖片效果非常驚豔，以至於普通人幾乎無法分辨出其生成的作品是否是由 AI 繪製的。在 MidJourney 釋出 5 個月後，美國科羅拉多州博覽會的藝術比賽評選出了結果，一幅名為《太空歌劇院》的畫作獲得了第一名，然而其並非人類畫師的作品，而是由名為 MidJourney 的人工智慧創作的。

當參賽者公佈這幅作品是由 AI 繪製時，引發了許多人類畫家的憤怒和焦慮。

2022 年 4 月 10 日，之前提到的 OpenAI 的 DALL·E 2 釋出了。無論是 Disco Diffusion 還是 MidJourney，細心觀察後仍然能夠看出其是由 AI 生成的，但 DALL·E 2 生成的影像已經無法與人類作品區分開了。

Stable Diffusion

2022 年 7 月 29 日，由公司研發的 Stable Diffusion 的 AI 生成器開始內測。人們發現用它生成的 AI 繪畫作品質量堪比 DALL·E 2，而且限制更少。Stable Diffusion 的內測共分 4 波，邀請了 15000 名使用者參與，僅僅十天後，就有一千七百萬張圖片透過它生成。最關鍵的是，Stable Diffusion 的開發公司 Stability AI 秉承著開源的理念，“AI by the people，for the people”，這意味著任何人都可以在本地部署自己的 AI 繪畫生成器，真正實現了每個人“只要你會說話，就能夠創造出一幅畫”。開源社群 HuggingFace 迅速適配了它，使得個人部署變得更加簡單；而開源工具 Stable-diffusion-webui 則將多種影像生成工具整合在一起，甚至可以在網路端微調模型、訓練個人專屬模型，備受好評，在 GitHub 上獲得了 3.4 萬顆星，使得擴散生成模型徹底走出了大型服務，向個人部署邁進。

2022 年 11 月，Stable Diffusion 2.0 釋出，新版本生成的解析度提高了四倍，生成速度也更快。

Stable Diffusion 基於 Latent Diffusion Models，將最耗時的擴散過程放在低維度的潛變數空間，大大降低了算力需求以及個人部署門檻。它使用的潛空間編碼縮減因子為 8，換句話說，影像的長和寬被縮減為原來的八分之一，例如一個 512512 的影像在潛空間中直接變為 64 64，從而節省了 64 倍的記憶體！在此基礎上，Stable Diffusion 還降低了效能要求。不僅可以快速（以秒計算）生成一張細節豐富的 512512 影像，而且只需一張英偉達消費級的 8GB 2060 顯示卡。如果沒有這個空間壓縮轉換，它將需要一張 512GB 視訊記憶體的超級顯示卡。按照顯示卡硬體的發展規律，消費者至少需要 8-10 年的時間才能享受到這類應用。這個演算法上的重要迭代使得 AI 作畫提前進入了每個人的生活。

在本文中，我們探討了 Stable Diffusion 的發展歷程以及對其的介紹。如果你同樣是 AI 繪畫的愛好者，歡迎和我一起交流探討。未來，我將持續更新這個系列，分享 Stable Diffusion 的教程以及其他 AI 繪畫軟體的教學內容。如果您喜歡這些內容，歡迎關注我們！感謝您的閱讀，期待在下一期再與您相見！

關於極限科技（INFINI Labs）

關於極限科技

極限科技，全稱極限資料（北京）科技有限公司，是一家專注於實時搜尋與資料分析的軟體公司。旗下品牌極限實驗室（INFINI Labs）致力於打造極致易用的資料探索與分析體驗。

極限科技是一支年輕的團隊，採用天然分散式的方式來進行遠端協作，員工分佈在全球各地，希望透過努力成為中國乃至全球企業大資料實時搜尋分析產品的首選，為中國技術品牌輸出添磚加瓦。

Stable Diffusion解析：探尋AI繪畫背後的科技神秘

AI 繪畫發展史

Stable Diffusion

關於極限科技（INFINI Labs）

相關文章