Stable Diffusion 3.5 可以滿足科研人員、業務愛好者、初創公司和企業的多樣化需求,其中包括:
Stable Diffusion 3.5 Large:該基礎模型擁有 80 億引數,效能優於競品模型並且響應迅速,是 Stable Diffusion 系列中最強大的模型。該模型非常適合 1 百萬畫素解析度的專業用例。
Stable Diffusion 3.5 Large Turbo:該模型是 Stable Diffusion 3.5 Large 的蒸餾版本,只需四步即可生成高質量影像,速度遠快於Stable Diffusion 3.5 Large。
Stable Diffusion 3.5 Medium:該模型擁有 25億引數,採用改進的MMDiT-X架構和訓練方法,可在消費級硬體上「開箱即用」,在質量和定製易用性之間實現了平衡。該模型能夠生成解析度在0.25到2百萬畫素之間的影像。
可以看到,以上模型均有較大幅度的升級。Stability AI 表示,在今年 6 月釋出Stable Diffusion 3 Medium後發現模型沒有滿足社群的期望。因此在聽到反饋意見後沒有采取快速修復措施,而是「花時間進一步開發了一個新版本,以推進改造視覺媒體的使命。」
為了支援下游靈活性,Stability AI還必須做出一些權衡。使用不同種子的同一提示可能會產生很大的輸出差異,這是有意為之,因為它有助於在基礎模型中保留更廣泛的知識庫和多樣化的風格。不過,缺乏特異性的提示可能會導致輸出不確定性增加,並且美學水平可能會有所不同。
尤其是針對Medium版本,Stability AI 對架構和訓練協議進行了一些調整,以提高質量、連貫性和多解析度生成能力。
可定製性:輕鬆微調模型以滿足特定創作需求,或根據定製的工作流程構建應用程式。
多樣化輸出:無需大量提示,即可建立代表全世界的影像,而不僅僅是一種膚色和特徵的人。
此外,Stability AI表示,Stable Diffusion 3.5 Large在prompt adherence方面處於領先地位,並且在影像質量方面可與更大的型號相媲美。
Stable Diffusion 3.5 Large Turbo在同類模型中,推理速度最快,同時在影像質量和及時性方面保持了高度競爭力,即使與類似尺寸的非蒸餾模型相比也是如此。
Stable Diffusion 3.5 Medium 的表現優於其他中型型號,在prompt adherence和影像質量之間實現了平衡,使其成為高效、高質量效能的首選。
Stability AI API:https://platform.stability.ai/docs/api-reference#tag/Generate/paths/~1v2beta~1stable-image~1generate~1sd3/post Replicate:https://replicate.com/stability-ai/stable-diffusion-3.5-large ComfyUI:https://blog.comfy.org/sd3-5-comfyui/ 以及DeepInfra
最後,Stability AI 表示,Stable Diffusion 3.5 Medium 將在 10 月 29 日公開發布。不久之後,ControlNets 也將推出,為各種專業用例提供高階控制功能。
https://stability.ai/news/introducing-stable-diffusion-3-5
https://x.com/StabilityAI/status/1848729212250951911