剛剛!Stable Diffusion 3.5最強模型全家桶來了,三個型號

机器之心發表於2024-10-22
就在剛剛,Stability AI釋出了自家最強的模型Stable Diffusion 3.5,而且是一個全家桶,包含三個版本。
圖片
連結:https://huggingface.co/stabilityai

Stable Diffusion 3.5 可以滿足科研人員、業務愛好者、初創公司和企業的多樣化需求,其中包括:

Stable Diffusion 3.5 Large:該基礎模型擁有 80 億引數,效能優於競品模型並且響應迅速,是 Stable Diffusion 系列中最強大的模型。該模型非常適合 1 百萬畫素解析度的專業用例。

Stable Diffusion 3.5 Large Turbo:該模型是 Stable Diffusion 3.5 Large 的蒸餾版本,只需四步即可生成高質量影像,速度遠快於Stable Diffusion 3.5 Large。

Stable Diffusion 3.5 Medium:該模型擁有 25億引數,採用改進的MMDiT-X架構和訓練方法,可在消費級硬體上「開箱即用」,在質量和定製易用性之間實現了平衡。該模型能夠生成解析度在0.25到2百萬畫素之間的影像。

可以看到,以上模型均有較大幅度的升級。Stability AI 表示,在今年 6 月釋出Stable Diffusion 3 Medium後發現模型沒有滿足社群的期望。因此在聽到反饋意見後沒有采取快速修復措施,而是「花時間進一步開發了一個新版本,以推進改造視覺媒體的使命。」

模型開發技巧

在開發模型時,Stability AI優先考慮可定製性,以提供靈活的構建基礎。為了實現這一點,他們將Query-Key Normalization整合到transformer塊中,穩定了模型訓練過程並簡化了進一步的微調和開發。

為了支援下游靈活性,Stability AI還必須做出一些權衡。使用不同種子的同一提示可能會產生很大的輸出差異,這是有意為之,因為它有助於在基礎模型中保留更廣泛的知識庫和多樣化的風格。不過,缺乏特異性的提示可能會導致輸出不確定性增加,並且美學水平可能會有所不同。

尤其是針對Medium版本,Stability AI 對架構和訓練協議進行了一些調整,以提高質量、連貫性和多解析度生成能力。

模型的優勢

據介紹,Stable Diffusion 3.5各版本模型在以下多個方面表現出色:

可定製性:輕鬆微調模型以滿足特定創作需求,或根據定製的工作流程構建應用程式。

高效效能:經過最佳化,均可在標準消費級硬體上執行,尤其是 Stable Diffusion 3.5 Medium 和 Stable Diffusion 3.5 Large Turbo 型號。

多樣化輸出:無需大量提示,即可建立代表全世界的影像,而不僅僅是一種膚色和特徵的人。
圖片

風格多樣:能夠生成各種風格和美感的圖片,如 3D、攝影、繪畫、線條藝術以及幾乎任何可以想象到的視覺風格。

圖片
可見,在這一代的模型中,Stability AI已經提前考慮好了手機等裝置的執行。

此外,Stability AI表示,Stable Diffusion 3.5 Large在prompt adherence方面處於領先地位,並且在影像質量方面可與更大的型號相媲美。

Stable Diffusion 3.5 Large Turbo在同類模型中,推理速度最快,同時在影像質量和及時性方面保持了高度競爭力,即使與類似尺寸的非蒸餾模型相比也是如此。

Stable Diffusion 3.5 Medium 的表現優於其他中型型號,在prompt adherence和影像質量之間實現了平衡,使其成為高效、高質量效能的首選。
圖片
圖片
有人第一時間對比了Stable Diffusion 3.5 Large與FLUX 1.1 pro的生圖效果。

圖片

圖源:https://x.com/markopolojarvi/status/1848733375634272448

除了Hugging Face上託管的模型以外,還有更多訪問新模型的方式:

  • Stability AI API:https://platform.stability.ai/docs/api-reference#tag/Generate/paths/~1v2beta~1stable-image~1generate~1sd3/post
  • Replicate:https://replicate.com/stability-ai/stable-diffusion-3.5-large
  • ComfyUI:https://blog.comfy.org/sd3-5-comfyui/
  • 以及DeepInfra

此外,在新版本模型中,Stability AI 從開發的早期階段就引入了安全、負責任的 AI 實踐。

最後,Stability AI 表示,Stable Diffusion 3.5 Medium 將在 10 月 29 日公開發布。不久之後,ControlNets 也將推出,為各種專業用例提供高階控制功能。

參考內容:
https://stability.ai/news/introducing-stable-diffusion-3-5
https://x.com/StabilityAI/status/1848729212250951911

相關文章