全員離開老東家,Stable Diffusion一作帶團創業,出手即擊敗MJ v6、SD3,還開源
机器之心發表於2024-08-02
AI 影像和影片生成領域又加入了一個頗有實力的玩家。
還記得今年 3 月底,從 AI 初創公司 Stability AI 離職的研究科學家 Robin Rombach 嗎?作為開發出文生圖模型 Stable Diffusion 的兩位主要作者之一,他於 2022 年加入 Stability AI。如今,在從 Stability AI 離職近五個月後,Robin Rombach 發推宣佈了自己創業的好訊息!他成立了「Black Forest Labs」,旨在推進用於影像和影片的 SOTA 高質量生成式深度學習模型,並開放給儘可能多的人使用。團隊成員由傑出的 AI 研究者和工程師組成,他們之前的代表性工作包括 VQGAN 和 Latent Diffusion、影像和影片生成領域的 Stable Diffusion 模型(包括 Stable Diffusion XL、Stable Video Diffusion 和 Rectified Flow Transformers)以及用於超快實時影像合成的 Adversarial Diffusion Distillation。值得注意的是,除了 Robin Rombach 之外,Stable Diffusion 還有三位作者成為了創始團隊成員,包括 Andreas Blattmann、 Dominik Lorenz 和 Patrick Esser。他們都在今年早些時候離開了 Stability AI,有人猜測他們當初離開就是為了自己創業。目前,該 Labs 已經完成 3100 萬美元的種子輪融資,由 Andreessen Horowitz 領投。其他投資者包括了天使投資人 Brendan Iribe、Michael Ovitz、Garry Tan、Timo Aila、Vladlen Koltun 以及一些知名 AI 研究和創業專家。此外還獲得了來自 General Catalyst 和 MätchVC 的後續投資。該 Labs 還成立了顧問委員會,成員包括在內容創作行業具有廣泛經驗的科技大佬 Michael Ovitz 和神經風格遷移先驅、歐洲開放 AI 研究的頂級專家 Matthias Bethge 教授。當然,Black Forest Labs 推出了首個模型系列「FLUX.1」,包含了以下三個變體模型。第一個變體是 FLUX.1 [pro],它是全新的 SOTA 文生圖模型,具有極其豐富的影像細節、極強的 prompt 遵循能力和多樣化風格。目前可以透過 API 使用。- API 地址:https://docs.bfl.ml/
第二個是 FLUX.1 [dev],它是 FLUX.1 [pro] 的開放權重、非商用變體,並直接基於後者蒸餾而成。該模型的表現優於 Midjourney 和 Stable Diffusion 3 等其他影像模型。推理程式碼和權重已經放在了 GitHub 上。下圖是與競品影像模型的比較。- GitHub 地址:https://github.com/black-forest-labs/flux
第三個是開源的 FLUX.1 [schnell],它是超高效的 4-step 模型,遵循了 Apache 2.0 協議。該模型在效能上與 [dev]、[pro] 非常接近,可以在 Hugging Face 上使用。- Hugging Face 地址:https://huggingface.co/black-forest-labs/FLUX.1-schnell
與此同時,Black Forest Labs 也開始宣傳自己了。下一步的目標是推出所有人可用的 SOTA 文生影片模型,大家可以期待一波了!這次 Black Forest Labs 推出的三款模型,均採用了多模態和並行擴散 Transformer 的混合架構。不同於其他家將一系列模型按引數量分為「中杯」、「大杯」、「超大杯」,FLUX.1 家族的成員統一擴充套件為 120 億引數的龐大規模。研究團隊採用了流匹配(Flow Matching)框架對之前 SOTA 擴散模型進行了升級。從官方部落格的註釋中可以推測,研究團隊沿用了還在 Stability AI 任職時(今年 3 月)提出的 Rectified flow+Transformer 方法。- 論文連結:https://arxiv.org/pdf/2403.03206.pdf
他們還引入了旋轉位置嵌入和並行注意力層。這些方法有效提高了模型生成圖片的效能,在硬體裝置上生成圖片的速度也變得更快了。這次 Black Forest Labs 並未公開模型的詳細技術,不過更詳細的技術報告將很快公佈。這三款模型在各自的領域都確立了新標準。無論是生成影像的美觀度、影像與文字提示詞的附和度、尺寸 / 寬高比可變性、還是輸出格式的多樣性, FLUX.1 [pro] 和 FLUX.1 [dev] 都超越了一系列當紅圖片生成模型,如 Midjourney v6.0、DALL・E 3 (HD) 以及老東家 SD3-Ultra。FLUX.1 [schnell] 是迄今為止最先進的少步驟模型(few-step model),不僅超越了同類競爭對手,還超越了像 Midjourney v6.0 和 DALL・E 3 (HD) 這樣的強大非蒸餾模型。模型經過專門微調,以保留預訓練階段的全部輸出多樣性。與當前最先進的技術相比,FLUX.1 系列模型還保留了充分的進步空間。所有 FLUX.1 系列的模型都支援多種縱橫比和解析度,從 0.1 到 2 百萬畫素,都能拿下。已經有動作快的網友搶先體驗上了,看來 Black Forest Labs 反覆強調的「最強」,並不只是自賣自誇。簡單的提示詞,就可以打造出這樣的效果,仔細看羊駝身上墊子的花紋,也沒有出現扭曲和變形。 提示詞:An emerald Emu riding on top of a white llama.如果不說這是 AI 生成的圖片,也挺難分辨這是不是攝影師拍下的照片。 提示詞:A horse is playing with two aligators at the river.含有文字的影像,也能輕鬆拿捏,景深也處理得很符合真實的鏡頭感。三款模型中,效能稍弱的 FLUX.1 [schnell],用起來也是又快又強,有網友曬出在 Mac 上執行的體驗,不得不感慨,真是立等可取。不太瞭解 Stable Diffusion 的作者們和 Stability AI 之間「恩怨情仇」的網友感嘆道:不知道從哪裡冒出來了個文生圖模型,簡直強到可怕。關於 Stable Diffusion 作者和前司 Stability AI 的故事,可以看看機器之心之前的報導:價值1億美金時,Stable Diffusion背後的團隊開始互撕,誰才是真官方?除了三款最強的文生圖模型,Black Forest Labs 還憋著「大招」呢。有了如此強大的圖片生成模型的能力,Black Forest Labs 為影片生成模型打下了堅實的基礎,正如他們所預告的,這些計算機視覺的頂級科學家們正朝著為所有人提供的最先進文生影片技術的目標前進。公司部落格:https://blackforestlabs.ai/announcements/