發完最後一篇論文,Stable Diffusion核心團隊全要離職了

机器之心發表於2024-03-22
內部核心員工出走頻繁,外部投資者不斷喪失信心,成立於 2019 年的 AI 初創公司 Stability AI 還能推出偉大的產品嗎?

離 Stable Diffusion 3 釋出不到一個月,總部位於倫敦的 AI 初創公司 Stability AI 又被曝出了重大人事變動。

昨日,據 Sifted、福布斯等多家外媒報導,Stability AI 即將失去又一名主要技術負責人。

這次是研究科學家 Robin Rombach,他於 2022 年加入 Stability AI,是開發出文生圖模型 Stable Diffusion 的兩位主要作者之一。

從與 Stability AI 保持密切關係的兩處訊息源得知,Robin Rombach 即將辭去自己的科研負責人職位。

圖片

在 NEXT 網站,Robin Rombach 的 title 依然是 Stability AI 研究科學家。

我們先來看下 Robin Rombach 的個人履歷。

2013 至 2020 年,Robin Rombach 在海德堡大學學習物理學。2020 後,他開始攻讀海德堡大學計算機視覺小組的電腦科學博士學位,導師為 Björn Ommer,並在 2021 年隨研究小組轉到慕尼黑大學。他的研究中心在於生成式深度學習模型尤其是文字到影像系統。

在攻讀博士期間,Robin Rombach 在多個現在廣泛應用的專案研發中發揮了重要作用,比如 VQGAN 和 Taming Transformers、潛在擴散模型(Latent Diffusion Models)。在 Stability AI 工作期間,他參與擴充套件潛在擴散方法,併發布了 Stable Diffusion 系列模型。他還是開源機器學習模型的支持者。

在 Google Scholar 網站上,Robin Rombach 參與論文《High-Resolution Image Synthesis With Latent Diffusion Models》已經收穫了 6000 多引用。

圖片

在給到 Sifted 的回應中,Stability AI 發言人表示,「我們感謝 Robin 對公司做出的貢獻,祝願他未來工作一切順利。同時公司仍將專注於自身世界領先技術的商業化推廣。」

「這聽起來很像網際網路泡沫破裂前的兩年 —— 瘋狂的估值和沒有盈利模式。與此同時,那些價值極高的公司購買了 Sun Microsystems 伺服器,就像沒有明天一樣。當比賽結束時,許多估值瘋狂的公司的價值都歸零,留下了大量的 Sun 硬體。此後不久,Sun 就開始了長時間的暴跌。」

還有人猜測:「如此多的人離開以及主要投資者從董事會辭職絕對是值得玩味的。我想知道是否有一些未公開的醜聞會爆發,因為這非常瘋狂。」

圖片

持續動盪,連損幾員大將:CEO 的鍋

據福布斯的爆料,此次即將離職的不只是科研負責人 Robin Rombach,還有其他兩位研究員 Andreas Blattmann 和 Dominik Lorenz。在上週的一次全體員工會議上,Stability AI CEO Emad Mostaque 宣佈了他們離職的訊息。

Stability AI 的成功在很大程度上可以直接追溯到 Stable Diffusion 研究,該研究最初是慕尼黑大學和海德堡大學的一個學術專案。

即將離開 Stability AI 的 Robin Rombach、Andreas Blattmann 和 Dominik Lorenz 是五位作者中的三位,前兩位還是共同一作。他們做出了 Stable Diffusion 的核心研究,後來被 Stability AI 聘用。

圖片

論文地址:https://arxiv.org/pdf/2112.10752.pdf

最初的研究論文發表 7 個月後,CEO Emad Mostaque 向學術界提供了公司的部分計算資源,用於進一步開發文字到影像模型,Stability AI 這家公司因此參與其中。

隨著 Stable Diffusion 的病毒式傳播,生成式 AI 熱潮到來了,幫助 Mostaque 在推出後的幾天內就從科技投資公司 Coatue 和 Lightspeed 獲得了超過 1 億美元的投資。他用其中一部分資金聘請了 Björn Ommer(指導了最初 Stable Diffusion 研究)的博士生 Rombach、Blattmann 和 Lorenz。

從那時起,他們的研究使 Stability AI 一直走在影像生成技術發展的前沿。

上個月,他們還幫助這家公司釋出了 Stable Diffusion 3 模型,首次將早期版本中使用的擴散結構與 OpenAI ChatGPT 中使用的 Transformer 相結合,與 Sora 架構類似。

圖片

不過,這種合作模式似乎為後來的爭端埋下了雷,Björn Ommer 認為 Stability AI 在 2022 年 8 月推出 Stable Diffusion 時,在講述自身對該模型的貢獻上誤導了公眾(Stability AI 宣稱他們與其他一些生成式 AI 組織「共同建立」了產品,但實際上,Stability AI 只是提供了計算支援)。

無論如何,對這家曾經炙手可熱的 AI 初創公司來說,Robin Rombach 等人的離職是沉重的打擊。一邊是現金儲備的減少,一邊是籌集更多資金的徒勞,該公司的高管已經大批出走。

其實,在 Rombach 被曝出離職之前,Stability AI 的技術團隊已經經歷了 12 個月的動盪,更換了 CTO,並先後失去一名產品副總裁、一名工程副總裁、一名研發副總裁、一名研究主管和兩名大語言模型主管。

與此同時,曾經對這家公司青睞有加的投資機構們,也正四散離去。

據彭博社報導,投資公司 Coatue 辭去了董事會職務,Lightspeed 也在 2023 年 10 月辭去了 Stability AI 的董事會觀察員席位。

此前就有報導稱,Stability AI 創始人兼 CEO Emad Mostaque 慣於誇大事實,令投資者對該公司業績真實性存疑。

圖片

圖源:Scale AI

比如,投資機構 Coatue 曾要求過 Mostaque 辭去 CEO 一職,並推動公司出售。不過,一位 Stability AI 發言人告訴彭博社:「我們 CEO 的領導和管理對 Stability AI 的成功起到了至關重要的作用,公司並不打算出售。」

此外,福布斯此前報導稱,Stability AI 一直在努力支付工資和工資稅,Mostaque 及其妻子與公司財務之間的界限模糊不清。雲端計算提供商 AWS 曾一度威脅要因未支付賬單而取消訪問權,但 StabilityAI 否認了因逾期付款而限制訪問這件事。

在財務上,Stability AI 還面臨著一項重大支出,那就是為自己辯護,應對 Getty Images 以及美國和英國藝術家們提起的版權侵權訴訟。

在資料來源上,Stability AI 似乎也在碰壁。本月早些時候,競爭對手公司 Midjourney 封禁了 Stability AI 的所有員工賬戶,指責其惡意爬取資料,導致伺服器癱瘓 24 小時。Midjourney 表示將禁止 Stability AI 的所有員工以及任何使用「激進自動化」來抓取提示資訊的人使用該服務。Mostaque 在推特上的回覆是,該起事件並非蓄意而為,而且是一名員工的個人專案。

「最後的論文」

就在前幾天,Robin Rombach 還在宣傳自己團隊的新研究,將 Stable Diffusion 3 中的擴散 transformer 轉變成一個判別器,並將蒸餾移動到潛在空間,從而得到了 SD3-Turbo,只需要無指導的四步就能實現 Stable Diffusion 3 的影像質量。

圖片

論文標題為《Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation》。

圖片

論文地址:https://arxiv.org/pdf/2403.12015.pdf

我們都知道,擴散模型是影像和影片合成技術進步的主要推動力,但其推理速度較慢。一些蒸餾方法,如最近推出的對抗擴散蒸餾法(ADD),旨在將模型從多步推理轉變為單步推理。

一般來說,與大型語言模型和擴散模型相比,目前的對抗模型並不嚴格遵守縮放法則,穩定的訓練方法通常需要大量的超引數調整。事實上,之前對 GAN 的縮放嘗試導致生成器縮放時收益遞減。更令人驚訝的是,較小的判別特徵網路往往比較大的網路具有更好的效能。這些非直觀的特性是 GAN 的一個重大缺陷:遵循縮放法則的模型可提供可預測的效能改進,從而實現更具戰略性和成本效益的縮放,最終實現更好的模型開發。

Stability AI 這項工作提出了潛在對抗擴散蒸餾法(LADD),可以對預訓練的擴散 Transformer 模型進行穩定、可擴充套件的對抗蒸餾,最高可達百萬畫素級別。團隊沒有利用 DINOv2 等自監督特徵網路的判別特徵,而是利用預訓練擴散模型的生成特徵。這種方法在直接實現多視角訓練的同時,還提供了一種控制判別特徵的自然方法:透過在訓練過程中對噪聲水平進行有針對性的取樣,可以將判別特徵偏向於更全域性(高噪聲水平)或區域性(低噪聲水平)的行為。此外,在潛在空間中進行提煉可以充分利用大型的學生和教師網路,避免昂貴的畫素空間解碼步驟,從而實現高解析度影像合成。因此,與 ADD 相比,LADD 的訓練設定要簡單得多,同時效能也優於之前所有的單步方法。

團隊將 LADD 應用於當前最先進的文字到影像模型 Stable Diffusion 3,得到了 SD3-Turbo,這是一種多視角百萬畫素生成器,只需四個取樣步驟就能達到其教師的影像質量。

這項工作的核心貢獻包括:

  • SD3-Turbo,一種快速基礎模型,支援根據文字提示生成高解析度多方面影像,如圖 1 和圖 2;

圖片

圖片

  • 大大簡化了蒸餾公式,效果優於 LADD 的前身 ADD,並對 LADD 的縮放行為進行了系統研究;

  • 透過兩個示例應用:影像編輯和影像修復,展示了新方法的多功能性。

以下為影像編輯能力對比:

圖片

以下為影像修復能力對比:

圖片

更多技術細節和實驗結果請參閱原論文。

參考連結:

https://sifted.eu/articles/stability-ai-rombach-news

https://www.forbes.com/sites/iainmartin/2024/03/20/key-stable-diffusion-researchers-leave-stability-ai-as-company-flounders/?ss=ai&sh=798428b12ed6

相關文章