走進AI影像生成核心技術 - Diffusion

Baihai_IDP發表於2023-01-10
編者按:2022年,Diffusion model成為影像生成領域的重要發現,推動了AI繪畫應用的爆發式發展。Diffusion模型相較於其他的影像生成模型,在所需資料更少的背景下,影像生成效果有明顯提升。
引用
本期IDP Inspiration,我們將和大家一起走進Diffusion的發展史。
引用
以下是譯文,Enjoy!

作者 | Kyle Wiggers

編譯 | 嶽揚

隨著技術的進步,人工智慧創造的藝術保真度得到了大大增強,文轉圖人工智慧在今年爆發了。儘管像Stable Diffusion和OpenAI的DALL-E 2這樣的系統存在許多爭議,但包括DeviantArt和Canva在內的很多平臺已經採用它們來製作創意工具,實現品牌的個性化,甚至創意新產品。

但這些系統的核心技術 - Diffusion - 的能力遠遠不止生成藝術作品,它還被一些研究小組用來製作音樂,合成DNA序列,甚至用於研製新藥。

那麼,究竟什麼是Diffusion,為什麼它與以前的技術水平相比有如此大的飛躍?我們需要來了解一下Diffusion的起源,以及它是如何隨著時間的推移而發展成今天這樣有影響力的。Diffusion的故事還沒有結束——每個月都會出現技術的改進,尤其過去一兩年出現了顯著的進步。

Diffusion的誕生

你或許還記得幾年前爆火的deepfaking——這些App將人們的肖像插入現有的影像和影片中,創造出看起來很真實的換臉影片。利用人工智慧,這些App會將一個人的臉,或者在某些情況下,他們的整個身體插入到某個場景中,往往能夠產生足夠的說服力,騙過大多數人。

這App大多依靠一種叫做生成對抗網路的人工智慧技術,簡稱GANs。GANs由兩部分組成:一個從隨機資料中產生合成內容(如影像)的生成器和一個試圖區分合成內容和訓練資料集中的真實內容的鑑別器。生成器和鑑別器互相配合提高生成或鑑別能力,直到鑑別器無法從合成的例子中分辨出真實的例子,此時其準確率已經高於預期的50%。

image.png

哈利-波特和霍格沃茨的沙雕,由Stable Diffusion生成。圖片來源:Stability AI

好的GAN可以建立很多逼真的圖片,例如虛構的公寓樓照片[1]。Nvidia幾年前開發的StyleGAN,透過學習面部姿勢、雀斑和頭髮等屬性,可以生成虛構人物的高解析度頭像。除了生成影像之外,GANs還被應用於構建3D建模空間和繪製向量草圖[2],輸出影片片段[3]以及語音[4],甚至還能利用樂器演奏樣本生成歌曲。

不過,在實踐中,GANs由於其結構而存在一些缺陷。生成器和鑑別器的同時訓練本身就是十分不穩定的。有時生成器會 “崩潰”,輸出許多看起來很相似的樣本。GANs還需要大量的資料和計算能力來執行和訓練,這使得它們難以進行擴充套件。

Diffusion是如何工作的

Diffusion的靈感來自於物理學——物理學中物質從高濃度區域向低濃度區域移動的過程,就像糖塊在咖啡中的溶解。咖啡中的糖粒最初集中在液體的頂部,但逐漸變得分散。

Diffusion特別借用了非平衡熱力學中的擴散,該過程隨著時間的推移增加了系統的熵(或隨機性)。比如氣體最終會透過隨機運動擴散開來,均勻地充滿整個空間。同樣,像影像這樣的資料也可以透過隨機新增噪聲而轉變為均勻分佈。

Diffusion透過新增噪音慢慢地破壞資料的結構,直到除了噪音什麼都不剩。

在物理學中,擴散是自發的和不可逆的——擴散到咖啡中的糖不能恢復到立方體的形式。但機器學習中的擴散系統旨在學習一種 “反向擴散” 過程來恢復被破壞的資料,獲得從噪聲中恢復資料的能力。

Diffusion已經存在了近十年,但是OpenAI最近的一項創新,即CLIP(Contrastive Language-Image Pre-Training的簡稱)使它們在日常應用中更加實用。CLIP對資料(例如影像)進行分類,根據它在給定的文字提示下被分類成某一類的可能性(例如:“花叢中的狗素描畫”),對擴散過程的每一步進行“評分”。

在最開始的時候,會給資料一個非常低的CLIP分數,因為它大部分是噪聲。但隨著Diffusion從噪聲中重建資料,它慢慢地接近於文字提示。可以用一個雕刻大理石的例子,就像一個雕刻大師告訴一個新手在哪裡雕刻一樣,CLIP引導Diffusion生成一個能給出更高分數的影像。

OpenAI將CLIP與影像生成系統DALL-E一起推出。從那之後,又推出了DALL-E的後繼者DALL-E 2,以及誕生了像Stable Diffusion這樣的開源替代品。

Diffusion能做什麼?

那麼,CLIP引導的Diffusion能做什麼?正如前面所提到的,它們在生成藝術作品方面相當出色,從逼真的藝術作品到素描、油畫等,幾乎可以模仿任何藝術家的風格。事實上,有證據表明,它們會有針對性地反芻它們的一些訓練資料。

但這些模型的天賦(儘管可能有爭議)並沒有到此為止。

研究人員還嘗試使用引導式Diffusion來創作新音樂。Harmonai[5]是一個得到 Stability AI[6] 投資的公司,它釋出了一個基於Diffusion的模型,透過對數百小時現有歌曲進行訓練,可以輸出音樂片段。最近,開發者Seth Forsgren和Hayk Martiros建立了一個被稱為Riffusion的業餘專案,該專案使用Diffusion巧妙地對音訊的光譜圖進行訓練,以生成新的音樂。

除開音樂領域之外,一些實驗室正試圖將Diffusion應用於生物醫學,希望能發現新的疾病治療方法。正如《 MIT Tech Review》本月早些時候報導的那樣[7],創業公司Generate Biomedicines和華盛頓大學的一個團隊訓練了一個基於Diffusion的模型,可以進行具有特定屬性和功能的蛋白質設計。

這些模型以不同的方式工作。Generate Biomedicines公司透過解開構成蛋白質的氨基酸鏈來增加噪聲,然後在研究人員指定的約束條件指導下,將隨機鏈放在一起形成一個新的蛋白質。另一方面,華盛頓大學的模型從一個混亂的結構開始,並使用一個獨立的AI系統來提供蛋白質碎片如何組合的資訊來預測蛋白質結構。

他們已經取得了一些成果,華盛頓大學小組設計的模型找到了一種能夠附著在甲狀旁腺激素(控制血液中鈣含量的激素)上的蛋白質,比現有藥物更好。

  image.png

       圖片來源:PASIEKA/SCIENCE PHOTO LIBRARY/Getty Images

同時,在OpenBioML[8],這是一個由Stability AI支援的專案,其將基於機器學習的方法引入生物化學的工作中,研究人員開發了一個名為DNA-Diffusion的系統,它能夠生成細胞型別特異的調節性DNA序列(影響生物體內特定基因表達的核酸分子段)。如果一切按計劃進行,DNA-Diffusion將透過文字指令生成調節性DNA序列,比如 “一個啟用基因在X型細胞中達到最大表達水平的DNA序列” 和 “一個能夠在肝臟和心臟中啟用基因,但不在大腦中啟用的DNA序列”。

Diffusion的未來可能是什麼?一切皆有可能。現在研究人員已經將其應用於生成影片[9]、壓縮影像[10]和合成語音[11]。這並不是說Diffusion最終不會被更有效、效能更強的機器學習技術所取代,就像GANs被Diffusion取代一樣。但它擁有今天的輝煌是有原因的,Diffusion如果不是多功能的,那就什麼都不是。

參考資料

  1. https://syncedreview.com/2019...
  2. https://venturebeat.com/2019/...
  3. https://venturebeat.com/2019/...
  4. https://venturebeat.com/2019/...
  5. https://www.harmonai.org/
  6. https://stability.ai/
  7. https://www.technologyreview....
  8. https://techcrunch.com/2022/1...
  9. https://arxiv.org/pdf/2204.03...
  10. https://arstechnica.com/infor...
  11. https://arxiv.org/abs/2204.09934

相關文章