探討AIGC的崛起歷程,淺析其背後技術發展

華為雲開發者聯盟發表於2023-05-10
摘要:本文主要討論了AIGC(人工智慧生成內容)的發展歷程、現狀、應用,淺析其背後技術發展、與華為雲的聯絡,以及面臨的挑戰和展望。

本文分享自華為雲社群AIGC:人工智慧生成內容的崛起與未來展望》,作者:杜甫蓋房子。

AIGC被認為是繼專業生成內容(PGC)和使用者生成內容(UGC)之後,利用人工智慧技術自動生成內容的新型生產方式。隨著技術的發展,如Stable Diffusion和ChatGPT等領先技術的出現,AIGC逐漸在文字、影像、音樂、影片、3D等多種形式內容的生產上發揮作用。然而,AIGC的快速發展同時也面臨一系列挑戰,包括技術、安全、合規等方面。因此,我們既要擁抱變化,也要直視挑戰,以期在不久的未來,AIGC能夠在更多領域大放異彩,開啟雲端計算產業鏈新一輪的景氣週期。

發展歷程

AIGC(Artificial Intelligence Generated Content),國內產學研各界對它的理解是“繼專業生成內容(Professional Generated Content,PGC)和使用者生成內容(User Generated Content,UGC)之後,利用人工智慧技術自動生成內容的新型生產方式”。

2022.09.23紅杉美國發表了文章:《Generative AI: A Creative New World》,認為AIGC將帶來新一輪的正規化轉移。2022.11.30 ChatGPT釋出,使用者飛速增長,AIGC走進了大眾視野中。無論是技術工作者、內容生產工作者還是營銷推廣工作者,都應該對AIGC有一定的瞭解。

AI的發展大致可以劃分為三個階段,我們用一張圖簡單展示一下有關AICG的發展歷程與典型事件:

探討AIGC的崛起歷程,淺析其背後技術發展

參考:中國資訊通訊研究院

目前,AIGC正處於蓬勃發展的時期,大型企業加強投資佈局,釋出多領域的預訓練模型,如谷歌釋出了BERT、Imagen等模型,Facebook釋出了OPT-175B、M2M-100等模型,微軟投資OpenAI,釋出了GPT4、Codex等模型,百度也在大模型領域深耕,釋出了文心繫列模型。此外,創業企業融資高漲,2022年10月,Stability AI獲得約1億美元融資,估值高達10億美元,Jasper拿下1.25億美元A輪融資,估值15億美元。在應用側,熱點AIGC應用的使用者數量呈指數級增長,例如ChatGPT使用者破億僅用了兩個月。我們認為,AIGC 技術正逐漸滲透到人們的生活、工作場景中,AIGC技術發展與產業形態已初步形成,處於方興未艾大有可為之時。

現狀及應用

AIGC的發展依託於底層算力、演算法的發展,從生成對抗網路(Generative Adversarial Network,GAN)開始,AI生成高質量內容的能力快速提升,一些具有代表性的演算法模型的發展歷程如下:

探討AIGC的崛起歷程,淺析其背後技術發展

圖源:《A Comprehensive Survey of AI-Generated Content (AIGC): A History of Generative AI from GAN to ChatGPT》

依託於這些演算法,不同任務領域內湧現了一批預訓練模型與應用:

探討AIGC的崛起歷程,淺析其背後技術發展

從技術場景上看,AIGC逐步在文字、影像、音樂、影片、3D等多種形式內容的生產上發揮作用,在新聞稿、財報等結構化寫作場景有較好的表現,在影像生成領域可以在細粒度上遵循人類指導完成指定主題內容的創作,如Copilot等生產力工具也紛紛湧現。

從更多的延展場景上看,AIGC可以有更廣泛的應用,如合成資料,生成虛構但與目標場景保持一致屬性的虛擬資料,從而避免AI一直為人詬病的資料偏見與隱私洩露問題;基於AIGC的虛擬陪伴也會帶來更多的社會價值,已經有一些企業將人工智慧技術應用到精神健康的數字診療服務上,為臨床患者和廣大心理亞健康人群提供高質量、低成本、個性化、全天候的情緒支援、心理諮詢和干預方案。

技術淺析

這一波火爆的AIGC技術中,Stable Diffusion 開源模型與 ChatGPT 分別引領了影像與文字生成領域的熱潮,AIGC也逐漸從簡單的降本增效(如結構化寫作)向創造額外價值(如AI繪畫)轉移,我們將對這兩個模型的發展與其中涉及到的影像與文字相關技術進行簡單介紹。

Stable Diffusion

AI繪畫在過去的一年中一直是AIGC領域的熱點話題,隨著Stable Diffusion的開源,眾多不同風格的模型紛紛湧現。而高效引數微調方法LoRA與精細控制生成內容的ControlNet的釋出,更進一步讓AI繪畫發展為產業可用的解決方案。

探討AIGC的崛起歷程,淺析其背後技術發展

Stable Diffusion從實現原理上,可以通俗的理解為這幾步:

  1. 為了提升模型訓練推理效率,捕捉高維資訊,Stable Diffusion首先使用影像編碼器,將影像從畫素空間壓縮到低維度的潛在空間;
  2. 使用如CLIP的文字編碼器,將描述文字轉換為文字向量;
  3. 在低維度的潛在空間中,基於一些條件(如文字向量)進行Diffusion過程;
  4. 使用影像解碼器將潛在空間中的向量轉換回畫素空間來生成最終影像。
探討AIGC的崛起歷程,淺析其背後技術發展

圖源:《The Illustrated Stable Diffusion》

我們對Stable Diffusion中涉及兩個關鍵概念:CLIP與Diffusion進行簡單解釋:

  1. CLIP(Contrastive Language–Image Pre-training)是 OpenAI 在 2021 年提出的圖文對訓練的多模態模型,可以通俗的理解,CLIP可以判斷圖片和文字的相似度。預訓練的CLIP模型擁有建立文字潛在空間與圖片潛在空間對應關係的能力,使用CLIP對文字進行編碼可以實現文字描述控制影像生成的需求。
  2. Diffusion Model是 AI 繪畫中非常常用的模型,在訓練過程中,正向過程透過隨時間逐步向圖片中加噪的方式,讓圖片變成純噪點圖;逆向過程則是學習如何將一張噪點圖恢復為高畫質圖。在推理時,網路會隨機初始化一個噪聲向量,訓練好的Diffusion Model在條件向量(如文字向量)的控制下逐漸恢復出影像向量,再透過影像解碼器恢復為畫素影像。

ChatGPT

ChatGPT (GPT,Generative Pre-training Transformer) 是一個能夠理解人類語言並做出相應反應的人工智慧系統,在ChatGPT釋出之前,GPT系列大模型已經經過幾輪迭代。

探討AIGC的崛起歷程,淺析其背後技術發展

然而,之前的模型中存在一個典型的對齊問題,即大模型生成的響應不一定符合使用者意圖。產生問題的原因是,從本質上講,語言模型訓練的目標是預測下一個詞,而不是按照使用者意圖來生成。為了解決這個問題,在ChatGPT的訓練過程中引入了基於人類反饋的強化學習(Reinforcement Learning from Human Feedback,RLHF)方法,透過手動收集反饋資料 -> 訓練獎勵模型 -> 強化學習的訓練流程提升了模型理解人類思維的準確性,可以透過一個簡單的圖示來展示這一訓練過程:

探討AIGC的崛起歷程,淺析其背後技術發展

ChatGPT多數令人驚豔的行為,如響應人類指令,利用思維鏈進行復雜推理等都是RLHF的產物 。

參考:How does GPT Obtain its Ability? Tracing Emergent Abilities of Language Models to their Sources

ChatGPT的成功,在技術上可以給我們帶來幾點啟示:

  1. 細緻的資料工程是模型成功必不可少的工作;
  2. 監督微調和強化學習是矯正模型生成內容的關鍵技術。

AIGC與華為雲

目前,AIGC的市場結構可以粗略的劃分如下:

探討AIGC的崛起歷程,淺析其背後技術發展

AIGC與雲聯絡緊密,AIGC應用依託於大模型的能力構建,而大模型的開發與執行都依賴雲側充足的算力。以ChatGPT為例,根據OpenAI報告, ChatGPT是在InstructGPT 基礎上微調而來,引數量約13億,因此預計ChatGPT訓練所需算力為27.5PFlop/s-day,如果用NVIDIA V100訓練需要220天。可見,AIGC應用浪潮對算力的需求是前所未有的,這將迅速拉動雲端計算需求。知名投資機構a16z在報告中闡述,幾乎所有的AIGC相關應用都或多或少依賴雲端的算力,因此a16z預測AIGC市場的大量資金最終流向了基礎設施公司,平均來說,AIGC應用開發公司將大約20-40% 的收入用於模型推理與微調,而這部分通常直接支付給算力提供的雲廠商。

算力作為AIGC的重要支撐,是影響AIGC發展的核心要素;除此之外,構築在算力底座上的AI平臺,又能直接影響AIGC應用的開發和執行效率。華為雲擁有全棧全場景的AI能力,基於鯤鵬、昇騰的算力底座,提供了穩定高效的AI開發平臺ModelArts,從資料處理到模型訓練、模型推理,可以大幅提升AI開發效率。

探討AIGC的崛起歷程,淺析其背後技術發展

此外,在ModelArts的資產社群AI Gallery中,也有很多AIGC相關的低門檻案例,如一鍵執行的AI作畫案例,已有18,000+的累計執行:

探討AIGC的崛起歷程,淺析其背後技術發展

如果對AIGC感興趣可以到AI Gallery體驗相關案例。

挑戰及展望

隨著AIGC的快速發展,一些問題也逐漸浮現。在技術上,目前語言模型是基於統計的,這一機制導致回答偏差的存在,進而導致虛假資訊傳播的法律風險;數理領域中的生成內容錯誤較多,無法應用到銀行、醫院等專業性強的領域;模型仍不可解釋與不可控,可能存在後門攻擊、資料中毒、訓練資料洩露等問題。在安全合規上,AIGC模型在訓練過程中的資料使用合規問題、生成內容的智慧財產權問題,甚至是訓練推理過程中帶來的碳排放問題等,仍然存在很多挑戰。

身處人工智慧的下一個時代,我們不僅要擁抱變化,也要直視挑戰。在技術方面,如何理解大模型的基本工作機制對模型安全與繼續發展至關重要;除此之外,大模型訓練與遷移流程最佳化是AI走向通用人工智慧的關鍵。在技術發展的同時,AIGC的合規與治理應該引起重視。相信在不久的未來,AIGC將在更多領域大放異彩,也將開啟雲端計算產業鏈新一輪的景氣週期。

 

點選關注,第一時間瞭解華為雲新鮮技術~

相關文章