? 作者:韓信子@ShowMeAI
? 深度學習實戰系列:https://www.showmeai.tech/tutorials/42
? 本文地址:https://www.showmeai.tech/article-detail/413
? 宣告:版權所有,轉載請聯絡平臺與作者並註明出處
? 收藏ShowMeAI檢視更多精彩內容
? 引言
人工智慧影像生成器現在風靡一時。雖然 ?Dall-E2、 ?MidJourney和 ?Stable Diffusion目前處於中心舞臺,但是百度開發的開源 AI 影像生成器 ?ERNIE-ViLG 也在網際網路上流傳。
? ERNIE-ViLG 是什麼
ERNIE 代表透過知識整合增強表示——視覺語言生成。它是一個統一的生成預訓練框架,用於使用 Transformer 模型進行雙向影像文字生成。
需要明確的是,ERNIE 並不是 Stable Duffusion 的一個變體版本,儘管這兩種模型都是開源的。根據 ?ERNIE論文,ERNIE-ViLG 2.0 是一種改進的文字到影像擴散模型,具有知識增強的去噪專家組合,以結合有關視覺場景的額外知識,並在不同步驟中解耦去噪能力。
? ERNIE-ViLG 使用方法
現在可以透過 huggingface 免費訪問該模型。我們可以在 ?ERNIE-ViLG Demo 檢視工具例項。
介面非常簡單:可以看到經典的提示框,各種藝術風格的選擇,以及影像解析度。在藝術風格方面,ERNIE 提供了一些有趣的選擇。這讓我想起了 ?Dream by WOMBO 中的一個類似功能。
讓我們用提示“An astronaut riding a horse in space”來生成樣本。
該應用程式生成六張解析度為 1024x1024 的影像。
ERNIE 的研究人員聲稱,他們的方法比 Dall-E2 和 Stable Diffusion 產生更清晰、更自然的細節。
真的嗎?現在讓我們嘗試將藝術風格更改為“油畫”。
這些結果本身都非常驚豔。
質量上,ERNIE 可以與 Dall-E2 和 Stable Diffusion 相媲美。但是,它在一致性方面表現不佳,就像在上面提到的,其中兩個結果中的馬無處可尋。這可能是訓練ERNIE的資料集較小所致。
不過,如果仔細考慮資料集的大小,訓練了 14.5 億張影像的 ERNIE 與 MidJourney、Google Parti 等大型競爭對手的差距並不大。
也許開發人員找到了一種最佳化演算法的方法,使其能夠在較小的資料集上執行良好。我假設如果模型是在更大的資料集上訓練的,現有的限制就會消失。
需要特別注意的是,ERNIE 是用中文開發的。這意味著,在開始影像生成過程之前,必須將英文提示翻譯成中文。當然,使用中文的寶寶可以盡情玩耍~
這裡有更多示例結果。
上圖提示文字:“戴眼鏡的貓”風格“油畫”
上圖提示文字:“五官端正的繪畫女生”
? API 訪問 ERNIE-ViLG
您可以透過 API 訪問 ERNIE。如果您想嘗試使用 API,請按照這個 ?GitHub 上的指南進行操作。
示例 API 呼叫如下所示。
def generate_image(
text_prompts:str,
style: Optional[str] = "探索無限",
topk: Optional[int] = 6,
output_dir: Optional[str] = 'ernievilg_output')
text_prompts
:輸入提示style
:生成影像的風格topk
:生成影像的數量(最多 6 個)output_dir
:儲存輸出影像的目錄
ERNIE 的使用指南還有一個建議列表,可幫助您找到結合使用樣式和修飾符的最佳方式。
- 【作圖規則】Prompt構建是文字符合邏輯的組合,有序且豐富的描述可以不斷提升畫面效果
- 【新手入門】不知如何輸入Prompt?點選示例,體驗文生圖的魅力,參考教程,逐步進階~
- 【風格生成】試試新增 “國潮”、“國風”等,感受中國風的魅力
- 【風格生成】試試混合兩種代表性的風格,例如“賽博朋克,扁平化設計”、”皮克斯動畫,賽博朋克”
- 【人像生成】新增“仙鶴、月亮、樓閣、小屋、街道、玫瑰、機械”,畫面會更飽滿
- 【人像生成】新增“精緻面容、唯美、cg感、細節清晰“等,人物刻畫會更細緻
- 【風格生成】新增“扁平化風格,logo”等,可以設計出各類圖示等,例如 “貓貓頭像,扁平化風格”
- 【風格生成】指定顏色,或新增“煙霧繚繞”、“火焰”、“煙塵”、“花瓣”,生成畫面的氛圍感更飽滿
- 【創意生成】發揮想象力,例如:“中西混搭”、“泰迪熊唱京劇”、“米老鼠吃火鍋”
- 【風格生成】“水彩”,“水墨”與古詩組合,畫面意境會有提升~
- 【風格生成】想要日系頭像和擬人化動物?試試關鍵詞“日系手繪”、“治癒風”
- 【風格生成】新增“pixiv”,生成二次元或者動漫的畫質更驚豔
參考資料
- ? Dall-E2
- ? MidJourney
- ? Stable Diffusion
- ? ERNIE-ViLG
- ? ERNIE論文
- ? ERNIE-ViLG Demo
- ? Dream by WOMBO
- ? PaddleHub ERNIE-ViLG GitHub
推薦閱讀
? 資料分析實戰系列:https://www.showmeai.tech/tutorials/40
? 機器學習資料分析實戰系列:https://www.showmeai.tech/tutorials/41
? 深度學習資料分析實戰系列:https://www.showmeai.tech/tutorials/42
? TensorFlow資料分析實戰系列:https://www.showmeai.tech/tutorials/43
? PyTorch資料分析實戰系列:https://www.showmeai.tech/tutorials/44
? NLP實戰資料分析實戰系列:https://www.showmeai.tech/tutorials/45
? CV實戰資料分析實戰系列:https://www.showmeai.tech/tutorials/46
? AI 面試題庫系列:https://www.showmeai.tech/tutorials/48