實測最新文生圖神器「FLUX.1」:「手刃」Midjourney?早了點

机器之能發表於2024-08-05

機器之能報導

編輯:楊文

FLUX.1強在文字生成上,Midjourney贏在審美和質感上。

Stable Diffusion 這個團隊,用一句話形容就是:

聚是一團火,散是滿天星。

最近,Stable Diffusion 作者之一 Robin Rombach 官宣創業,成立了新公司「Black Forest Labs」(黑森林實驗室),並推出了最新文生圖模型「FLUX.1」。

這個模型有多牛?看效果:

圖片

Prompt:a portal into a mythical forest on the wall of my small messy bedroom.

中文提示詞:凌亂的小臥室牆上有一個通往神秘森林的入口。

圖片

Prompt:photograph of a beautiful cafe in Freiburg.

中文提示詞:弗萊堡一家美麗咖啡館的照片。

X 網友 @MrDavids1 則用它搞了個微縮版動物世界。他先用 FLUX 生成逼真的動物,然後用可靈將其動起來。

實測最新文生圖神器「FLUX.1」:「手刃」Midjourney?早了點

影片連結:https://mp.weixin.qq.com/s?__biz=MzUyODA3MDUwMA==&mid=2247521732&idx=1&sn=032a4e1560f734abe2e99bad286cfc07&chksm=fa7737cfcd00bed994de2f1405f5af501c5a2e5f3dd3a8b78a29a934557aa28b827dbacceaa8&token=341744717&lang=zh_CN#rd

有網友表示,FLUX.1 最讓人印象深刻的就是語言理解和文字控制能力,基本告別「鬼畫符」。

圖片

還有網友表示,它將拳打 Midjourney,腳踢 Stable Diffusion,成為引領市場的另一「霸主」。

圖片

關鍵是,它不需要部署,目前還免費。

它的實力究竟如何?我們就來實地體驗一番,並讓它和 Midjourney 線上「掰頭」。

大家有啥想法,也可以評論區聊聊。


-1-

評測:告別「鬼畫符」,但還是「六指狂魔」

FLUX.1包含了三個變體模型:實力最強的 Pro 版本、dev 版本和速度最快的 schnell 版本。使用者均可在 Replicate 和 fal.ai 上訪問。

免費體驗地址:

  • https://replicate.com/black-forest-labs/flux-pro
  • https://fal.ai/models/fal-ai/flux-pro

我們先單獨考考 FLUX.1,測試內容包括文字生成能力、多風格能力。

文字生成能力

Prompt:realistic minion holding a sign that says "Good morning!" and showing the middle finger to the front,quality details, hyper realistic,high definition,8K, photo.

提示詞 1: 逼真的小黃人舉著一個寫著 “Good morning!” 的牌子,並向前方伸出中指,高質量的細節,超逼真,高畫質,8K,照片。

圖片

Prompt :A high-resolution photograph of a weathered, historical brick wall with a rough, hammer-carved inscription of "Never give up on yourdreams"

提示詞 : 這是一張高解析度的照片,一張風化的歷史磚牆的照片,上面刻有粗糙的文字“Never give up on yourdreams”。

圖片

Prompt :Steve Jobs wears T-shirt with the text “stay hungry stay foolish”, hand write, cinematic, photo.

提示詞 : 史蒂夫・賈伯斯穿的 t 恤上寫著 “stay hungry stay foolish”,手寫,電影,照片。

圖片

多風格能力

Prompt :A whimsical arrangement of pink roses, pastel tulips, and baby's breath in a vintage watering can, ideal for a garden party.

提示詞:復古噴壺中異想天開地擺放著粉紅玫瑰、柔和的鬱金香和滿天星,非常適合花園派對。

圖片

Prompt :Elon Musk caricature, in the style of michael hussar, caricature faces, angelina wrona, dark white and azure, expressive eyes, celebrity-portraits, high resolution,9:16.

提示詞 : 埃隆・馬斯克的漫畫,michael hussar 風格,漫畫臉,angelina wrona,深白和天藍色,富有表現力的眼睛,名人肖像,高解析度,9:16。

我們還讓它生成了一張川普同風格漫畫圖片。

圖片
圖片

Prompt :pretty Asian woman was holding the flowers in her hands, Korean Model, real photo style, full body shot.

提示詞:漂亮的亞洲女子手捧鮮花,韓國模特,真實照片風格,全身拍攝。

圖片

Prompt:A simple cartoon drawing of an open food truck on grass, with the door open and shelves filled inside, set against a blue sky and white clouds.The background is a green meadow, with some trees in soft focus to add depth. There is no text or characters visible, focusing solely on the scene. It has bold outlines for clear definition, with a flat color scheme to emphasize simplicity.This design would be suitable as clipart, featuring clean lines and flat colors in the style of a simple cartoon,1:1.

圖片

整體來說,FLUX 的文字生成能力確實驚豔,尤其是小黃人舉著「good morning」牌子那張圖,字型清晰,拼寫正確,基本解決了 AI 不會寫字的難題。

不過,FLUX 似乎仍然不會畫手,例如「亞洲女孩」那張圖,儘管人物表情自然逼真,但它最大的 bug 就是手指畸變。


-2-

兩大神器線上 PK

接下來,我們請出實力最強勁的FLUX.1 Pro 版本和 Midjourney 鬥鬥法。(左圖為 FLUX.1 pro,右圖為 Midjourney。)

Prompt:"HAPPY" letters made by balloons, realistic, simple background.

圖片

Prompt:One girl, long hair, model, white background, white shirt, khaki Capri pants, khaki loafers, sitting on a stool, lazy pose, slightly tilting head, smiling, Asian beauty, loose-fitting clothes, hands placed in front of body, slightly raised foot, half-body shot, Canon R5 camera style, blurred background, indoor, natural light, some sunlight shining on the face,9:16.

圖片

Prompt:Flat illustration of a girl, background in avocado green, minimalist art, white dress, red lipstick, alluring gaze, green vintage earrings, profile view, soft lighting, muted tones, serene ambiance.

圖片

Prompt:Adult boy, successful person, Asian, happy,solid color background, C4D rendering, Pixar,9:16.

圖片
圖片

Prompt:flower on smooth pebbles, in a spa background, with a spa concept, with water drops on the stones, in the style of a spa relaxation wallpaper, with a spa nature theme, for a spa design,16:9.

圖片
圖片

Prompt:a very beautiful girl in the bus window, photorealism, perspective,9:16.

圖片
圖片

Prompt:An oil pinting of a black greyhound dog lay down in a field of grass and lots of flowers of different colors. There is a sunset back in the field,3:2.

圖片
圖片

對比了一番後,我們發現,這二者可以說各有拿手之處。

Midjourney 贏在審美和質感上,最典型的例子就是最後一幅油畫風格的「狗狗躺在田野裡」。

Midjourney 生成的畫面更具氛圍感,用色大膽舒服,幾乎看不出來 AI 痕跡,而 FLUX 的畫面則有股 AI 味,而且稍顯單調。

Flux 則在文字理解和提示詞遵循能力方面能力更強,例如第一幅用氣候製作的「HAPPY」字樣,Flux 明顯體現出氣球元素。


-2-

網友們的「奇思異想」

X 網友 Dogan Ural 也讓二者對比了下。

例如,泳池邊的紅髮女人:

圖片

30 多歲的帥氣男人:

圖片

瘋狂的藝術家:

圖片

深海新物種:

圖片

龍的油畫:

圖片

有廣告牌的未來世界:

圖片

一種對於時間的抽象主義:

圖片

該網友表示,被稱為「Midjourney 殺手」的 FLUX ,確實有一些優點,比如極其豐富的影像細節、極強的 prompt 遵循能力和多樣化風格.

然而,鑑於 Midjourney 卓越的美學和編輯能力,FLUX 不會很快超越它。

圖片

網友 @javilopen 認為,FLUX 對複雜提示詞的理解相當到位。

他舉了個例子,左圖:聯誼會金髮少女,真實攝影,穿著比基尼在熱帶島嶼;右圖:在熱帶島嶼上穿著比基尼的狗頭女生聯誼會金髮少女,真實攝影。

最終的效果如下:

圖片
圖片

再如 Prompt: huge bird inside a bottle, raining inside the room and a boy with an umbrellam, studio ghibli style.(瓶子裡有一隻巨大的鳥,房間裡下著雨,一個打著雨傘的男孩,吉卜力工作室風格)

圖片

FluX 在建立超現實影像方面做得也非常出色。

圖片

圖片

圖片

不過,有眼尖的網友發現,第二張圖片有 5 個手指、6 個指甲。

圖片

該 Lab 表示,下一步的目標是推出所有人可用的 SOTA 文生影片模型,大家可以狠狠期待了!

圖片

圖片

目前,該 Labs 已經完成 3100 萬美元的種子輪融資,由 Andreessen Horowitz 領投。

其他投資者包括了天使投資人 Brendan Iribe、Michael Ovitz、Garry Tan、Timo Aila、Vladlen Koltun 以及一些知名 AI 研究和創業專家。

此外它還獲得了來自 General Catalyst 和 MätchVC 的後續投資。

想了解該公司更多資訊及技術報告,請移步機器之心檢視《全員離開老東家,Stable Diffusion 一作帶團創業,出手即擊敗 MJ v6、SD3,還開源》

Replicate 體驗地址:

  • https://replicate.com/collections/flux
  • https://replicate.com/black-forest-labs/flux-pro
  • https://replicate.com/black-forest-labs/flux-dev
  • https://replicate.com/black-forest-labs/flux-schnell

FAL 體驗地址:

  • https://fal.ai/models/fal-ai/flux-pro
  • https://fal.ai/models/fal-ai/flux/dev
  • https://fal.ai/models/fal-ai/flux/schnell

以後我們會帶來更多AI大模型、AI應用的一手評測,也歡迎大家進群交流。


圖片

相關文章