AI告別鬼畫符!快手可圖和國外寫字小能手Ideogram打擂臺,誰更牛?

机器之能發表於2024-07-15

機器之能報導

編輯:楊文

快手AI,步履不停。

最近,快手出盡風頭。

OpenAI 當家花旦 Sora 的公測還遙遙無期,快手就率先祭出了可靈。憑藉其逼真、高畫質、不輸 Sora 的視覺效果,一下子成了全球網友的新寵。

據快手稱,可靈申請使用者數量已經接近 70 萬,目前已開放給超 30 萬使用者使用。

趁著熱乎勁,快手又馬不停蹄地上線了可靈網頁版。

老鐵們拿它各種整活兒 ——

蒙娜麗莎戴墨鏡:

圖片

容嬤嬤喂紫薇吃雞腿:

圖片

大胖橘端著高腳杯、翹著蘭花指喝紅酒:

圖片

甚至還給肯德基來了一波廣告植入:

圖片

不過呢,今天我們不聊可靈,而是嘮嘮快手的另一款明星產品 —— 可圖

在剛結束不久的 2024 世界人工智慧大會上,快手宣佈自研文生圖大模型可圖正式開源。

目前,可圖已在 Huggingface 平臺和 GitHub 上線,包括模型權重和完整程式碼,供個人開發者免費使用。

  • 官網地址:

https://kwai-kolors.github.io/

  • Github 專案地址:

https://github.com/Kwai-Kolors/Kolors

  • Huggingface 模型地址:

https://huggingface.co/Kwai-Kolors/Kolors

  • 技術報告地址:

https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf

對於技術小白來說,如果想嚐鮮,可以直接登入可靈網頁版,使用「AI 圖片」功能。

可靈網頁版:https://klingai.kuaishou.com/


-1-

實測:能寫漢字、英文,還能一鍵生成影片

別看大模型能說會道,其實此前還是個不會寫字的「文盲」,無論是漢字還是英文,只要 AI 生成的,八成是「鬼畫符」。

這樣的:

圖片

或者這樣的:

圖片

而可圖大模型不僅能刻畫豐富的細節,進行多種風格轉化,其最大的亮點是 ——

會寫字!

據介紹,可圖支援中英文雙語,生成效果比肩 Midjourney-v6 水平,具備英文和中文寫字能力。

其中,為了更好地理解中文,快手稱可圖大模型透過數十億中文語料的訓練,構建了一個強大的中文 CLIP 模型。

其玩法也很簡單。

點選可靈網頁版連結,進入操作介面後,選擇「AI 圖片」,使用者只需輸入提示詞、調整比例大小或者上傳參考圖。其中可圖支援長達 256 字元的文字輸入。

圖片

文生圖功能

例如,我們輸入提示詞:復古攝影寫真,80 年代的 MTV 風格,多巴胺的色彩裝飾,背景是室內復古電視,電視中寫著中文“機器之能”,一把綁著粉色蝴蝶結的叉子,一個草莓蛋糕,電視廣告,80 年代流行文化,柔光。

圖片
圖片

提示詞:可愛的蜥蜴,穿著環衛工的衣服,一隻手拿著拖把一隻手拿著水桶。角色扮演遊戲,色彩鮮豔,對比度高,印刷紋理。特寫攝影,具有表現力的姿勢,柔和的彩色背景。

圖片
圖片

圖生圖功能

可圖還具備圖生圖功能,直接上傳一張參考圖片,然後輸入提示詞即可。

圖片

最終生成效果如下:

圖片
圖片
圖片
圖片

由於搭載在可靈網頁版上,可圖還可以將生成的圖片直接進行圖生圖。

例如,我們輸入提示詞:毛氈藝術,高畫質,毛氈材質,高階濾鏡,可愛,卡通,羊毛氈娃娃,名畫,梵高的自畫像。

十幾秒即可得到以下成果:

圖片
圖片
圖片
圖片

接著在生成的圖片中點選「墊圖」,即可使用參考圖功能。我們繼續輸入提示詞:小羊抱著一束玫瑰花,設定完引數,就能生成新圖片。

圖片

效果如下:

圖片
圖片

圖生影片

圖生影片功能玩法同理。

我們輸入提示詞:武林高手故宮貓,幾隻故宮貓穿著白色、紅色、黃色練功服,正在表演武術,美學造型,完美光影。

然後在生成的圖片中點選「生成影片」,即可進入圖生影片介面。

圖片

接著輸入提示詞、負向提示詞以及設定引數,靜待系統生成就 OK 了。

圖片

以下是生成影片效果:

AI告別鬼畫符!快手可圖和國外寫字小能手Ideogram打擂臺,誰更牛?

影片連結:https://mp.weixin.qq.com/s/6RapxTDfCfouZsN7v3MYog

-2-

快手可圖單挑Ideogram:狹路相逢誰更勇?

恰好,國外也有一款擅長寫字的 AI 文生圖應用 ——Ideogram。

這款應用被稱為 Midjourney 和 Stable Diffusion 的「勁敵」,由前 Google 工程師創立,矽谷 AI 大神投資,去年 8 月面世,2 月底釋出了最新的模型。

Ideogram 連結:

https://ideogram.ai/t/explore

圖片

釋出之初,該應用打出的招牌就是「能生成各式字型」,這正好與快手可圖的亮點不謀而合。

值得注意的是,無論是快手可圖還是 Ideogram,要想在圖片中自定義文字,則需要在提示詞中加上一段「咒語」。

快手可圖咒語:寫著中文「xxxx」。

Ideogram 咒語:With the text 「xxxx」,風格選中「typography(排版)」。

如此一來,就能生成帶有「xxxx」文字的圖片。

接下來,我們就讓這兩家產品進行同臺 PK。

Round 1:寫字能力

【寫中文】提示詞:一隻卡通小狗,身上掛著一個木牌,上面寫著 “可愛” 兩個字。

快手可圖:

圖片
圖片
圖片
圖片

Ideogram:

圖片
圖片
圖片
圖片

【寫英文】提示詞:一個生日蛋糕,上面插著生日蠟燭,寫著 “Happy Birthday”。

快手可圖:

圖片圖片

Ideogram:

圖片圖片

Round 2:多樣風格

提示詞:攝影人像,寫真,東方面孔的羊毛卷長髮美女,穿著復古的服裝,鮮花點綴在頭髮上面,高階濾鏡,復古,藍色背景。

快手可圖:

圖片圖片
圖片圖片

Ideogram:

圖片圖片
圖片圖片

提示詞:卡通插畫,一個咖啡店內,一個東方面孔的女孩坐在窗邊的位置寫作,桌子上有咖啡、書本和花朵,c4d,oc 渲染,逼真細節,超高畫質,8k,完美構圖,電影燈光,浪漫溫馨的畫面,甜美。

快手可圖:

圖片圖片
圖片圖片

Ideogram:

圖片圖片
圖片圖片

提示詞:純黃色背景上排列著一些夏堇和綠葉,菲爾・科赫風格,水滴,浪漫場景,顆粒感,重複。

快手可圖:

圖片圖片
圖片圖片

Ideogram:

圖片圖片
圖片圖片

經過多次測評,我們發現快手可圖和 Ideogram 各有優勢。

快手可圖在中文生成方面確實驚豔,基本告別「鬼畫符」,英文也能生成,不過有時會寫錯字;而 Ideogram 只懂英文,對於中文那是一竅不通。

從生成風格來看,Ideogram 提供 18 種風格,使用者可任意選擇,而快手可圖則只能按照提示詞中的風格生成。

不過,快手可圖作為中國人自己的繪圖模型,其逼真度更強,尤其是人物特寫,Ideogram 畢竟是外國產品,生成的東方女子要麼有外國人的影子,要麼不咋好看。

此外,二者的生成速度相差不大,10 多秒就能出圖。快手可圖可調整每次生成圖片數量,最多不超過 9 張,Ideogram 每次固定可生成 4 張。

最關鍵的一點是,目前快手可圖仍是免費使用,而 Ideogram 每日只有十次免費生成機會。


-3-

「一戰成名」的快手

這段時間,快手重押 AI,狠砸真金白銀,埋頭搞大模型和 AI 應用。

別看此前不顯山不露水,一出手就豔驚四座。

先是對標 Sora 的 AI 影片生成應用可靈一戰成名,接著 AI 生圖模型可圖備受好評,最近開源的、擅長擠眉弄眼的 LivePortrait 模型火遍國內外。

圖片

其實,快手的 AI 佈局遠不止於此。

例如,AI 廠商們掀起百模大戰時,快手也推出了自家大模型 —— 快意大模型;Suno 領銜的 AI 音樂生成紅透半邊天,快手加碼旗下的 K 歌 APP 回森,推出 AI 美音功能。

此外,還有 AI 剪輯應用快剪、AI 特效創作產品必揚、AI 社交應用快崽以及嵌在快手短影片 APP 裡的 AI 玩評功能等。

不得不說,曾經「土味」的快手,如今在 AI 的加持下顯得高階了不少。

不過,以 AI 圈日新月異的迭代速度,快手的 AI 之路還得步履不停……

以後我們會帶來更多AI大模型、AI應用的一手評測,也歡迎大家進群交流。


圖片

相關文章