以大模型、AIGC為代表的人工智慧浪潮已經在悄然改變著我們生活及工作方式,但絕大部分人依然不知道該如何使用。 因此,我們推出了「AI在用」專欄,透過直觀、有趣且簡潔的人工智慧使用案例,來具體介紹AI使用方法,並激發大家思考。 我們也歡迎讀者投稿親自實踐的創新型用例。
最近,AI 圈颳起一股「讓照片開口唱歌」的風潮。
例如,讓黴黴唱碧昂絲《Halo》的 Hallo、史丹佛創業團隊的 Proteus、以及之前阿里出品的 EMO。
就在昨天,又有一家名為 Hedra 的公司前來踢館,推出了基礎模型 —— Character-1 。
關鍵是,人人免費可用。
網友們已經玩瘋了。
讓女版馬斯克唱安妮・海瑟薇寫給狗仔隊的 Rap:
讓垃圾桶、土豆人開口說話:
也有網友開始製作動畫片:
AI 電影製作人 @Uncanny_Harry 則用它製作了卡通角色 Dave,送上一份遲到的父親節禮物,並稱「這是我所見過的 AI 生成影片中最接近真實表演的作品」。
據他本人介紹,他先用 Midjourney 生成一張圖片,然後使用 ElevenLabs 的聲音轉換技術,以及 Hedra,最終創造了 Dave 這一角色。
由於效果相當驚豔,不少網友直呼:愛慘它了,口型同步令人驚歎。
-1-
傻瓜級玩法
據官方介紹,與其他競品相比,Hedra 主要有三大優勢:
免費體驗,不過公測期間每條影片最長不超過30秒;
生成速度快,每分鐘可生成 90 秒內容,前提是他們 H100 供應充足;
角色表情豐富,能夠流暢地進行對話、歌唱、說唱。
其玩法也很簡單。使用者只需上傳一張圖片,再生成一段音訊,就能讓它開口說話或唱歌。
Hedra 連結:https://www.hedra.com/
開啟上述連結,使用谷歌郵箱等註冊登入。
進入操作介面後,我們生成或上傳一段音訊。
值得一提的是,目前該應用主要支援中文和英文,而且中文效果會更好。
我們上傳一段搞笑段子音訊。
接著就是上傳或者生成一張圖片。官方還貼心地給出提示詞指南。
為了生成效果最佳,提示詞中儘量包括風格、角色特徵、相機視角、背景場景以及光線效果等內容。
例如,90s sitcom character,shoulders-up,in living room,soft lighting(90 年代情景喜劇角色,肩膀以上,客廳中,柔和光線)
Anime woman,2d,close-up on face,forest at night,cinematic lighting(動漫女性,2D 風格,面部特寫,夜晚森林背景,電影級照明)
Woman, cyberpunk, matte blackarmor, dirty face, close-up, citynight, no people(女性,賽博朋克風格,啞光黑色盔甲,髒汙的臉龐,特寫鏡頭,城市夜景,無人)
我們圖省事,只輸入:a beautiful girl,雖然提示詞簡單,但生成效果還不錯。
最後點選「Generate video」,稍等片刻即可生成一段影片。效果如下:
我們還讓奧特曼說了一段脫口秀:
妖嬈的「馬斯克」唱英文歌:
-2-
挑戰阿里 EMO
實際上,讓照片開口說話、唱歌早不是什麼新鮮事,去年爆火的類似產品就有 D-ID、Heygen ,還有兩個月前上線的阿里 EMO。
開啟通義千問 APP,在頂端的「頻道」欄目中,找到「全民舞臺 - 玩法升級」。
如果想讓照片跳舞,就選擇「全民舞王」,若是想讓其唱歌,則選擇「全民唱演」。
「全面唱演」可以讓照片生成老師語錄、爆款熱歌、網路熱梗以及表情包等。
我們從眾多模板中選擇一款,然後上傳圖片即可。
我們看一下效果:
明明模仿的是皇后娘娘痛哭流涕的片段,但這生成的人物笑靨如花是怎麼回事。
兩相比較,Hedra 的表現似乎更勝一籌。
首先,Hedra 給足了使用者自由。使用者既可用它生成音訊和圖片,也能夠上傳現有的音訊和圖片,而阿里的 EMO 目前無法自定義音訊,而且有時還無法上傳圖片,只能使用系統給定的模板。
其次,Hedra 生成速度極快,不到一分鐘即可生成一段 30 秒的影片,而阿里的 EMO 生成一段 9 秒影片需要耗費 12 分鐘。
最後,從畫面上來看,Hedra 的口型基本能對上,還能根據語調生成對應的表情,就是臉部有時會變形。
以後我們會透過新專欄帶來更多 AIGC 案例演示,也歡迎大家進群交流。