速來!潞晨Open-Sora羊毛可薅,10元輕鬆上手影片生成

机器之心發表於2024-07-01
近期,影片生成模型賽道火熱,文生影片,圖生影片,花樣層出不窮。然而,儘管市場上模型眾多,大部分人還是因為沒有內測資格無法體驗,只能望 “模” 興嘆。前不久我們報導過潞晨科技的 Open-Sora 模型,作為全球首個開源類 Sora 模型,它不但在多種型別的影片上表現優異,還主打低成本且人人可用。它好用嗎?怎麼用?一起來看看機器之心的測評。

最近 Open-Sora 全新開源的 1.2 版本,可以生成最長 16s 的 720p 高畫質影片,官方影片效果如下:速來!潞晨Open-Sora羊毛可薅,10元輕鬆上手影片生成

這個生成的效果確實驚豔,也難怪後臺那麼多讀者想要上手體驗。

對比一眾閉源軟體,需要排長隊等候內測資格,這個完全開源的 Open-Sora 顯然更加易得。但是,在 Open-Sora 的官方 Github 上,密密麻麻全是技術和程式碼,要想自己部署體驗,且不說模型對硬體要求高,配置環境時對使用者的程式碼功底也是不小的挑戰。

那麼有沒有什麼辦法,讓 AI 小白使用者也能輕鬆使用 Open-Sora 呢?

先上結論:有,而且可以一鍵部署,啟動後還能零程式碼控制影片長度、畫幅、鏡頭等引數。

心動了嗎?那就讓我們一起看看,要如何實現 Open-Sora 的部署。文末有保姆級的詳細教程和使用地址,無需任何技術背景就能操作。

基於 Gradio 的視覺化方案

有關 Open-Sora 的最新技術細節,我們曾經做過一篇深度報導。在報導中,我們重點討論了 OpenSora 模型的核心架構和其創新的影片壓縮網路(VAE)。在那篇文章末尾,我們提到,潞晨 Open-Sora 團隊提供了可以自行一鍵部署的 Gradio 應用。那麼,這個 Gradio 應用具體是什麼樣呢?

Gradio 本身是一個 Python 包,專為機器學習模型的快速部署而設計。它允許開發者透過定義模型的輸入和輸出,自動生成一個網頁介面,從而簡化了模型的線上展示和互動過程。

我們仔細閱讀了 Open-Sora 的 GitHub 首頁,發現該應用將 Open-Sora 模型與 Gradio 有機地結合起來,提供了一個優雅簡潔的互動方案。

圖片

它採用影像介面,使操作更簡單。在介面中,使用者可以自由修改生成影片的時長、長寬比和解析度等基礎引數,同時還能自主調節生成影片的運動幅度、美學分數和更高階的鏡頭移動方式。它還支援呼叫 GPT-4 對 prompt 進行最佳化,因此,可以同時支援中文和英文文字輸入。

在部署好該應用後,使用者在使用 Open-Sora 模型時則不需要編寫任何程式碼,只需要輸入 prompt 和點選替換引數,即可嘗試不同的引數組合生成影片。生成的影片也將直接展示在 Gradio 介面中,可以直接在網頁端下載,無需配備複雜的路徑。

圖片

圖片來源:https://github.com/hpcaitech/Open-Sora/blob/main/assets/readme/gradio_basic.png

我們注意到,潞晨 Open-Sora 團隊已經在 Github 中提供了將模型與 Gradio 適配的指令碼,並且也提供了部署的命令列程式碼。然而,我們仍需要經歷複雜的環境配置,才能成功執行部署程式碼。如果我們想完整體驗 Open-Sora 的功能,尤其是生成長時間高解析度(比如 720P 16 秒)的影片,更是需要效能好視訊記憶體大的顯示卡(官方使用的是 H800)。Gradio 方案似乎沒有提到如何解決這兩個問題。

這兩個問題乍看十分棘手,卻能被潞晨雲完美地解決,真正實現了無需技術輕鬆部署。如何上手?機器之心這裡有一份超簡單的教程。

超簡單的一鍵部署教程

在潞晨雲上部署 Open-Sora 有多簡單呢?

首先,潞晨雲提供多型別的顯示卡,其中,A800 和 H800 這樣的高階顯示卡也可以輕鬆租到。經我們測試,這種 80GB 視訊記憶體的卡,單卡就可以滿足 Open-Sora 專案的推理需求。

其次,潞晨云為 Open-Sora 專案配備了專屬映象。這個映象就像可以拎包入住的精裝房,全套執行環境可以一鍵啟動,省去了複雜的環境配置環節。

最後,潞晨雲還有超優惠的價格和超人性化的服務。一張 A800 的卡每小時價格不到 10 元,初始化映象的時間全部不計費,雲主機隨時關機停止計費。換句話說,不到 10 元 / 時,即可充分享受 Open-Sora 帶來的驚喜體驗!除此之外,我們還放了一個 100 元優惠券的獲取方式在文末,趕緊註冊賬號薅上券,跟著我們的教程開整吧!

圖片

潞晨雲網址:https://cloud.luchentech.com/

首先,進入網址在潞晨雲上註冊賬號。一進入主頁面,就可以直接看到算力市場的可租賃機器。領上優惠券,或者充值 10 元錢,就能跟著潞晨雲的使用者指南,開始建立雲主機。

第一步是選擇映象。一開啟公共映象,點開第一個就是 OpenSora (1.2),真是方便至極。

圖片

第二步是選擇計費方式。計費方式有兩種,潮汐計費和按量計費。我們試用後發現潮汐計費更省錢,在空閒時段 A800 的價格還能更低!

圖片

圖片

對於 Open-Sora 的推理,一張 A800 足夠了,我們選擇了 1 卡配置,並且允許了 SSH 連線、儲存持久化,還掛載了公開資料(包括模型權重)。這些功能都不額外收費,還能提供更多便利,超級良心。

選好後點選建立,雲主機啟動的時間非常短,幾十秒內機器就起來了。這段時間是不計費的,所以如果遇到比較大的映象等待時間較長時也不必擔心費用問題。

圖片

第三步,我們從雲主機頁面點選 JupyerLab, 進入網頁。一進去就給我們開啟了一個終端。

我們輸入 ls,檢視雲主機的檔案,可以看到 Open-Sora 這個資料夾就在初始路徑處。

圖片

由於我們使用的是 Open-Sora 專屬映象,我們無需額外安裝任何環境。最耗時的這一步被完美地解決了。

圖片

這時候,我們直接輸入執行 Gradio 的命令,就可以快速啟動 Gradio,真正實現了一鍵部署。

Bash
python gradio/app.py

速度非常快,只要十多秒,Gradio 就跑起來了。

不過,我們發現,這個 gradio 是預設在伺服器的 http://0.0.0.0:7860 上跑,要想在自己本地的瀏覽器用,得先把自己的 ssh 公共秘鑰加入到潞晨雲的機器中。這一步也很簡單,只要進入下面這個檔案,貼上本地機器的秘鑰進去就行。

圖片

接著,我們還需要寫上本地完成埠對映指令,我們可以照著這個截圖中的指令來寫,大家使用的時候需要替換成自己雲主機的具體地址和 port。

圖片

接著,開啟對應網頁,很快就出現了視覺化操作介面。

圖片

我們先隨意輸入了一個英文提示,點選開始生成 (用了預設的 480p,速度會快一些)。

圖片

a river flowing through a rich landscape of trees and mountains (一條河流流經茂密的樹木和山脈)

很快生成就完成了,耗時約 40 秒。生成結果整體還不錯,有河有山有樹木,和指令符合。但是我們期待的是雄鷹從高處俯瞰的效果。速來!潞晨Open-Sora羊毛可薅,10元輕鬆上手影片生成

沒關係,調整了指令再來一次:

圖片

a bird's eye view of a river flowing through a rich landscape of trees and mountains (鳥瞰河流流經樹木和山脈的豐富景觀)

這次生成的內容果然帶上了鳥瞰效果。不錯,這個模型還是很聽話的。速來!潞晨Open-Sora羊毛可薅,10元輕鬆上手影片生成

如前文所說,gradio 介面上還有很多其他選項,比如調整解析度、畫幅長寬比、影片時長,甚至還能控制影片的動態效果幅度等,可玩性非常強,我們測試時使用的是 480P 解析度,而最高可支援 720P,大家可以逐個嘗試,看看不同選項搭配的效果。

想要進階?微調也能輕鬆上手

此外,繼續深挖 Open-Sora 的網頁,我們發現他們還提供了繼續微調模型的程式碼指令。使用自己喜歡的型別的影片微調模型的話,就能讓這個模型生成更符合我的審美要求的影片了!

圖片

讓我們用潞晨雲的公開資料中提供的影片資料來驗證一下。

圖片

由於環境全都是配置好的,我們只需複製貼上訓練指令。

torchrun --standalone --nproc_per_node 1 scripts/train.py configs/opensora-v1-2/train/stage1.py --data-path /root/commonData/Inter4K/meta/meta_inter4k_ready.csv

這邊輸出了一連串模型訓練的資訊。

圖片

訓練已經正常啟動了,居然只要單卡就能訓!

( 踩坑提示:在此之前我們遭遇了一次 OOM, 結果發現程式掛了以後視訊記憶體依舊被佔用,然後發現是忘記關閉上一步 Gradio 的推理了 ORZ,所以大家用單卡訓的時候一定要記得關掉 Gradio,因為 Gradio 上面載入了模型一直在等待使用者輸入來進行推理)。

圖片

以下是我們訓練的時候 GPU 資源佔用情況:

圖片

簡單算一筆賬,訓練一步大約耗時約 20 秒,根據 Open-Sora 提供的資料,訓練 70k 步(如下圖所示),那他們耗時大約在 16 天左右,和他們文件中聲稱的 2 周左右相近(假設他們的所有機器各完成一個 step 的時間和我們這臺機器相似)。

圖片

在這 70k 步中,第一階段佔 30k 步,第二階段佔 23k 步,那第三階段其實只訓練了 17k 步。而這個第三階段,就是用高質量影片進行微調,用來大幅度提升模型質量,也就是我們現在想要做的事情。

圖片

不過,從報告中看,他們的訓練使用了 12 臺 8 卡機器,所以如果我們用潞晨雲平臺訓練和第三階段相同的資料量,大約需要:

95 小時 * 8 卡 * 12 臺 * 10 元 / 小時 = 91200 元

這個數字對於測評來說還是有點門檻的,但是對於打造一個專屬的文生影片大模型來說也太划算了。尤其是對於企業來說,基本不需要什麼前期準備工作,按照教程一步步走,就可以用不到十萬塊的價格甚至更少完成一次微調。真的很期待能看到更多 Open-Sora 在專業領域的強化版!

最後,放上我們前面提到的 100 元優惠券福利活動~儘管我們本次測評成本不到 10 元,但是羊毛該薅還得薅!

從潞晨雲官方資料看到,使用者在社交媒體和專業論壇(如知乎、小紅書、微博、CSDN 等)上分享使用體驗(帶 #潞晨雲@潞晨科技),有效分享一次可得 100 元代金券(有效期一週),換算成我們測評時生成的這種影片,相當於五六百個~

圖片

最後,我們整理了相關的資源連結放在下面,方便大家快速上手。想要立刻嘗試的小夥伴們,點選閱讀原文即可一鍵傳送,開啟你的 AI 影片旅程!

相關資源連結:

潞晨雲平臺:https://cloud.luchentech.com/

Open-Sora 程式碼庫:https://github.com/hpcaitech/Open-Sora/tree/main?tab=readme-ov-file#inference

Bilibili 教程:https://www.bilibili.com/video/BV1ow4m1e7PX/?vd_source=c6b752764cd36ff0e535a768e35d98d2

相關文章