文生影片Sora模型釋出,是否引爆AI晶片熱潮

申公豹發表於2024-02-29
文生影片Sora模型釋出,是否引爆AI晶片熱潮    

1. 引言

在人工智慧的歷史長河中,每一次技術的飛躍都伴隨著社會生產力的巨大變革。自2015年以來,深度學習技術的突破性進展,尤其是在自然語言處理、影像識別和機器學習等領域的成功應用,已經徹底改變了我們對機器智慧的認識和期待。這些技術的進步不僅僅是理論上的突破,更是實際應用的革命,它們正在逐步滲透到我們生活的方方面面,從自動駕駛到智慧家居,從資料分析到內容創作。
在這樣的背景下,OPENAI最近釋出的Sora模型無疑是又一次令人矚目的里程碑。Sora模型基於擴散模型,能夠將簡單的文字描述轉換成為高質量的影片內容。這種能力不僅僅是技術上的創新,更是對影片製作、媒體傳播乃至整個娛樂產業的挑戰和機遇。

2. 前方警告,Sora來襲!

讓我們先來感受一下Sora的魔力

一位戴著尖頂帽,身披繡有白色星星的藍色長袍的巫師正在施法,他的一隻手射出閃電,另一隻手中拿著一本舊書。

在一間擁有電影級燈光設定的充滿托斯卡納鄉村風情的廚房裡,一位擅長利用社交媒體的奶奶,正在教你製作美味的自制諾奇面。

我們將帶你進行一次未來城市的街頭巡覽,在這裡,高科技與自然和諧共處,展現出一種獨特的賽博朋克風格。
這座城市潔淨無瑕,到處可見的是先進的未來式有軌電車、絢麗的噴泉、巨型的全息投影以及四處巡邏的機器人。
想象一下,一個來自未來的人類導遊正帶領一群好奇的外星訪客,向他們展示人類極致創造力的結晶——這座無與倫比、充滿魅力的未來城市。

此外,Sora還能在同一影片中設計出多個鏡頭,同時保持角色和視覺風格的一致性。

要知道,以前的AI影片,都單鏡頭生成的。

Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.
這是一部電影預告片,講述了30歲的太空人戴著紅色羊毛針織摩托車頭盔的冒險經歷,藍天,鹽沙漠,電影風格,用35毫米膠片拍攝,色彩鮮豔。

Prompt: Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.
「雪後的東京熙熙攘攘。鏡頭穿過繁忙的街道,跟隨著幾位享受著美麗雪景和在附近攤位購物的人們。美麗的櫻花瓣伴隨著雪花在風中飄舞。」

Sora根據這個提示所呈現的,便是東京在冬日裡夢幻的一幕。

無人機的鏡頭跟隨一對悠閒散步的情侶穿梭在街道上,左側是車輛在河岸路上行駛的聲音,右側是顧客在一排小店之間穿梭的景象。

Prompt: Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. The art style is 3D and realistic, with a focus on lighting and texture. The mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. Its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. The use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.
動畫場景特寫了一個毛茸茸的矮個子怪物跪在融化的紅燭旁。美術風格是3D和現實的,重點是照明和紋理。這幅畫的氣氛是一種驚奇和好奇,因為怪物睜大眼睛,張開嘴巴凝視著火焰。它的姿勢和表情傳達了一種天真和頑皮的感覺,好像它是第一次探索周圍的世界。暖色和戲劇性燈光的使用進一步增強了影像的舒適氛圍。

Prompt: A gorgeously rendered papercraft world of a coral reef, rife with colorful fish and sea creatures.
一個華麗的珊瑚礁紙工藝品世界,到處都是五顏六色的魚和海洋生物。

Prompt: Reflections in the window of a train traveling through the Tokyo suburbs.
一列火車穿越東京郊區時,窗戶上反射出的迷人景象。

Prompt: Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.
在雪地草原上,幾隻巨大的羊毛猛獁象緩緩前行,它們長長的毛皮在微風中輕輕飄揚。遠處是雪覆蓋的樹木和雄偉的雪山,午後的陽光穿透薄雲,給這個場景增添了一抹溫暖的光彩。低角度的拍攝令這些龐大的毛茸茸動物顯得尤為壯觀,景深效果引人入勝。

Prompt: Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach. The crashing blue waters create white-tipped waves, while the golden light of the setting sun illuminates the rocky shore. A small island with a lighthouse sits in the distance, and green shrubbery covers the cliff’s edge. The steep drop from the road down to the beach is a dramatic feat, with the cliff’s edges jutting out over the sea. This is a view that captures the raw beauty of the coast and the rugged landscape of the Pacific Coast Highway.
無人機從空中俯瞰大蘇爾加雷角海灘附近的崎嶇懸崖,海浪衝擊著岩石,形成白色的浪尖,落日的金色光輝照亮了岩石海岸。遠處有一個小島上立著燈塔,懸崖邊緣覆蓋著綠色植被。從道路到海灘的陡峭下降和懸崖邊緣凸出的景象,展現了海岸的原始美麗和太平洋海岸公路的崎嶇風景。

Prompt: Aerial view of Santorini during the blue hour, showcasing the stunning architecture of white Cycladic buildings with blue domes. The caldera views are breathtaking, and the lighting creates a beautiful, serene atmosphere.
藍色時刻下的聖托里尼島航拍檢視,展現了白色基克拉迪建築和藍色圓頂的絕美建築。火山口的景色令人歎為觀止,燈光營造出一種美麗而寧靜的氛圍。

Prompt: A young man at his 20s is sitting on a piece of cloud in the sky, reading a book.
一位20多歲的年輕人坐在天空中的一朵雲上,沉浸在書本中。

Prompt: A litter of golden retriever puppies playing in the snow. Their heads pop out of the snow, covered in.
一群活潑的金毛尋回犬小狗在銀白色的雪地上嬉戲,它們好奇的小腦袋時而從雪地中探出,被雪花點綴,萌態十足。

Prompt: The camera directly faces colorful buildings in burano italy. An adorable dalmation looks through a window on a building on the ground floor. Many people are walking and cycling along the canal streets in front of the buildings.
在義大利布拉諾一排排鮮豔的彩色建築中,一隻可愛的斑點狗正透過窗戶好奇地望向外面。與此同時,街道上人來人往,有的步行,有的騎行。

Prompt: Tiltshift of a construction site filled with workers, equipment, and heavy machinery.
一幅充滿工人、裝置和重型機械的建築工地的移軸攝影。

Prompt: A petri dish with a bamboo forest growing within it that has tiny red pandas running around
在一個培養皿中,生長著一片竹林,其中小熊貓們在歡快地奔跑。

Prompt: A cartoon kangaroo disco dances.
一隻卡通袋鼠正在迪斯科舞池中跳舞。

Prompt: Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.
在一杯咖啡中,兩艘海盜船展開了激烈的戰鬥,超寫實的近景影片。

當然也有一些詭異的輸出。

好在,它還並不完美。

否則,虛擬和現實的界限,還能區分得清嗎?

3. 淺析Sora的技術亮點

在Open AI給出的技術報告【1】中,筆者挖出了兩點Sora的技術要點,分享如下:
1-視覺資料基建----時空碎片(Spacetime Patches)
以chatGPT為例,大語言模型首先透過Embedding將人類語言“編碼”,然後透過注意力機制Attention提取各種豐富的知識和結構,以加權的形式學習並建立“關鍵詞”之間的聯絡,最後再“反編碼”,以人類的語言輸出返回結果。

語言模型中構建關鍵詞聯絡

語言模型中構建關鍵詞聯絡

與LLM-NLP思路一致,Sora的第一步是針對視覺資料的建模:首先將影片壓縮到一個低維的潛在空間,然後將其分解為時空碎片,這些“碎片”的集合作為Sora吃進的“語料”。這裡的“碎片”-Patches,等同於語言模型中的Tokens,它幫助Sora獲得了自然語言處理特性。

影片素材分解為時空碎片

影片素材分解為時空碎片

進一步,Sora團隊構建了“智慧字幕“模型DALL.E3,其建立起了Patches到Tokens之間的聯絡,實現了文字與影片的互譯。使得GPT豐富的文字資料被有效的應用於Sora的訓練,這極大地促進了Sora的誕生。
其次,由於Patches高度可擴充套件的表示特性,使得Sora能夠應用於廣泛的影像和影片編輯任務(影像就是厚度為1的影片,解析度、形狀等屬性變換都可以體現為Patches的排列組合)。
2-反向學習----擴散模型(Diffusion Transformers--DiT)【2】
擴散模型是一種深度生成模型,其基本思想就是透過一個可逆的過程,將結構化資料(如圖片)逐步轉化為無結構的噪聲資料,然後再逆向這個過程,從噪聲中恢復出原始資料或生成新的資料例項。簡而言之,就是讓模型從影像的模糊還原中學習影像生成。

在這裡插入圖片描述

而DiT相對於傳統的擴散模型做出瞭如下改進:
 使用Transformer替換U-Net,使得模型能夠更好的處理長距離依賴性;
 驗證了Transformer架構在擴散模型上的可擴充套件性,隨著模型計算複雜度的上升,生成質量穩步提升。
 使用Latent diffusion取代pixel diffusion,降低了模型計算量。

擴散模型DiT

擴散模型DiT

在Sora的技術報告中,OpenAI 稱Sora摒棄了“其他文生影片模型調整影片大小、裁剪或修剪到標準大小的通常做法”,以可變時長、解析度與長寬比來訓練影片生成,從而獲得了重要優勢。
從報告中展示的成果來看,Sora在影片生成上展現出了強大的湧現能力:人和景物在三維空間移動的一致性;長程時間相關性與物件永續性,如事物被遮擋後重現;事物與周邊世界的互動性等等。

4. Not for play, But change world!

OpenAI在Sora的技術報告中毫不吝惜誇讚的言詞,並對Sora的潛力充滿期待。他們認為持續擴大影片模型的規模,將可以用來模擬整個物理和數字世界。這一願景深深地震撼了筆者本人!

OpenAI的宏大目標

OpenAI的宏大目標

伴隨著筆者對知乎、csdn、facebook的瘋狂查閱,有另一種聲音愈發強烈。原本筆者只是驚訝於Sora影片的絲滑,清晰與文字生成的簡易。而更多的大佬,紛紛指出,Sora影片毫無違和感,沒錯!就是毫無違和感,它所展現的光影效果與碰撞遮擋,太真實了!Sora對於影像與影片的處理僅僅是其能力的表象,真相是,Sora是真的在理解地球物理世界的規律,而且取得了巨大的進展。

在這裡插入圖片描述

未來已來,只是尚未流行

“Sora 是一個資料驅動的物理引擎!“NVIDIA研究科學家Jim Fan在Twitter上發文。
“Sora不講武德,一句話就有連續的影片,毀滅吧,計算機圖形學!毀滅吧,遊戲引擎!“計算機圖形學學者譚劍如是說。
“去他喵的物理公式,宇宙的終極是機率!“
……
紅衣教主周鴻禕曾表示:一旦人工智慧接上攝像頭,對世界的理解將遠遠超過文字學習,一幅圖勝過千言萬語,而影片傳遞的資訊量又遠遠超過一幅圖,這就離AGI(通用人工智慧)真的不遠了,不是10年、20年的問題,可能一兩年很快就可以實現。
而當下,Sora突破了,它實現了機器對這個世界的感知、觀察和互動的能力,也就是說真正的給人工智慧補上了眼睛。不難想象,在AI如此盡力的發展下,元宇宙般的夢幻世界彷彿近在咫尺。

img

AI在瘋狂汲取人類文明與客觀世界的知識

5. Sora的成本與OpenAI的7萬億美金豪賭

“很少有人提到 Sora 影片生成的成本。用 Sora 生成 1 分鐘的影片估計需要幾十美金,比RunwayML的Gen2(大約一分鐘10美金)還貴,而很多人會選擇性的忽略成本。比如 GPT-4 支援128K上下文的時候,很少有人提到用一次128K上下文需要1.28美金。今天 Gemini 1.5說支援10M上下文了,卻並沒有人知道這10M上下文的成本是多少。影片生成如果成本高達一分鐘幾十美金,那就只能受限於專業的影片和遊戲製作人,沒法用來生成抖音短影片。這就是為什麼OpenAI要搞7萬億美金來造晶片。很多人覺得Sam Altman瘋了,但我覺得他看到了AI真正的瓶頸——算力。“ ----知乎作者-李博傑
這樣的判斷很快迎來了資本市場的認證。繼2月15日Sora爆炸問世後一週,全世界的投資人,都把目光投向了全球晶片巨頭——英偉達。截至當地時間2月22日收盤,英偉達報785.38美元,漲16.4%,創歷史新高,市值逼近2萬億美元,成為微軟、蘋果之後第三高。其市值一夜增長2733億美元(約合人民幣2萬億元)。相當於增加了一整個Netflix或一整個Adobe,約等於一個茅臺三個寧德時代!皮衣刀客黃仁勳身家超越中國首富、農夫山泉創始人鍾睒睒,升至全球富豪榜第 21 位。
不得不說“淘金的還沒起飛,但賣鏟子的倒是真的起飛了,哈哈哈哈!”

在這裡插入圖片描述

黃仁勳眺望未來

6. 算力,未來在何方?

正所謂:哪裡有需求,哪裡就有市場!Sora的火爆與NVIDIA的成功又再一次印證了人工智慧的影響力及其發展的緊迫性,這促使著“國產算力替代”又再一次回到了發展舞臺的中心。過去的時間裡,在中美博弈,晶片法案的壓力下,催生出了一系列AI晶片獨角獸,大家也都在各自的技術路線上奮起直追。這包括全志科技多目異構視覺晶片“V853”,雲天勵飛多芯粒整合CV加速單元“DeepEdge10”,清華大學的智慧駕駛計算晶片“驚蟄R1”,時識科技“感算一體”動態視覺SoC“Speck”,以及知存科技的“存算一體”AI視覺晶片“WTM8系列”。與此同時,晶片架構設計、晶片驗證以及編譯工具鏈開發等AI晶片崗也引發了新一輪的人才需求熱潮。
值得一提的是,在新一輪算力攻堅賽中,突破傳統馮·諾依曼架構的正規化探索成為主要方向之一。而“存算一體”架構打破了存算分離的壁壘,減少了資料的搬運,它就如同“在家辦公”的新型工作模式,消除了資料“往返通勤“的能量消耗、時間延遲,並且節約了“辦公場所”的運營成本,因而具備高能效比。加上“存算一體”架構對於工藝製程的“弱依賴”性(14nm展現4nm數位電路表現效能),使其成為了AI算力的重要發展方向。

在這裡插入圖片描述

Intel Lab 的大規模存算核拓撲規則【3】

從存算一體技術發展來看:
規模正在幾何擴增。上圖是2024年英特爾實驗室新鮮出爐的存算一體架構大規模擴充套件拓撲圖,可以清晰的看到64核拓撲,筆者印象2023年底的時候,4核才剛進入使用。
精度正在更進一步。從4位元到8位元到10位元。最新訊息,AI晶片公司TetraMem及其合作伙伴,繼2023年3月突破11位元後,於今年2月23日又在《科學》上發表重大突破:以憶阻器為核心的全新架構,突破實現任意高精度模擬計算【4】。
按照存算架構相對於傳統數位電路10倍的能效表現,只能說其作為超大模型的支援潛力在逐漸被挖掘,屬於它的時代即將到來。

7. Finally!

可以預見的是,AI的成長會以不可思議的速度多向發展,AI的成長基石:資料、算力、能源將會成為社會發展的重要引擎。筆者在此熱烈邀請大家共同關注,共同學習,共同迎接美好的明天!

引用:
【1】Technical report of Sora: Video generation models as world simulators (openai.com)
【2】Scalable Diffusion Models with Transformers:https://doi.org/10.48550/arXiv.2212.09748
【3】Towards Joint Modeling of Dialogue Response and Speech Synthesis based on Large Language Model:https://doi.org/10.48550/arXiv.2309.11000
【4】Programming memristor arrays with arbitrarily high precision for analog computing:https://www.science.org/doi/10.1126/science.adi9405
【5】另外,找到了一篇Sora的技術詳解,有興趣的朋友請見:最強文生影片模型 SORA 技術路線解讀 (yuque.com)

說明:本文來自CSDN存內社群,原文作者:Hundred++
https://bbs.csdn.net/topics/618126472

相關文章