大廠掀起影片生成「軍備競賽」,AI 真能幹掉好萊塢?
机器之心發表於2024-07-15
前腳快手高調發布可靈,後腳 Luma 不甘示弱,推出最新影片模型 Dream Machine,緊接著 Runway 橫插一腳,祭出 Gen-3 這個大殺器。在微妙的 FOMO 氣氛帶動下,更多玩家秉持著「累死自己,卷死同行」的宗旨,一頭扎進這個賽道 ——阿里巴巴達摩院押注「尋光影片創作平臺」、位元組即夢 AI 探索「生成式影劇」、美圖 MOKI 盯上 AI 短片創作、Haiper AI 則聚焦創意表達 ……7 月 5 日的上海,火熱,像極了 AI 影片圈的焦灼。這一天,上海世博展覽館 H3 館 X 會議室人頭攢動,一場由世界人工智慧大會組委會辦公室主辦,機器之心、東浩蘭生共同承辦的「2024 WAIC 影片生成前沿技術論壇」正如火如荼地進行。該論壇匯聚了眾多 AI 影片領域的明星企業和專家,共同探討影片生成技術的最新進展及其在產業應用中的創新實踐。自 ChatGPT 橫空出世後,Sora 引爆的影片生成技術絕對是科技界的「當紅炸子雞」。儘管這一領域目前尚處起步階段,但影片生成技術以其驚人的發展速度和極具潛力的應用前景,正不斷擴充數字內容創作的邊界。阿里巴巴達摩院影片生成負責人陳威華、上海交通大學電子系教授倪冰冰、美圖公司集團高階副總裁陳劍毅、Haiper AI 創始人繆亦舒出席本次論壇並發表主題演講。阿里巴巴達摩院影片生成負責人陳威華表示,年初 Sora 的釋出不僅展示了 AI 影片生成在高畫質晰度、高保真度、高質量方面的巨大潛力,更激發了人們對這一技術的無限想象。儘管 Sora 非常酷,但生成過程仍難以控制,主角的一致性難以保證,需要大量人工後期編輯才能達到最佳效果。「影片內容的控制是創作中最大的需求,也是今天我們演算法所面臨的最大挑戰。」陳威華說。阿里巴巴達摩院最新發布的 AIGC 產品 —— 尋光影片創作平臺,旨在提升影片製作效率,解決影片後期編輯問題,透過簡易的分鏡頭組織形式和豐富的影片編輯能力,讓使用者實現對影片內容的精準控制,並保持多個影片中角色和場景的一致性。尋光為 AI 影片的廣泛應用提供了一站式的工具平臺,AI 不會取代創作者的工作,而是會最佳化影片創作的工作流,成為創意驅動的新引擎。上海交通大學電子系教授倪冰冰則分享了面向矢量化的媒體內容生成技術。「當前的生成演算法都面臨著結構性和細節性的問題。例如,生成的內容可能會多出或缺少某些元素,抑或是手穿模等。對於那些需要符合物理規則的精細化影片,目前的生成技術仍面臨挑戰。」倪冰冰說,究其原因,所有生成式智慧本質上是一個取樣過程,而影片是一個高維度的空間,儘管透過增加訓練資料和降低取樣精度可以提高內容質量,但由於維度空間極高,要達到完美無缺的程度,在當前技術框架下仍有一定難度。此外,算力的限制也是一個重要因素。目前,包括大語言模型、影像影片生成模型在內的算力指標已經達到幾十 T、上百 T 甚至上千 T 的水平。未來,生成式智慧的發展趨勢肯定會向端側下沉,而端側不可能使用無限制的大算力取樣方式解決問題。對此,倪冰冰提出利用矢量化表徵框架,將影片內容例項化到網路引數,從而實現精確操控生成內容,並更好地符合物理世界規則。他認為生成式人工智慧目前階段性的成功是以算力與資料的過度消耗為代價的,未來應聚焦於媒體內容的新型表徵與生成式計算新正規化,積極打造更加高質高效的媒體新質生產力。美圖公司集團高階副總裁陳劍毅則從產品經理的視角分析了 AI 影片生成的應用場景和挑戰。一是圈內人會因為影片由 AI 生成而驚歎,但對於普通使用者而言,他們並不關心影片是否由 AI 生成,而是聚焦於內容是否吸引人。「這意味著,無論 AI 影片生成技術達到何種視覺體驗,我們都必須迴歸到內容本身,關注影片想要傳遞的價值觀和故事。」陳劍毅說。二是大多數普通使用者對「文生圖」和 「文生影片」這類專業術語並不熟悉,也不清楚它們的具體用途。就拿「文生圖」來說,這個名詞就像當年 PhotoShop 的 「液化」功能一樣,讓人難以理解,然而,如果將其做個場景限定,描述為「瘦臉瘦身」功能,使用者就更能直觀地理解其價值。「文生影片」也同理。同時,他表示,AI 影片生成技術讓內容表達更加具象,豐富了視覺創意和體驗度,但其仍需解決視覺設定可控性、動態可控性和音訊可控性等關鍵問題。美圖探索的 AI 短片創作平臺 MOKI,正攻克這幾大難點。據介紹,MOKI 以 AI 影片生成技術為核心,構建了一個全面的短片工作流程。前期階段,創作者可以進行指令碼編寫、視覺風格設計和角色設定,然後利用 AI 技術生成影片素材。最終,透過 AI 的後期製作能力,將所有素材串聯起來,形成一個連貫的短片。作為明星創業公司 Haiper AI 創始人,繆亦舒深入探討了影片生成技術的意義和價值。繆亦舒說:「我們經常聽到這樣的觀點,比如『語言即智慧』或『大語言模型即通用人工智慧(AGI)』。然而,僅靠語言學習真的能直接引領我們通往 AGI 嗎?語言是人類獲取知識的重要途徑之一,但並非唯一途徑。人類透過視覺、聽覺、閱讀和動覺等多種學習方式來學習。AI 也需要透過多種模態融合去學習和構建真正的通用智慧。」GPT-3.5 推出後,許多人提出 「自然語言處理 (NLP) 不存在了」的觀點,因為大語言模型透過自迴歸生成式模型(每次預測下一個詞),基本解決了語言系統學習和語義推理的問題,我們甚至不再需要判別式模型來對特定的推理問題進行微調。類似地,影片生成模型也是透過自迴歸的方式構建生成式模型(每次預測下一個影片幀),模型因此隱式地學習了深度預測、語義標註和語義分割等計算機視覺領域的重要任務。因此,在 2024 年,我們會聽到類似 「計算機視覺(CV)不存在了」 的言論,因為影片生成模型在學習生成影片內容的過程中,已經逐漸掌握到感知能力和物理規律。「我們是否需要像小狗一樣理解牛頓第一定律才能在街上追逐蝴蝶?是否需要像 5 歲的小孩一樣知道所有物理定律才能行走和騎腳踏車?答案是否定的。人類透過與世界的不斷互動和觀察,透過各種建模來學習。事實上,影片生成模型已經透過學習生成多樣的影片內容構建了世界模型,我們可以輕鬆地透過提示詞與世界模型互動,渲染出我們想要的影片內容,而這一切並不需要我們顯式地搭建一個模擬器來模擬所謂的物理規律。」繆亦舒強調,「Video Generation Is Beyond Generating Videos」。在他看來,影片生成模型不僅能生成影片內容,更是透過多模態學習基礎感知能力的重要一步,也是人工智慧走向 AGI 的必經之路。除了四位專家學者的主題分享,論壇還邀請了來自學界、企業、創業公司、知名投資機構的嘉賓,圍繞影片生成的前沿技術、場景落地行業創新應用實踐等議題進行深度圓桌討論。第一場圓桌討論中,井英科技創始人 & CEO 朱江、新加坡南洋理工大學助理教授劉子緯、盛趣遊戲技術中心 AI 負責人李鋒、倚天資本合夥人樂元等嘉賓圍繞「大模型驅動下,影片生成技術提升路徑將何去何從?」這一主題展開深入探討,闡述了影片生成技術在行業的落地前景。井英科技創始人 & CEO 朱江將影片生成技術類比於寒武紀生命大爆發,認為當前處於一個技術和應用快速發展的階段。他強調,應用層公司需要保持對技術的理解和領先,同時關注使用者需求,才能在競爭中脫穎而出。他表示,最終模型公司和應用公司都能生存下來,但模型公司可能會更加通用,而應用公司則需要更加關注使用者和商業的理解。新加坡南洋理工大學助理教授劉子緯認為影片生成技術目前處於 GPT-3 時代,距離成熟還有半年左右的時間。他分析了 Diffusion、Transformer 和語言模型三條技術路徑的優缺點,認為未來可能會融合發展。他還強調,需要探索影片生成技術的「牛頓第一定律」,即如何透過投入算力和資料來獲得可預測的提升。盛趣遊戲技術中心 AI 負責人李鋒從遊戲行業的角度出發,認為影片生成技術可以提升遊戲研發效率和創意水平。他希望能夠與模型公司合作,將影片生成技術應用到遊戲研發流程中,例如參考可微渲染的思路去做關卡設計和佈局預演,在研發協同合作時的溝通方式視覺化對齊以和其他動態資產影像生成。倚天資本合夥人樂元則從資本的視角,分析了影片生成技術商業落地面臨的挑戰。他認為,影片生成技術在最近兩三年取得了遠超預期的進步,這是令人驚喜的,但客觀來講今天的技術水平還是不足以支撐大範圍商業化,基於語言模型開發應用所使用的方法論和遇到的挑戰,在影片相關的應用領域也同樣適用。論壇的第二個圓桌對話聚焦於「解構生成式 AI 浪潮下,影片生成應用的創新與機會」,來自五源資本、FancyTech、Morph AI 和史丹佛大學的嘉賓,從投資、應用、技術和藝術等多個角度,挖掘了影片生成技術的發展方向和應用場景。FancyTech(時代湧現)創始人 & CEO 空界認為影片生成技術將帶來供給側的改革,讓更多人能夠參與內容創作。他介紹了 FancyTech 的 To B 影片生成平臺,透過將現實物品還原到虛擬場景中,幫助商家降低內容創作成本。五源資本副總裁石允豐提到,目前的影片生成還處於早期發展階段,類似於 GPT2 剛釋出時的探索狀態。技術的底座還沒有穩固時找 PMF 的挑戰很大。他認為,儘管技術在不斷進步,創作者也非常有熱情,有一定範圍的傳播,但沒有廣泛的內容消費。需要有天才的產品經理將產品做裁剪,創造出和現有資訊流不相容的新內容形態。Morph AI 創始人 & CEO 徐懷哲認為影片生成的技術和應用同樣重要,作為技術出身的團隊,更要協調好模型層和應用層的開發。他介紹了 Morph Studio 這款 All-in-one 的 AI 影片製作工具,是基於 Morph 領先的 AI 影片大模型打造,目前已在全球公測,並收到了積極的反饋。未來,Morph 將持續透過使用者反饋,不斷最佳化產品功能和使用者體驗,讓其 AI 影片技術能夠透過產品更快的落地,更優的幫助創作者。史丹佛大學博士後研究員饒安逸則從藝術和科技的結合角度出發,認為影片生成技術可以激發更多互動式創作方式。他強調,機器和人都不能做到 100% 正確,因此在創作過程中需要引入互動式改進機制,讓機器和人協同完成創作。總體而言,圓桌對話的嘉賓們對影片生成技術的應用前景充滿期待,但也認識到當前技術仍處於早期階段,需要探索新的商業模式和應用場景才能實現更大的價值。本次論壇的成功舉辦,不僅為 AI 影片領域的從業者提供了一個交流與學習的平臺,也為相關產業鏈上的各個環節提供了更多合作的機會。展望未來,AI 影片技術將迎來更加廣闊的發展空間和更加豐富的應用場景,為人類創造更加美好的視覺體驗。