採訪首次揭示出 Sora「有所為(比如,將生成效果逼向極限)」和「有所為不為(比如短期內不開放、不生成公眾人物)」背後的深層考量——找到一條將 AI 融入日常生活的正確道路是極其困難的,但也絕對值得一試。
OpenAI 的 Sora 在今年 2 月橫空出世,把文生影片帶向了新階段。它能夠根據文字提示生成超現實場景。Sora 的可適用人群受限,但是在各媒體平臺上,Sora 的身影無處不在,大家都在期待著使用它。
在前幾天的訪談中,三位作者透露出 Sora 的更多細節,包括它處理手部時仍然存在困難,但正在最佳化。他們也對 Sora 更多的最佳化方向進行了闡述,要讓使用者能夠對影片畫面有更加精準的控制。不過,短期內,Sora 並不會對公眾公開。畢竟 Sora 能夠生成與現實十分接近的影片,這會引發很多問題。而正因如此,它還需要更多的改進,人們也需要更多時間來適應。不過不用氣餒,這個短期可能不會太久。OpenAI 技術長 Mira Murati 接受了華爾街日報科技專欄作家 Joanna Stern 的採訪。她在談到 Sora 何時推出時,透露道 Sora 將於今年推出,大家可能要等幾個月,一切都取決於紅隊的進展情況。
OpenAI 還計劃在 Sora 中加入音訊生成的功能,讓影片生成效果更加逼真。接下來,他們也會繼續最佳化 Sora,包括幀與幀之間連貫性、產品的易用性以及成本。OpenAI 也希望新增使用者編輯 Sora 生成影片的功能。畢竟 AI 工具的成果並不是百分百準確。如果使用者能夠在 Sora 的基礎上進行再創作,想必會有更好的影片效果和更準確的內容表達。
當然,技術解讀上的深入淺出只是採訪的一部分,另一部分始終圍繞著安全、擔憂這樣的大眾話題。比如,一段 20 秒的 720p 影片,不需要幾個小時的生成時間,只要幾分鐘,Sora 在安全方面又將採取怎樣的舉措?
採訪中,主持人還刻意將話題引到 Sora 訓練資料上,Mira Murati 表示,Sora 接受過公開可用和許可資料的訓練。當記者追問是否用到了 YouTube 上的影片時,Mira Murati 表示自己不是很確定。記者又追問是否用到了 Facebook 或者 Instagram 上的影片?Mira Murati 回答道如果它們是公開可用的,可能會成為資料地一部分,但我不確定,我不敢打包票。
此外她還承認 Shutterstock(是一家美國圖片庫、圖片素材、圖片音樂和編輯工具供應商) 是訓練資料的來源之一,也強調了他們的合作關係。
不過看似一場普通的採訪,但也引來了眾多爭議,很多人指責 Mira Murati 不夠坦誠:
還有人從微表情推測 Murati 在說謊,表示道「記住不要讓自己看起來像是在說謊。」
「我只是好奇,作為 OpenAI 的 CTO 居然不知道使用了什麼樣的訓練資料。這不是在明目張膽的撒謊嗎?」
「作為這樣一家公司的技術長,她怎麼能不準備好回答這麼基本的問題呢?讓人摸不著頭腦...」
還有人認為 Murati 並沒有說謊,也許 Facebook(FB)真的允許 OpenAI 使用部分資料。
但這種說法立馬遭到反駁「Facebook 是瘋了嗎?這些資料對 Facebook 來說絕對是無價的。為什麼他們要把資料賣給或授權給他們最大的競爭對手,這實際上是他們在 GenAI 競賽中唯一的競爭優勢。」
顯然,很多人都認為 Murati 沒有說實話:「作為 OpenAI 的技術長,當被問及 Sora 是否接受過 YouTube 影片的訓練時,她卻表示自己不確定,並拒絕討論有關訓練資料的進一步問題。要麼是她對自己的產品相當無知,要麼是在說謊 —— 無論哪種方式都非常可惡。」
這就不得不將話題引入到另一個層面:版權問題。一直以來,OpenAI 深受資料版權的困擾,前段時間,《紐約時報》一紙訴狀將 OpenAI 告到法庭,起訴書中《紐約時報》列出了 GPT-4 輸出「抄襲」《紐約時報》的「證據」,GPT-4 的許多回答與《紐約時報》的報導段落幾乎完全一致。
資料監管問題該如何解決?史丹佛教授曼寧表示「目前最簡單但最有用和最合適的 AI 監管之一是要求模型提供者記錄他們使用的訓練資料。歐洲議會剛剛透過並批准的《人工智慧法案》也強調了這一點。」
圖源:https://twitter.com/chrmanning/status/1768311283445796946
OpenAI 到底使用了什麼資料來訓練 Sora,現在看來,這座巨大的冰山已經露出了一角。這次採訪除了大家關心的資料問題,還有更多資訊值得大家一看。
以下是這次採訪的主要內容,我們做了不變更原意的編輯:
記者:我被人工智慧生成的影片震撼了,但我也擔心它們的影響。所以我請 OpenAI 來做一期新的影片,並和 Murati 坐下來解答一些困惑。Sora 是如何工作的?
Mira Murati:它從根本上說是一種擴散模型,這是一種生成模型。它從隨機噪聲開始建立一個影像。如果是電影製作,人們必須確保上一幀延續到下一幀,物體之間保持一致性。這就給你一種現實感和存在感。如果你在幀之間打破它,你就會斷開,現實就不存在了。這就是 Sora 做得很好的地方。
記者:假如我現在給出 prompt:「紐約市人行道上的一名女性影片製作人手裡拿著一臺電影攝像機。突然,一個機器人從她手中偷走了照相機。」
Mira Murati:你可以看到它並沒有非常忠實地遵循提示。機器人並沒有把相機從她手中拽出來,反而這個人變成了機器人。這還有很多不完美的地方。
記者:我還注意到了一件事,即當汽車經過時,它們會改變顏色。
Mira Murati:是的,所以雖然這個模型很擅長連續性,但它並不完美。所以你會看到黃色的計程車從框架中消失了一會兒,然後它以不同的形式回來了。
記者:那我們可以在生成後下達「讓計程車保持一致,讓它回來」這樣的指令嗎?
Mira Murati:現在是沒有辦法的,但是我們正在為此而努力:怎麼把它變成人們可以編輯的、用來創造的一個工具。
記者:你覺得下面這段影片的 prompt 是什麼?
Mira Murati:一頭公牛在瓷器商鋪中嗎?可以看到它在不停地踩,但是沒有任何東西破碎。其實這應該是可以預測的,我們未來會提升穩定性和可控性,讓它更準確地反映出你的意圖。
記者:然後還有一個影片,左邊的女人在一個鏡頭中看起來大概有 15 個手指。
Mira Murati:手實際上有他們自己的運動方式。而且很難模擬手的運動。
記者:影片中的人物嘴巴有動作,但是沒有聲音。Sora 有在這一方面做功課嗎?
Mira Murati:目前確實是沒有聲音的,但未來一定會有的。
記者:你們用了哪些資料來訓練 Sora?
Mira Murati:我們使用了公開可獲得的資料和許可資料。
記者:比如 YouTube 上的影片?
Mira Murati:這我不是很確定。
記者:那 Facebook 或者 Instagram 上的影片?
Mira Murati:如果它們是公開可用的,可能會成為資料地一部分,但我不確定,我不敢打包票。
記者:那 Shutterstock 呢?我知道你們和他們有協議。
Mira Murati:我只是不想詳細說明所使用的資料,但它是公開可獲得的或獲得許可的資料。
記者:生成一段 20 秒的 720p 影片需要多長時間?
Mira Murati:根據 prompt 的複雜性,可能需要幾分鐘。我們的目標是真正專注於開發最好的能力。現在我們將開始研究最佳化技術,以便人們可以低成本使用它,使它易於使用。
記者:創造這些作品,肯定需要消耗大量的算力。與 ChatGPT 響應或動態影像相比,生成這樣的東西需要多少算力?
Mira Murati:ChatGPT 和 DALL・E 是為公眾使用它們而最佳化的,而 Sora 實際上是一個研究輸出,要貴得多。我們當時不知道最終向公眾提供它時到底會是什麼樣子,但我們正試圖最終用與 DALL・E 相似的成本提供它。
記者:最終是什麼時候呢?我真的很期待。
Mira Murati:肯定是今年,但可能是幾個月後了。
記者:你覺得是在 11 月選舉前還是後呢?
Mira Murati:這是了一個需要慎重考慮處理錯誤資訊和有害偏見的問題。我們也不會公佈任何可能會影響選舉或其他問題,我們沒有把握的東西。
記者:有什麼東西是不能生成的。
Mira Murati:我們還沒有做出這些決定,但我認為我們的平臺將會保持一致。所以應該類似於 DALL・E,你可以生成公眾人物的影像。他們會有類似的 Sora 政策。現在我們正處於探索模式,我們還沒有弄清楚所有的限制在哪裡,以及我們將如何圍繞它們。
記者:那裸體呢?
Mira Murati:你知道的,有一些創造性的設定,藝術家可能想要有更多的控制。現在,我們正在與來自不同領域的藝術家和創作者合作,以弄清楚該工具應該提供什麼樣的靈活性。
記者:你如何確保測試這些產品的人不會被非法或有害的內容吞噬?
Mira Murati:這當然很困難。在早期階段,這是 Red Teaming(紅隊測試)的一部分,你必須考慮到它,並確保人們願意並能夠做到這一點。當我們與承包商合作時,我們會更深入地瞭解這一過程,但這無疑是困難的。
記者:我們現在正在嘲笑這些影片(生成效果不好的影片),但是當這類技術影響到工作時,影片行業的人們可能在幾年後就不會笑了。
Mira Murati:我認為這是一種擴充套件創造力的工具,我們希望電影行業的人們,無論在哪裡的創作者,都能參與其中,告知我們如何進一步開發和部署它。此外,當人們貢獻資料等時,使用這些模型的經濟學是什麼。
記者:從所有這些技術中可以清楚地看出,技術將很快變得更快、更好,而且廣泛可用。到時,怎麼將真實影片和 AI 影片區分開?
Mira Murati:我們也在研究這些問題,包括給影片加水印。不過我們需要先搞清楚內容來源,人們如何區分真實內容、現實中發生的事情和虛假內容,這也是我們還沒有部署這些系統的原因,大規模部署之前要先解決這些問題。
記者:有你這些話就能安心點了。不過,人們還是非常擔心矽谷籌集資金創造 AI 工具,還有他們對金錢和權利的野心會危及人類的安全。
Mira Murati:平衡利潤和安全並不是真正的難題,真正困難的部分是搞清楚安全與社會問題,這是我堅持下去的真正原因。
記者:這個產品確實讓人驚豔,但也引發不少擔憂,我們也討論過了,真值得嗎?
Mira Murati:絕對值得。AI 工具將擴充套件我們的知識和創造力、集體想象力、做任何事情的能力。在這個過程中,找到將 AI 融入日常生活的正確道路,也是極其困難的,但我認為這絕對值得一試。
AI 時代,第一是人才,第二是資料,第三是算力。OpenAI 在儲備了眾多人才的同時,該如何解決資料問題,還需要時間給出答案。
原影片連結:
https://www.youtube.com/watch?v=mAUpxN-EIgU