英偉達神秘影片基礎模型「Cosmos」曝光,資料全靠偷

机器之心發表於2024-08-06
為了這個影片模型,英偉達每天正在瘋狂地爬取相當於 80 年時長的影片資料。

今天,一則關於英偉達要下場做影片模型的訊息引爆了 Reddit。

訊息源出自外媒 404 Media,據它獲得的 Slack 聊天(英偉達的內部聊天平臺)、電子郵件和檔案顯示,英偉達正在從 Youtube 和其他幾個來源抓取影片,收集用於其 AI 產品的訓練資料。

圖片

404 Media 檢視的英偉達內部對話顯示,當參與該專案的員工提出有關使用「禁止商用的研究資料集」和「YouTube 影片」可能產生法律問題時,管理人員告訴他們,他們已獲得公司最高層的批准,可以使用這些內容。

一位匿名的前英偉達員工對此表示,員工被要求從 Netflix、YouTube 和其他來源抓取影片,以訓練的 Omniverse 3D 世界生成器、自動駕駛汽車系統和「數字人」產品的 AI 模型。

該專案內部命名為 Cosmos(但與公司現有的 Cosmos 深度學習產品不同),尚未向公眾釋出。該專案領導層發給員工的電子郵件顯示,Cosmos 的目標是構建一個最先進的影片基礎模型,「將光傳輸、物理和智慧模擬封裝在一個地方,以解鎖對英偉達至關重要的各種下游應用。」

為了收集訓練影片,英偉達員工使用名為「 yt-dlp」的開源 YouTube 影片下載器。他們試圖從 Netflix 等各種來源下載完整影片,但主要集中在 YouTube 影片。404 Media 檢視的電子郵件顯示,專案經理選擇了使用 Amazon Web Services 中的 20 到 30 臺虛擬機器,每天下載相當於 80 年的影片。

英偉達研究副總裁兼 Cosmos 專案負責人 Ming-Yu Liu 在 5 月份的一封電子郵件中表示:「我們正在完成 v1 資料 pipeline 並確保必要的計算資源,以構建一個影片資料工廠,該工廠每天可以產生相當於人類一生視覺體驗的訓練資料。」

當被問及英偉達使用 YouTube 影片作為其模型的訓練資料時,谷歌發言人告訴 404 Media 稱,該公司「此前的立場仍然有效」。此前 YouTube 執行長 Neal Mohan 表示,如果 OpenAI 使用 YouTube 影片來改進其 AI 影片生成器 Sora,那將「明顯違反」YouTube 使用條款。

同樣地,Netflix 發言人告訴 404 Media,公司與英偉達並未就內容採集達成協議,而且該平臺的服務條款不允許抓取內容。

不過,英偉達方面似乎並不在意。參與該專案的員工提出的法律問題經常被專案經理駁回並表示,未經許可抓取影片的決定是「行政決定」,他們不需要擔心,而什麼是公平、合乎道德地使用受版權保護的內容以及學術、非商業用途資料集的問題被認為是「懸而未決的法律問題」,他們將來會解決。

英偉達影片模型專案始末

和其他科技巨頭類似,英偉達聘用學術研究人才發表學術成果,但從 404 Media 獲取的內部郵件可以看出,Cosmos 顯然將用於商業用途。

今年三月,一位英偉達的研究員在 Slack 上發帖,提議用《阿凡達》或《指環王》這樣的好萊塢電影來訓練 OpenAI Sora,可能效果會更好。

隨後,他的提議得到了公司內的認可,但他也補充道,好萊塢對 AI 可能侵佔版權的事格外敏感。2023 年七月,擁有 16 萬會員的好萊塢三大工會之一 SAG-AFTRA 宣佈罷工,矛頭直指 ChatGPT 和 Stable Diffusion 等生成式 AI 產品,在此之前,美國編劇工會已經罷工 70 多天。Stable Diffusion 存在這樣的情況,即使不輸入對應的提示詞,輸入「動漫畫風的水管工」這樣的模糊描述,Stable Diffusion 會直接生成馬里奧的經典形象。

在這個帖子下,一位名叫「Liu」的員工(即英偉達研究副總裁Ming-Yu Liu(劉洺堉)回覆道:「如果不公開發表論文,就不會引來以上負面問題。我們應該先用能下載的影片進行實驗。」
圖片
之後,有另外一位英偉達研究員又在內網發了一個帖子,他找到了一份訓練影片模型應該優先下載的檔案列表,但是英偉達所使用 HD-VILA-100M 資料集中卻缺少約 230 萬個原始影片。這個不斷擴張的列表中還包含一些知名 YouTuber 的原創影片,比如在北美和知名度類似「大家好我是何同學」的數碼評測博主 Marques Brownlee(MKBHD)。

出於對版權的保護,一般的影片資料集往往收錄 URL 連結或者 YouTube ID,一旦作者刪除了原影片,這些內容將不會繼續被包含在資料集中,除非影片作者明確同意其內容被保留和使用。

雖然微軟在其 HD-VILA-100M 資料集的使用宣告中明確禁止用於一切商業用途,但是發帖的英偉達員工似乎並不在意,他很快貼出了這份列表對應的 YouTube 連結,並和同事們討論出了用 AWS 虛擬機器換 IP,規避 YouTube 反爬蟲機制的解決方案。

除此之外,英偉達的員工還將手伸向了 Google 釋出的大規模影片理解資料集 YouTube-8M。和自行補全微軟的資料集不同,他們和 YouTube 以及 YouTube 現在的母公司的谷歌達成了一筆「交易」,英偉達以每支影片 0.00625 美元(約等於人民幣 4 分錢)的價格買下了 800 萬支影片,並將透過谷歌雲下載。不考慮出賣版權的問題,谷歌可能以為賺回了這些影片的廣告費,但英偉達本來在雲頻寬方面就存在一些限制,在谷歌雲上下載,反而透過能獲得更加穩定和可預測的連線。因此,無論從哪個角度來看,這筆「交易」似乎都對英偉達有利。

更令人詫異的是,當有英偉達員工在內網提問:「我們這樣下載 YouTube 影片合理嗎?」

「這是一個高層決策。我們已經獲得了使用所有資料的全面批准。」他得到了這樣的回覆。

這個決策所允許使用的資料還包含 Netflix 上的影片作品。Netflix 的資料包含很多高質量的人臉資料,在得到批准後,有人在公司內網 @了有在其他大公司「構建大型資料集」的經驗的同事幫忙。

同時,Cosmos 團隊還考慮瞭如何有效將遊戲畫面新增到訓練資料中的問題。英偉達高階研究科學家 Jim Fan 在捕獲實時遊戲畫面時也遇到了「監管」的障礙。

Jim Fan 發了個帖子說:

更新:我一直在與 GeForce Now(GFN)的人員開會,和他們制定計劃。我們將與 GFN 及相關工程團隊緊密合作,開發捕獲實時遊戲資料的方法,擴大 pipeline 的規模,並對資料加以處理用於訓練。高質量的遊戲影片將對「我們的 Sora」提供非常有用的補充...... 因為還沒有用來捕獲實時遊戲影片和動作的裝置,因此還沒有進行統計,但我們將盡快將清理和處理過的 GFN 資料新增到 team-vfm。

今年三月份,Cosmo 專案的影片資料收集達到了一個里程碑:Nvidia 在兩週內完成了 10 萬次影片下載。

「進展驚人。現在的問題是我們如何才能獲得大量高質量的 URL。」Liu 在這個帖子中回覆道。

5 月下旬,專案組成員收到了一封關於影片資料策略的郵件,宣佈他們已經編譯了 3850 萬個影片 URL。郵件中說:「根據計劃,下週的收集影片的重點仍然是電影、無人機鏡頭、第一人稱視角的鏡頭、自然風光。」郵件中還包含一張圖表,顯示了他們下載的內容型別的百分比。

這封郵件透露了一些關鍵技術資訊,包括模型訓練資料中的四個資料集:

  • Ego-Exo4D:一個多樣化、大規模、多模式、多視角的影片資料集和基準,由 740 名相機佩戴者在全球 13 個城市收集,拍攝了 1286.3 小時的人類熟練活動影片。
  • Ego4D:這是一個大規模、以自我為中心的資料集和基準套件,在全球 9 個國家的 74 個地點收集了超過 3,670 小時的日常生活活動影片。
  • HOI4D:大規模 4D 以自我為中心的資料集,具有豐富的註釋,可促進類別級別的人 - 物互動研究。HOI4D 由清華大學北京大學和上海期智研究院的研究人員建立,採用 CC BY-NC 4.0 許可,禁止商業使用。
  • GeForce Now:遊戲資料。

在另一封郵件中,Cosmos 專案的成員表示:「研究團隊現在正在用多種配置訓練一個 10 億引數的模型,每種配置有 16 個節點。在進一步擴充套件之前,這是一個重要的除錯步驟。我們計劃在幾周內得出結論,然後擴充套件到 100 億引數模型。」

「這個更新很棒!」英偉達 CEO 黃仁勳回了這封郵件,他表示:「許多公司都將構建影片基礎模型作為目標,我們完全可以做一個加速的 pipeline。」

6 月,專案組成員討論了在保持人工智慧行業競爭力的背景下,模型中哪些型別的內容對英偉達的產品最有用。

「NVIDIA 擁有大多數內容公司所沒有的機器人、自動駕駛、Omniverse 和 Avatar。為了最大限度地推動公司發展,我們整理的資料必須能夠很好地適用於這些『殺手級』應用程式」,Cosmos 專案的成員說道。

毫無疑問的是,Cosmos 團隊正在開發的模型旨在用於其多種產品的商業用途。

在要求這些公司完全公開訓練資料的法案落地之前,他們將繼續利用法律灰色地帶來抓取受版權保護的資料。如果沒有內部郵件或者內網對話洩密,任何人都不知道背地裡到底發生了什麼,而這樣的模型可以讓像 Nvidia、Runway 或 OpenAI 等科技巨頭賺到數十億美元。

參考連結:
https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/

相關文章