英偉達神秘影片基礎模型「Cosmos」曝光,資料全靠偷
机器之心發表於2024-08-06
為了這個影片模型,英偉達每天正在瘋狂地爬取相當於 80 年時長的影片資料。
今天,一則關於英偉達要下場做影片模型的訊息引爆了 Reddit。訊息源出自外媒 404 Media,據它獲得的 Slack 聊天(英偉達的內部聊天平臺)、電子郵件和檔案顯示,英偉達正在從 Youtube 和其他幾個來源抓取影片,收集用於其 AI 產品的訓練資料。404 Media 檢視的英偉達內部對話顯示,當參與該專案的員工提出有關使用「禁止商用的研究資料集」和「YouTube 影片」可能產生法律問題時,管理人員告訴他們,他們已獲得公司最高層的批准,可以使用這些內容。一位匿名的前英偉達員工對此表示,員工被要求從 Netflix、YouTube 和其他來源抓取影片,以訓練的 Omniverse 3D 世界生成器、自動駕駛汽車系統和「數字人」產品的 AI 模型。該專案內部命名為 Cosmos(但與公司現有的 Cosmos 深度學習產品不同),尚未向公眾釋出。該專案領導層發給員工的電子郵件顯示,Cosmos 的目標是構建一個最先進的影片基礎模型,「將光傳輸、物理和智慧模擬封裝在一個地方,以解鎖對英偉達至關重要的各種下游應用。」為了收集訓練影片,英偉達員工使用名為「 yt-dlp」的開源 YouTube 影片下載器。他們試圖從 Netflix 等各種來源下載完整影片,但主要集中在 YouTube 影片。404 Media 檢視的電子郵件顯示,專案經理選擇了使用 Amazon Web Services 中的 20 到 30 臺虛擬機器,每天下載相當於 80 年的影片。英偉達研究副總裁兼 Cosmos 專案負責人 Ming-Yu Liu 在 5 月份的一封電子郵件中表示:「我們正在完成 v1 資料 pipeline 並確保必要的計算資源,以構建一個影片資料工廠,該工廠每天可以產生相當於人類一生視覺體驗的訓練資料。」當被問及英偉達使用 YouTube 影片作為其模型的訓練資料時,谷歌發言人告訴 404 Media 稱,該公司「此前的立場仍然有效」。此前 YouTube 執行長 Neal Mohan 表示,如果 OpenAI 使用 YouTube 影片來改進其 AI 影片生成器 Sora,那將「明顯違反」YouTube 使用條款。同樣地,Netflix 發言人告訴 404 Media,公司與英偉達並未就內容採集達成協議,而且該平臺的服務條款不允許抓取內容。不過,英偉達方面似乎並不在意。參與該專案的員工提出的法律問題經常被專案經理駁回並表示,未經許可抓取影片的決定是「行政決定」,他們不需要擔心,而什麼是公平、合乎道德地使用受版權保護的內容以及學術、非商業用途資料集的問題被認為是「懸而未決的法律問題」,他們將來會解決。和其他科技巨頭類似,英偉達聘用學術研究人才發表學術成果,但從 404 Media 獲取的內部郵件可以看出,Cosmos 顯然將用於商業用途。今年三月,一位英偉達的研究員在 Slack 上發帖,提議用《阿凡達》或《指環王》這樣的好萊塢電影來訓練 OpenAI Sora,可能效果會更好。隨後,他的提議得到了公司內的認可,但他也補充道,好萊塢對 AI 可能侵佔版權的事格外敏感。2023 年七月,擁有 16 萬會員的好萊塢三大工會之一 SAG-AFTRA 宣佈罷工,矛頭直指 ChatGPT 和 Stable Diffusion 等生成式 AI 產品,在此之前,美國編劇工會已經罷工 70 多天。Stable Diffusion 存在這樣的情況,即使不輸入對應的提示詞,輸入「動漫畫風的水管工」這樣的模糊描述,Stable Diffusion 會直接生成馬里奧的經典形象。在這個帖子下,一位名叫「Liu」的員工(即英偉達研究副總裁Ming-Yu Liu(劉洺堉)回覆道:「如果不公開發表論文,就不會引來以上負面問題。我們應該先用能下載的影片進行實驗。」之後,有另外一位英偉達研究員又在內網發了一個帖子,他找到了一份訓練影片模型應該優先下載的檔案列表,但是英偉達所使用 HD-VILA-100M 資料集中卻缺少約 230 萬個原始影片。這個不斷擴張的列表中還包含一些知名 YouTuber 的原創影片,比如在北美和知名度類似「大家好我是何同學」的數碼評測博主 Marques Brownlee(MKBHD)。出於對版權的保護,一般的影片資料集往往收錄 URL 連結或者 YouTube ID,一旦作者刪除了原影片,這些內容將不會繼續被包含在資料集中,除非影片作者明確同意其內容被保留和使用。雖然微軟在其 HD-VILA-100M 資料集的使用宣告中明確禁止用於一切商業用途,但是發帖的英偉達員工似乎並不在意,他很快貼出了這份列表對應的 YouTube 連結,並和同事們討論出了用 AWS 虛擬機器換 IP,規避 YouTube 反爬蟲機制的解決方案。除此之外,英偉達的員工還將手伸向了 Google 釋出的大規模影片理解資料集 YouTube-8M。和自行補全微軟的資料集不同,他們和 YouTube 以及 YouTube 現在的母公司的谷歌達成了一筆「交易」,英偉達以每支影片 0.00625 美元(約等於人民幣 4 分錢)的價格買下了 800 萬支影片,並將透過谷歌雲下載。不考慮出賣版權的問題,谷歌可能以為賺回了這些影片的廣告費,但英偉達本來在雲頻寬方面就存在一些限制,在谷歌雲上下載,反而透過能獲得更加穩定和可預測的連線。因此,無論從哪個角度來看,這筆「交易」似乎都對英偉達有利。更令人詫異的是,當有英偉達員工在內網提問:「我們這樣下載 YouTube 影片合理嗎?」「這是一個高層決策。我們已經獲得了使用所有資料的全面批准。」他得到了這樣的回覆。這個決策所允許使用的資料還包含 Netflix 上的影片作品。Netflix 的資料包含很多高質量的人臉資料,在得到批准後,有人在公司內網 @了有在其他大公司「構建大型資料集」的經驗的同事幫忙。同時,Cosmos 團隊還考慮瞭如何有效將遊戲畫面新增到訓練資料中的問題。英偉達高階研究科學家 Jim Fan 在捕獲實時遊戲畫面時也遇到了「監管」的障礙。更新:我一直在與 GeForce Now(GFN)的人員開會,和他們制定計劃。我們將與 GFN 及相關工程團隊緊密合作,開發捕獲實時遊戲資料的方法,擴大 pipeline 的規模,並對資料加以處理用於訓練。高質量的遊戲影片將對「我們的 Sora」提供非常有用的補充...... 因為還沒有用來捕獲實時遊戲影片和動作的裝置,因此還沒有進行統計,但我們將盡快將清理和處理過的 GFN 資料新增到 team-vfm。
今年三月份,Cosmo 專案的影片資料收集達到了一個里程碑:Nvidia 在兩週內完成了 10 萬次影片下載。「進展驚人。現在的問題是我們如何才能獲得大量高質量的 URL。」Liu 在這個帖子中回覆道。5 月下旬,專案組成員收到了一封關於影片資料策略的郵件,宣佈他們已經編譯了 3850 萬個影片 URL。郵件中說:「根據計劃,下週的收集影片的重點仍然是電影、無人機鏡頭、第一人稱視角的鏡頭、自然風光。」郵件中還包含一張圖表,顯示了他們下載的內容型別的百分比。這封郵件透露了一些關鍵技術資訊,包括模型訓練資料中的四個資料集:- Ego-Exo4D:一個多樣化、大規模、多模式、多視角的影片資料集和基準,由 740 名相機佩戴者在全球 13 個城市收集,拍攝了 1286.3 小時的人類熟練活動影片。
- Ego4D:這是一個大規模、以自我為中心的資料集和基準套件,在全球 9 個國家的 74 個地點收集了超過 3,670 小時的日常生活活動影片。
- HOI4D:大規模 4D 以自我為中心的資料集,具有豐富的註釋,可促進類別級別的人 - 物互動研究。HOI4D 由清華大學、北京大學和上海期智研究院的研究人員建立,採用 CC BY-NC 4.0 許可,禁止商業使用。
在另一封郵件中,Cosmos 專案的成員表示:「研究團隊現在正在用多種配置訓練一個 10 億引數的模型,每種配置有 16 個節點。在進一步擴充套件之前,這是一個重要的除錯步驟。我們計劃在幾周內得出結論,然後擴充套件到 100 億引數模型。」「這個更新很棒!」英偉達 CEO 黃仁勳回了這封郵件,他表示:「許多公司都將構建影片基礎模型作為目標,我們完全可以做一個加速的 pipeline。」6 月,專案組成員討論了在保持人工智慧行業競爭力的背景下,模型中哪些型別的內容對英偉達的產品最有用。「NVIDIA 擁有大多數內容公司所沒有的機器人、自動駕駛、Omniverse 和 Avatar。為了最大限度地推動公司發展,我們整理的資料必須能夠很好地適用於這些『殺手級』應用程式」,Cosmos 專案的成員說道。毫無疑問的是,Cosmos 團隊正在開發的模型旨在用於其多種產品的商業用途。在要求這些公司完全公開訓練資料的法案落地之前,他們將繼續利用法律灰色地帶來抓取受版權保護的資料。如果沒有內部郵件或者內網對話洩密,任何人都不知道背地裡到底發生了什麼,而這樣的模型可以讓像 Nvidia、Runway 或 OpenAI 等科技巨頭賺到數十億美元。https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/