OpenAI 再發 Sora 新短片,傳 Sora 兩週內推出;李飛飛團隊出品空間智慧版 ImageNet 丨 RTE 開發者日報

RTE开发者社区發表於2024-11-11

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

01 有話題的新聞

1、OpenAI 再發 Sora 新短片,傳 Sora 兩週內推出

近日,倫敦藝術家 Jon Uriarte 與 OpenAI 聯合創作了一支短片。Jon Uriarte 表示,Sora 的最強之處在於,能夠找到「精確視覺」與意外驚喜之間的平衡。

「Sora 創造的視覺效果讓我驚歎——那種照片級的質量,紋理細節。它生成的影像感覺非常自然,同時具有驚人的精確度。」

談及 Sora 對創作過程的影響, Jon Uriarte 稱:「我沒想到構思一個想法的過程會如此順暢。我對某些「畫面」有清晰的構想,但在創作的過程中,新的想法也自然而然地浮現出來。對我來說,這就像寫作或做白日夢一樣。」另外,據 Runway 聯合創始人 Cristóbal Valenzuela 在 X 平臺引用傳言稱,OpenAI 計劃在大約兩週內釋出 Sora。(@APPSO)

2、CogSound:為無聲影片增加動人音效

CogSound 是智譜最新推出一款基於人工智慧技術的音效生成模型,能夠根據影片內容自動生成與畫面匹配的音效,為無聲影片新增逼真的音訊體驗。

CogSound 的生成能力涵蓋了多種複雜音效,例如爆炸聲、水流聲以及交通工具的聲音等,並透過先進的技術確保音影片的高度同步。

之所以能達到這種效果,是因為 CogSound 採用了一種叫做「分塊時序對齊交叉注意力」的技術,簡單來說就是把影片和音訊分成一小塊一小塊,然後讓它們互相「認識」一下,確保每個音效都能找到對應的畫面,每個畫面也都能找到對應的音效。這樣一來,影片看起來就更加自然流暢,就像原聲配音一樣。

它還採用了「基於 Unet 的潛空間擴散」和「旋轉位置編碼」等技術,這些技術名字聽起來很複雜,但其實原理很簡單,就是為了讓 CogSound 生成的聲音更加逼真、更加連貫,避免出現「斷斷續續」或者「錯位」的情況。

CogSound 將與智譜新推出的影片生成模型 CogVideoX v1.5 一起,成為「新清影」,提供更多特色的影片生成服務。(@AIbase 基地)

3、OpenAI 安全系統團隊負責人宣佈離職

近期,OpenAI 安全系統團隊負責人翁荔(Lilian Weng)在 X 平臺宣佈,她將於 11 月 15 日離職,結束在 OpenAI 長達七年的職業生涯。

在離職信中,她表示離開 OpenAI 是一個艱難的選擇。在 OpenAI 任職期間,翁荔曾擔任安全系統團隊負責人和研究與安全副總裁等職位,同時還參與過 GPT-4 專案的預訓練、強化學習 & 對齊等工作。

另外,據 TechCrunch 的報導,OpenAI 的高管和安全研究人員正在努力進行過渡,以接手翁荔的工作。OpenAI 發言人還在一份電子郵件宣告中表示:「我們深深感謝 Lilian 對突破性安全研究和建立嚴格的技術保障所做的貢獻。」(@APPSO)

4、古爾曼:Vision Pro 的第一個殺手級應用程式已經到來

在最新一期的《Power On》中,彭博社記者 Mark Gurman 表示,Apple Vision Pro 引入的虛擬曲面顯示器功能,代表了 Vision Pro 的第一個真正的殺手級應用程式。

Apple Vision Pro 可作為 Mac 的外接螢幕使用,在 6 月的 WWDC 上,蘋果也宣佈將進一步完善該功能,將虛擬曲面顯示器模式引入預設尺寸,並提供新的寬屏和超寬顯示器選項。

Gurman 在報導中指出,蘋果在上週釋出了這些功能的測試版。在他看來,蘋果這一舉措相當於提供了一個高解析度的 Mac 外接顯示器,視覺上像是有無限大的螢幕空間一般。他還表示,在這一功能推出之後,他使用 Vision Pro 頻率有了明顯提升。

Mark Gurman 稱,寬屏和超寬屏顯示器選項,將作為 VisionOS 2.2 的一部分提供給所有 Vision Pro 使用者,該版本預計將於 12 月初發布。(@APPSO)

5、空間智慧版 ImageNet 來了!李飛飛吳佳俊團隊出品

史丹佛李飛飛和吳佳俊團隊釋出了 HourVideo,這是一個新的影片基準資料集,旨在評估 AI 對長達一小時的理解能力。該資料集包含來自 Ego4D 的 500 個第一人稱視角影片,時長影片在 20 到 120 分鐘,涉及 77 種日常活動。與以往的資料集不同,一小時影片測試長影片理解中的多模式能力,任務包括總結、感知、視覺推理、導航等 18 個子任務。

HourVideo 的生成資料過程包括篩選影片、生成多選問題(MCQ)、模型最佳化、盲選和專家最佳化,確保問題需要長影片理解才能準確回答。測試顯示,人類在該基準上的表現明顯優於現有的多模態模型,其中準確率達到 85.0%,領先於最佳多模態模型 Gemini Pro 的 37.3%。人類實驗還驗證了分任務評估的有效性,大幅降低了計算成本。

HourVideo 團隊計劃擴充套件資料集,納入更廣泛的影片源和其他感官模式,同時強調開發過程中的隱私和倫理考量。專案的主要中斷包括李飛飛和她的博士生 Agrim Gupta、Keshigeyan Chandrasegaran,以及景觀助理教授吳佳俊。(@ 極客公園)

6、媒體爆料:發現新一代大模型「沒有那麼大飛躍」,OpenAI 已經改變策略

OpenAI 即將推出的新旗艦模型「Orion」,其進步幅度前兩代有所改變,這挑戰了 AI 領域的「縮放調整」。據 The Information 報導,「Orion」已完成 20% 的訓練,儘管表現接近 GPT-4,但進步不如前兩代飛躍。該模型在語言任務上表現出色,但在編碼等任務上的表現或未超越前作。此外,其執行成本最高。

OpenAI 的員工指出,Orion 部分接受了 AI 生成的資料訓練,這可能導致其效能與舊模型相似。隨著大規模資料減少,計算成本增加,AI 公司在訓練升級的改進上投入更多,探索新 OpenAI 專門構建團隊最佳化訓練資料應用,並透過複雜任務和人工評分提升模型能力。

然而,訓練和執行 AI 模型的成本巨大,模型複雜度增加導致推理成本急劇下降。儘管如此,行業內領袖如 Sam Altman 和馬克·財務祖克伯仍然認為傳統擴充套件法未到極限,OpenAI 等公司繼續投資建設資料中心以增強計算能力。

但 OpenAI 研究員諾姆·布朗在 TEDAI 大會上表示,未來更先進的模型可能帶來數百億美元的開支,這對構成巨大的挑戰。他質疑財務是否應投入如此高額的成本,暗示縮放正規化可能難以長期維持。(@ 極客公園)

02 有態度的觀點

1、英偉達 CEO 黃仁勳:AI 員工即將成為職場新常態

在最新的企業活動中,英偉達(Nvidia)執行長黃仁勳(Jensen Huang)表示,人工智慧(AI)員工將很快成為現代職場的標準配置。他強調,隨著技術的進步和應用的普及,AI 將在各個行業中扮演越來越重要的角色。

黃仁勳指出,AI 不僅能夠提升工作,還能夠承擔一些性、繁瑣的任務,解放人類員工的時間和精力。他提到,企業在利用 AI 技術的過程中,能夠實現更高的力,並且降低運營成本。這一趨勢將推動企業在智慧化轉型方面不斷前行。

在談到 AI 員工的未來時,黃仁勳充滿信心。他預測,未來五到十年內,許多企業將會採用 AI 作為助理,幫助員工處理日常工作。這樣的變化將使得員工能夠更專注於創新和決策,而非耗費大量時間在機械性的工作上。

他還補充道,隨著人工智慧技術的不斷成熟,AI 的學習和適應能力將顯著提高。未來的 AI 將能夠根據企業的具體需求進行個性化調整,成為每個團隊中不可或缺的一部分。這樣的發展不僅會改變員工的工作方式,也將重塑企業的運營模式。

黃仁勳在活動中還展示了英偉達在 AI 領域的最新技術和產品,強調了公司在推動這一趨勢中的重要角色。他認為,AI 技術的進步是企業未來成功的關鍵,也是全球經濟發展的新動力。(@AIbase 基地)

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章