OpenAI 再發 Sora 新短片,傳 Sora 兩週內推出;李飛飛團隊出品空間智慧版 ImageNet 丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、OpenAI 再發 Sora 新短片,傳 Sora 兩週內推出
近日,倫敦藝術家 Jon Uriarte 與 OpenAI 聯合創作了一支短片。Jon Uriarte 表示,Sora 的最強之處在於,能夠找到「精確視覺」與意外驚喜之間的平衡。
「Sora 創造的視覺效果讓我驚歎——那種照片級的質量,紋理細節。它生成的影像感覺非常自然,同時具有驚人的精確度。」
談及 Sora 對創作過程的影響, Jon Uriarte 稱:「我沒想到構思一個想法的過程會如此順暢。我對某些「畫面」有清晰的構想,但在創作的過程中,新的想法也自然而然地浮現出來。對我來說,這就像寫作或做白日夢一樣。」另外,據 Runway 聯合創始人 Cristóbal Valenzuela 在 X 平臺引用傳言稱,OpenAI 計劃在大約兩週內釋出 Sora。(@APPSO)
2、CogSound:為無聲影片增加動人音效
CogSound 是智譜最新推出一款基於人工智慧技術的音效生成模型,能夠根據影片內容自動生成與畫面匹配的音效,為無聲影片新增逼真的音訊體驗。
CogSound 的生成能力涵蓋了多種複雜音效,例如爆炸聲、水流聲以及交通工具的聲音等,並透過先進的技術確保音影片的高度同步。
之所以能達到這種效果,是因為 CogSound 採用了一種叫做「分塊時序對齊交叉注意力」的技術,簡單來說就是把影片和音訊分成一小塊一小塊,然後讓它們互相「認識」一下,確保每個音效都能找到對應的畫面,每個畫面也都能找到對應的音效。這樣一來,影片看起來就更加自然流暢,就像原聲配音一樣。
它還採用了「基於 Unet 的潛空間擴散」和「旋轉位置編碼」等技術,這些技術名字聽起來很複雜,但其實原理很簡單,就是為了讓 CogSound 生成的聲音更加逼真、更加連貫,避免出現「斷斷續續」或者「錯位」的情況。
CogSound 將與智譜新推出的影片生成模型 CogVideoX v1.5 一起,成為「新清影」,提供更多特色的影片生成服務。(@AIbase 基地)
3、OpenAI 安全系統團隊負責人宣佈離職
近期,OpenAI 安全系統團隊負責人翁荔(Lilian Weng)在 X 平臺宣佈,她將於 11 月 15 日離職,結束在 OpenAI 長達七年的職業生涯。
在離職信中,她表示離開 OpenAI 是一個艱難的選擇。在 OpenAI 任職期間,翁荔曾擔任安全系統團隊負責人和研究與安全副總裁等職位,同時還參與過 GPT-4 專案的預訓練、強化學習 & 對齊等工作。
另外,據 TechCrunch 的報導,OpenAI 的高管和安全研究人員正在努力進行過渡,以接手翁荔的工作。OpenAI 發言人還在一份電子郵件宣告中表示:「我們深深感謝 Lilian 對突破性安全研究和建立嚴格的技術保障所做的貢獻。」(@APPSO)
4、古爾曼:Vision Pro 的第一個殺手級應用程式已經到來
在最新一期的《Power On》中,彭博社記者 Mark Gurman 表示,Apple Vision Pro 引入的虛擬曲面顯示器功能,代表了 Vision Pro 的第一個真正的殺手級應用程式。
Apple Vision Pro 可作為 Mac 的外接螢幕使用,在 6 月的 WWDC 上,蘋果也宣佈將進一步完善該功能,將虛擬曲面顯示器模式引入預設尺寸,並提供新的寬屏和超寬顯示器選項。
Gurman 在報導中指出,蘋果在上週釋出了這些功能的測試版。在他看來,蘋果這一舉措相當於提供了一個高解析度的 Mac 外接顯示器,視覺上像是有無限大的螢幕空間一般。他還表示,在這一功能推出之後,他使用 Vision Pro 頻率有了明顯提升。
Mark Gurman 稱,寬屏和超寬屏顯示器選項,將作為 VisionOS 2.2 的一部分提供給所有 Vision Pro 使用者,該版本預計將於 12 月初發布。(@APPSO)
5、空間智慧版 ImageNet 來了!李飛飛吳佳俊團隊出品
史丹佛李飛飛和吳佳俊團隊釋出了 HourVideo,這是一個新的影片基準資料集,旨在評估 AI 對長達一小時的理解能力。該資料集包含來自 Ego4D 的 500 個第一人稱視角影片,時長影片在 20 到 120 分鐘,涉及 77 種日常活動。與以往的資料集不同,一小時影片測試長影片理解中的多模式能力,任務包括總結、感知、視覺推理、導航等 18 個子任務。
HourVideo 的生成資料過程包括篩選影片、生成多選問題(MCQ)、模型最佳化、盲選和專家最佳化,確保問題需要長影片理解才能準確回答。測試顯示,人類在該基準上的表現明顯優於現有的多模態模型,其中準確率達到 85.0%,領先於最佳多模態模型 Gemini Pro 的 37.3%。人類實驗還驗證了分任務評估的有效性,大幅降低了計算成本。
HourVideo 團隊計劃擴充套件資料集,納入更廣泛的影片源和其他感官模式,同時強調開發過程中的隱私和倫理考量。專案的主要中斷包括李飛飛和她的博士生 Agrim Gupta、Keshigeyan Chandrasegaran,以及景觀助理教授吳佳俊。(@ 極客公園)
6、媒體爆料:發現新一代大模型「沒有那麼大飛躍」,OpenAI 已經改變策略
OpenAI 即將推出的新旗艦模型「Orion」,其進步幅度前兩代有所改變,這挑戰了 AI 領域的「縮放調整」。據 The Information 報導,「Orion」已完成 20% 的訓練,儘管表現接近 GPT-4,但進步不如前兩代飛躍。該模型在語言任務上表現出色,但在編碼等任務上的表現或未超越前作。此外,其執行成本最高。
OpenAI 的員工指出,Orion 部分接受了 AI 生成的資料訓練,這可能導致其效能與舊模型相似。隨著大規模資料減少,計算成本增加,AI 公司在訓練升級的改進上投入更多,探索新 OpenAI 專門構建團隊最佳化訓練資料應用,並透過複雜任務和人工評分提升模型能力。
然而,訓練和執行 AI 模型的成本巨大,模型複雜度增加導致推理成本急劇下降。儘管如此,行業內領袖如 Sam Altman 和馬克·財務祖克伯仍然認為傳統擴充套件法未到極限,OpenAI 等公司繼續投資建設資料中心以增強計算能力。
但 OpenAI 研究員諾姆·布朗在 TEDAI 大會上表示,未來更先進的模型可能帶來數百億美元的開支,這對構成巨大的挑戰。他質疑財務是否應投入如此高額的成本,暗示縮放正規化可能難以長期維持。(@ 極客公園)
02 有態度的觀點
1、英偉達 CEO 黃仁勳:AI 員工即將成為職場新常態
在最新的企業活動中,英偉達(Nvidia)執行長黃仁勳(Jensen Huang)表示,人工智慧(AI)員工將很快成為現代職場的標準配置。他強調,隨著技術的進步和應用的普及,AI 將在各個行業中扮演越來越重要的角色。
黃仁勳指出,AI 不僅能夠提升工作,還能夠承擔一些性、繁瑣的任務,解放人類員工的時間和精力。他提到,企業在利用 AI 技術的過程中,能夠實現更高的力,並且降低運營成本。這一趨勢將推動企業在智慧化轉型方面不斷前行。
在談到 AI 員工的未來時,黃仁勳充滿信心。他預測,未來五到十年內,許多企業將會採用 AI 作為助理,幫助員工處理日常工作。這樣的變化將使得員工能夠更專注於創新和決策,而非耗費大量時間在機械性的工作上。
他還補充道,隨著人工智慧技術的不斷成熟,AI 的學習和適應能力將顯著提高。未來的 AI 將能夠根據企業的具體需求進行個性化調整,成為每個團隊中不可或缺的一部分。這樣的發展不僅會改變員工的工作方式,也將重塑企業的運營模式。
黃仁勳在活動中還展示了英偉達在 AI 領域的最新技術和產品,強調了公司在推動這一趨勢中的重要角色。他認為,AI 技術的進步是企業未來成功的關鍵,也是全球經濟發展的新動力。(@AIbase 基地)
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 蘋果挖走大量谷歌人才,建立神秘人工智慧實驗室;李飛飛創業成立「空間智慧」公司丨 RTE 開發者日報 Vol.197蘋果谷歌人工智慧創業開發者日報
- Hume AI 語音控制功能:建立個性化語音;李飛飛空間智慧首個模型:單圖生成 3D 互動場景丨 RTE 開發者日報AI模型3D開發者日報
- 李飛飛「空間智慧」系列新進展,吳佳俊團隊新「BVS」套件評估計算機視覺模型套件計算機視覺模型
- 李飛飛團隊提出ReKep,讓機器人具備空間智慧,還能整合GPT-4o機器人GPT
- 微軟或開發新模型與 OpenAI 競爭;蘋果或將推出 Apple Pencil Pro 丨 RTE 開發者日報 Vol.198微軟模型OpenAI蘋果APP開發者日報
- 李飛飛「空間智慧」之後,上交、智源、北大等提出空間大模型SpatialBot大模型
- 前 OpenAI 首席科學家建「安全超級智慧」實驗室;Meta 重組元宇宙團隊丨 RTE 開發者日報 Vol.228OpenAI元宇宙開發者日報
- Meta AR 眼鏡團隊前負責人加入 OpenAI;visionOS 2.2 Beta 引入超寬屏投屏模式丨 RTE 開發者日報OpenAI模式開發者日報
- SpaceX 星艦週四晚八點再試飛;Backseat AI 釋出《英雄聯盟》實時輔導工具丨 RTE 開發者日報 Vol.219AI開發者日報
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- 李飛飛任CEO,空間智慧公司World Labs亮相,全明星陣容曝光
- 李飛飛解讀創業方向「空間智慧」,讓AI真正理解世界創業AI
- 最強國產 Sora 大模型 Vidu 釋出,長度可達 16 秒;微信檔案 3 小時內可撤回丨 RTE 開發者日報 Vol.194Sora大模型開發者日報
- Pi 母公司將開發情感 AI 商業機器人;Meta 科學家:Sora 不是影片生成唯一方向丨 RTE 開發者日報 Vol.214AI機器人Sora開發者日報
- ElevenLabs Voice Design :可透過文字建立個性化語音;蘋果推出首個開發者測試版丨 RTE 開發者日報蘋果開發者日報
- Hume AI 推出 EVI 2 情感模型;OpenAI o1 模型問世,模擬人類思考問題 丨 RTE 開發者日報模型OpenAI開發者日報
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- 中國教育 AI 產品正在成為百萬美國學生的輔導老師;李飛飛:大模型不存在主觀感覺能力丨 RTE 開發者日報 Vol.213AI大模型開發者日報
- 華人包攬CVPR 2019最佳論文,李飛飛ImageNet成就經典
- 微軟開發者大會推出 60 個新發布;阿里雲和百度加入大模型「價格戰」丨 RTE 開發者日報 Vol.209微軟阿里大模型開發者日報
- 馬斯克突擊訪華;谷歌 Python 基礎團隊全數被裁;丨 RTE 開發者日報 Vol.195馬斯克谷歌Python開發者日報
- 斯嘉麗·約翰遜指控 OpenAI 非法使用其聲音;微軟推出 AI 工具「回顧」(Recall)丨 RTE 開發者日報 Vol.208OpenAI微軟開發者日報
- ChatGPT 向更多使用者推出高階語音模式:支援 50 種語言;位元組釋出兩款新影片生成大模型丨 RTE 開發者日報ChatGPT模式大模型開發者日報
- 李飛飛創業之後首個專訪:視覺空間智慧與語言一樣根本創業視覺
- 語音生成公司 ElevenLabs 估值達 30 億美元;OpenAI Realtime API 很好也很貴丨 RTE 開發者日報OpenAIAPI開發者日報
- 平價 Vision Pro 需搭配 Mac/iPhone;OpenAI 收購實時分析資料庫公司丨 RTE 開發者日報MaciPhoneOpenAI資料庫開發者日報
- 李飛飛離開後,猜畫小歌打敗眾多開發工具,成2018谷歌開發者大會主角?谷歌
- 李飛飛團隊年度報告揭底大模型訓練成本:Gemini Ultra是GPT-4的2.5倍大模型GPT
- 李飛飛團隊新論文:新網路新策略,讓AI通過視覺觀察實現因果歸納AI視覺
- 李飛飛團隊最新論文:如何對影像中的實體精準“配對”?
- 朱松純將回國加入清華,曾對李飛飛建立ImageNet有啟示
- Meta 公佈首款 AR 眼鏡 Orion,成本 1 萬美元;OpenAI CTO Mira Murati 離職丨 RTE 開發者日報OpenAI開發者日報
- 11Labs 支援打造對話 AI 智慧體;阿里推出大模型 Qwen2.5-Turbo 速度提升 4.3 倍丨 RTE 開發者日報AI智慧體阿里大模型開發者日報
- OpenAI 收購桌面實時協作公司 Multi;iOS 18 開放 iPhone 映象測試丨 RTE 開發者日報 Vol.231OpenAIiOSiPhone開發者日報
- 清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路3D
- OpenAI Sora真的有自己的物理模型嗎?OpenAISora模型
- “仍有 5 億人堅持用 QQ”;馬斯克:本週開源 xAI 人工智慧助手丨 RTE 開發者日報 Vol.162馬斯克AI人工智慧開發者日報
- ChatGPT 即將登陸 iPhone;史丹佛推出 AI 輔助全息成像技術丨 RTE 開發者日報 Vol.202ChatGPTiPhoneAI開發者日報