Vidu 全球首發「主體參照」新功能,一鍵同步角色特徵;GPT-4o 實時音訊專案負責人離職創業丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的新聞」、「有態度的觀點」、「有意思的資料」、「有思考的文章」、「有看點的會議」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、Reflection 70B AI 模型「塌房」:第三方基準測試結果不佳,不如 LLaMA-3.1-70B
根據科技媒體 The Decoder 昨日(9 月 10 日)報導,對比平臺 Artificial Analysis 相關資料表明,Reflection 70B AI 模型在基準測試中的表現,實際上不及 Meta 的 LLaMA-3.1-70B。
針對 AI 模型基準測試結果不佳,Reflection 公司執行長馬特・舒默(Matt Shumer)表示,上傳模型權重至 Hugging Face 時遇到問題,所使用的權重是多個不同模型的混合體,而他們內部託管的模型則顯示出更佳的結果。
舒默隨後向部分使用者提供了獨家訪問內部模型的許可權,Artificial Analysis 重做了測試,並報告結果優於公開 API,只是他們無法確認所訪問的具體是哪個模型。
Reflection 在 Hugging Face 已上傳了新的模型,不過這些模型在測試中的表現明顯遜於之前透過私有 API 提供的模型。有使用者還發現了證據,表明 Reflection API 有時會呼叫 Anthropic Claude 3.5 Sonnet 以及 OpenAI。(@IT 之家)
2、Vidu 全球首發 AI 影片生成「主體參照」新功能,一鍵同步角色特徵
7 月份正式上線的國產影片大模型 Vidu,於昨日(9 月 11 日)的生樹科技媒體開放日上釋出了「主體參照」(Subject Consistency)功能,該功能能夠實現對任意主體的一致性生成,讓影片生成更加穩定、可控。
Vidu 主體參照功能是 Vidu AI 全球首發的參考一致性新功能,能夠實現使用者上傳單一主體的圖片,如真人、2D 或 3D 角色,在生成的影片中保持這些主體角色的一致性。Vidu 主體參照功能不僅支援對角色的面容、半身、全身特徵進行精確控制,還涵蓋了多種角色型別和畫風,包括寫實風格和各種藝術風格。
目前該功能面向使用者免費開放,註冊即可體驗!體驗地址:www.vidu.studio(@Founder Park)
3、GPT-4o 實時音訊專案負責人離職創業,曾在 OpenAI 最早提出構建「Her」
今年 5 月份,OpenAI 釋出了震驚世界的 GPT-4o。這個模型可以跨越文字、視覺和音訊,以一種非常自然的形式和人類語音對話,延遲低到與人類在對話中的響應時間相似。而且,它允許使用者隨時打斷,並能感知和回應使用者的情緒。因此,該模型釋出後,很多人說科幻電影《Her》中的場景照進了現實。
此次離職的 Alexis Conneau 就是 GPT-4o 專案的關鍵人物之一。離職前,他是 OpenAI 音訊 AGI 研究負責人,也是 OpenAI 最早提出 Her 願景的人。他在領英的個人簡介中寫道,他是「專注於多模態和音訊 AGI 的人工智慧研究員,在 OpenAI 領導了『Her』的研究(GPT4-o 和 GPT-5),這是首個原生整合音訊的 GPT 模型。」
關於離職後的創業方向,Conneau 還沒有透露詳細資訊。但在被問及「AGI 時間表」時,他回答說自己更想追求「通用情感智慧(General Emotional Intelligence,AGEI)」。(@ 機器之心)
4、小模型越級挑戰 14 倍引數大模型,谷歌開啟 Test-Time 端新的 Scaling Law
谷歌 DeepMind 的最新研究引發了廣泛討論,甚至有人猜測這可能是 OpenAI 即將釋出的新模型「草莓」所採用的方法。研究的核心是透過根據 prompt 的難度,在推理階段動態分配計算資源,從而最佳化大模型的推理效率。該方法在某些情況下比簡單擴充套件模型引數更為經濟有效。具體而言,研究團隊探討了如何在一定計算預算內,使用不同的計算策略解決問題,並評估這些策略的有效性。
他們研究了兩種主要的測試時計算擴充套件機制:一是使用過程密集驗證器獎勵模型(PRM)來指導搜尋演算法,動態調整計算策略,以減少不必要的計算;二是根據 prompt 自適應地修訂模型的響應,透過逐步修改先前生成的答案來提高精度。研究發現,不同計算策略的效果依賴於 prompt 的難度,他們提出了「計算最優」的擴充套件策略,能夠以更少的計算資源超越傳統的 best-of-N 方法。
研究還比較了增加預訓練與測試時計算的效果,結論顯示,簡單和中等難度問題上,測試時計算更有效,而對於更復雜的問題,增加預訓練的計算量可能更為有效。這項研究表明,儘管測試時的計算最佳化無法完全替代大規模預訓練,但在某些場景中有顯著優勢。
有網友將此研究與 OpenAI「草莓」模型聯絡起來,猜測草莓模型可能使用類似的計算最佳化策略,透過在回答前「思考」來最佳化推理過程。這一猜測引發了廣泛討論和推測。( @LLM Space)
5、Pixtral 12B 釋出:Mistral 首款多模態 AI 模型,120 億引數、24GB 大小
法國 AI 初創公司 Mistral 於昨日(9 月 11 日)釋出 Pixtral 12B,這是該公司首款能夠同時處理影像和文字的多模態 AI 大語音模型。
Pixtral 12B 模型擁有 120 億引數,大小約為 24GB,引數大致對應於模型的解題能力,擁有更多引數的模型通常比引數較少的模型表現更優。Pixtral 12B 模型基於文字模型 Nemo 12B 構建,能夠回答關於任意數量、任意尺寸影像的問題。
與 Anthropic 的 Claude 系列和 OpenAI 的 GPT-4o 等其他多模態模型類似,Pixtral 12B 理論上應能執行諸如為影像新增描述和統計照片中物體數量等任務。使用者可以下載、微調 Pixtral 12B 模型,並能依據 Apache 2.0 許可證使用。
Mistral 開發者關係負責人 Sophia Yang 在 X 平臺的一篇帖子中表示,Pixtral 12B 很快將在 Mistral 的聊天機器人和 API 服務平臺 Le Chat 及 Le Plateforme 上開放測試。(@IT 之家)
02 有態度的觀點
1、百度李彥宏:未來大模型之間的差距將拉大
百度 CEO 李彥宏的一次內部講話內容曝光,談到了業界對於大模型的認識誤區,涵蓋大模型競爭、開源模型效率、智慧體趨勢等。
李彥宏認為,未來大模型之間的差距可能會越來越大,模型的天花板很高,現在距離理想情況還相差非常遠,所以模型要不斷快速迭代、更新和升級;需要能幾年、十幾年如一日地投入,需要不斷滿足使用者需求,關注大模型成本的降低和效率的提升。大模型應用落地也將經歷從輔助工具、到智慧體、再到 Al Worker 的三個階段。
李彥宏指出,模型之間的差距是多維度的,一個維度是「能力」方面:理解能力、生成能力、邏輯推理能力、記憶能力等;另一個維度是「成本」方面:想具備這個能力或者想回答這些問題,付出的成本是多少。(@ 愛範兒)
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- Meta 公佈首款 AR 眼鏡 Orion,成本 1 萬美元;OpenAI CTO Mira Murati 離職丨 RTE 開發者日報OpenAI開發者日報
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- Meta AR 眼鏡團隊前負責人加入 OpenAI;visionOS 2.2 Beta 引入超寬屏投屏模式丨 RTE 開發者日報OpenAI模式開發者日報
- Meta SAM 2:實時分割圖片和影片中物件;Apple Intelligence 首個開發者測試版釋出丨 RTE 開發者日報物件APPIntel開發者日報
- OpenAI 釋出全新生成式模型 GPT-4o;位元組收購音訊裝置公司 Oladance 丨 RTE 開發者日報 Vol.203OpenAI模型GPT音訊開發者日報
- 微軟預計年底實現實時語音介面;矽基智慧開源 AI 數字人互動平臺 Duix 丨 RTE 開發者日報微軟AIUI開發者日報
- ChatGPT 開啟「眼睛」,實時攝像頭對話來了;崑崙萬維推出實時語音助手 Skyo 丨 RTE 開發者日報ChatGPT開發者日報
- ChatGPT 開啟「眼睛」,實時攝像頭對話來了;崑崙萬維推出實時語音助手 Skyo丨 RTE 開發者日報ChatGPT開發者日報
- 特斯拉Autopilot自動駕駛軟體負責人離職自動駕駛
- ChatGPT 支援語音實時搜尋;Meta Ray-Ban 智慧眼鏡新增影片識別與實時語音翻譯功能丨 RTE 開發者日報ChatGPT開發者日報
- 最強國產 Sora 大模型 Vidu 釋出,長度可達 16 秒;微信檔案 3 小時內可撤回丨 RTE 開發者日報 Vol.194Sora大模型開發者日報
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- 蘋果開源高效語言模型 OpenELM;全球首個 AI 基因編輯器開源丨 RTE 開發者日報 Vol.192蘋果模型AI開發者日報
- 特斯拉宣佈 10% 大裁員;劉強東數字人開啟直播首秀丨 RTE 開發者日報 Vol.185開發者日報
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- 突發!Sora負責人Tim Brooks離職,還是被谷歌搶走的Sora谷歌
- 零一萬物 Yi-Lightning:超越 GPT-4o 衝擊全球榜單;阿里國際 Marco 翻譯大模型釋出丨 RTE 開發者日報GPT阿里大模型開發者日報
- 談談資料治理角色和職責:資料管理的關鍵參與者
- 美眾議院透過強制要求 TikTok 剝離的法案; 首個 AI 軟體工程師上線丨 RTE 開發者日報 Vol.165AI軟體工程工程師開發者日報
- 平價 Vision Pro 需搭配 Mac/iPhone;OpenAI 收購實時分析資料庫公司丨 RTE 開發者日報MaciPhoneOpenAI資料庫開發者日報
- 活動報名丨實時互動 AI 開發者年度聚會!RTE Open Day@RTE2024,10.25/26 北京AI
- ElevenLabs Voice Design :可透過文字建立個性化語音;蘋果推出首個開發者測試版丨 RTE 開發者日報蘋果開發者日報
- 百度釋出 AI 眼鏡:全球首搭中文大模型,支援邊走邊問;OpenAI 聯合創始人宣佈迴歸,主抓重大技術創新丨 RTE 開發者日報大模型OpenAI開發者日報
- 研發效能負責人/研發效能1號位 |DevOps負責人dev
- 活動報名:Voice Agent 開發者分享會丨 RTE Meetup
- 美國科技行業今年裁員超 5 萬人;寧德時代一年淨賺超 440 億丨 RTE 開發者日報 Vol.167行業開發者日報
- OpenAI 收購桌面實時協作公司 Multi;iOS 18 開放 iPhone 映象測試丨 RTE 開發者日報 Vol.231OpenAIiOSiPhone開發者日報
- 18 個實時音視訊開發中會用到開源專案
- 18個實時音視訊開發中會用到開源專案
- 語音生成公司 ElevenLabs 估值達 30 億美元;OpenAI Realtime API 很好也很貴丨 RTE 開發者日報OpenAIAPI開發者日報
- 谷歌破解 OpenAI 模型關鍵資訊;微軟更改預設瀏覽器,不再主推 Edge 丨 RTE 開發者日報 Vol.163谷歌OpenAI模型微軟瀏覽器開發者日報
- 阿里 Qwen2.5 開源釋出;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 開發者日報阿里Go模型開發者日報
- Meta 研發大型 AI 推薦引擎;全球首部全面監管 AI 法規將落地丨 RTE 開發者日報 Vol.160AI開發者日報
- Vision Pro 5 月將在中國區發售;全球科技大廠 1 月已裁員 32000 人丨RTE 開發者日報 Vol.145開發者日報
- 創紀錄:英偉達市值一日增 2770 億美元;Xiaomi 14 Ultra 正式釋出丨 RTE 開發者日報 Vol.150開發者日報
- 必備丨iOS12的新功能讓手機一鍵發簡訊報警iOS
- Pi 母公司將開發情感 AI 商業機器人;Meta 科學家:Sora 不是影片生成唯一方向丨 RTE 開發者日報 Vol.214AI機器人Sora開發者日報
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報