Vidu 全球首發「主體參照」新功能,一鍵同步角色特徵;GPT-4o 實時音訊專案負責人離職創業丨 RTE 開發者日報

RTE开发者社区發表於2024-09-12

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的新聞」、「有態度的觀點」、「有意思的資料」、「有思考的文章」、「有看點的會議」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

01 有話題的新聞

1、Reflection 70B AI 模型「塌房」:第三方基準測試結果不佳,不如 LLaMA-3.1-70B

根據科技媒體 The Decoder 昨日(9 月 10 日)報導,對比平臺 Artificial Analysis 相關資料表明,Reflection 70B AI 模型在基準測試中的表現,實際上不及 Meta 的 LLaMA-3.1-70B。

針對 AI 模型基準測試結果不佳,Reflection 公司執行長馬特・舒默(Matt Shumer)表示,上傳模型權重至 Hugging Face 時遇到問題,所使用的權重是多個不同模型的混合體,而他們內部託管的模型則顯示出更佳的結果。

舒默隨後向部分使用者提供了獨家訪問內部模型的許可權,Artificial Analysis 重做了測試,並報告結果優於公開 API,只是他們無法確認所訪問的具體是哪個模型。

Reflection 在 Hugging Face 已上傳了新的模型,不過這些模型在測試中的表現明顯遜於之前透過私有 API 提供的模型。有使用者還發現了證據,表明 Reflection API 有時會呼叫 Anthropic Claude 3.5 Sonnet 以及 OpenAI。(@IT 之家)

2、Vidu 全球首發 AI 影片生成「主體參照」新功能,一鍵同步角色特徵

7 月份正式上線的國產影片大模型 Vidu,於昨日(9 月 11 日)的生樹科技媒體開放日上釋出了「主體參照」(Subject Consistency)功能,該功能能夠實現對任意主體的一致性生成,讓影片生成更加穩定、可控。

Vidu 主體參照功能是 Vidu AI 全球首發的參考一致性新功能,能夠實現使用者上傳單一主體的圖片,如真人、2D 或 3D 角色,在生成的影片中保持這些主體角色的一致性。Vidu 主體參照功能不僅支援對角色的面容、半身、全身特徵進行精確控制,還涵蓋了多種角色型別和畫風,包括寫實風格和各種藝術風格。

目前該功能面向使用者免費開放,註冊即可體驗!體驗地址:www.vidu.studio(@Founder Park)

3、GPT-4o 實時音訊專案負責人離職創業,曾在 OpenAI 最早提出構建「Her」

今年 5 月份,OpenAI 釋出了震驚世界的 GPT-4o。這個模型可以跨越文字、視覺和音訊,以一種非常自然的形式和人類語音對話,延遲低到與人類在對話中的響應時間相似。而且,它允許使用者隨時打斷,並能感知和回應使用者的情緒。因此,該模型釋出後,很多人說科幻電影《Her》中的場景照進了現實。

此次離職的 Alexis Conneau 就是 GPT-4o 專案的關鍵人物之一。離職前,他是 OpenAI 音訊 AGI 研究負責人,也是 OpenAI 最早提出 Her 願景的人。他在領英的個人簡介中寫道,他是「專注於多模態和音訊 AGI 的人工智慧研究員,在 OpenAI 領導了『Her』的研究(GPT4-o 和 GPT-5),這是首個原生整合音訊的 GPT 模型。」
關於離職後的創業方向,Conneau 還沒有透露詳細資訊。但在被問及「AGI 時間表」時,他回答說自己更想追求「通用情感智慧(General Emotional Intelligence,AGEI)」。(@ 機器之心)

4、小模型越級挑戰 14 倍引數大模型,谷歌開啟 Test-Time 端新的 Scaling Law

谷歌 DeepMind 的最新研究引發了廣泛討論,甚至有人猜測這可能是 OpenAI 即將釋出的新模型「草莓」所採用的方法。研究的核心是透過根據 prompt 的難度,在推理階段動態分配計算資源,從而最佳化大模型的推理效率。該方法在某些情況下比簡單擴充套件模型引數更為經濟有效。具體而言,研究團隊探討了如何在一定計算預算內,使用不同的計算策略解決問題,並評估這些策略的有效性。

他們研究了兩種主要的測試時計算擴充套件機制:一是使用過程密集驗證器獎勵模型(PRM)來指導搜尋演算法,動態調整計算策略,以減少不必要的計算;二是根據 prompt 自適應地修訂模型的響應,透過逐步修改先前生成的答案來提高精度。研究發現,不同計算策略的效果依賴於 prompt 的難度,他們提出了「計算最優」的擴充套件策略,能夠以更少的計算資源超越傳統的 best-of-N 方法。

研究還比較了增加預訓練與測試時計算的效果,結論顯示,簡單和中等難度問題上,測試時計算更有效,而對於更復雜的問題,增加預訓練的計算量可能更為有效。這項研究表明,儘管測試時的計算最佳化無法完全替代大規模預訓練,但在某些場景中有顯著優勢。

有網友將此研究與 OpenAI「草莓」模型聯絡起來,猜測草莓模型可能使用類似的計算最佳化策略,透過在回答前「思考」來最佳化推理過程。這一猜測引發了廣泛討論和推測。( @LLM Space)

5、Pixtral 12B 釋出:Mistral 首款多模態 AI 模型,120 億引數、24GB 大小

法國 AI 初創公司 Mistral 於昨日(9 月 11 日)釋出 Pixtral 12B,這是該公司首款能夠同時處理影像和文字的多模態 AI 大語音模型。

Pixtral 12B 模型擁有 120 億引數,大小約為 24GB,引數大致對應於模型的解題能力,擁有更多引數的模型通常比引數較少的模型表現更優。Pixtral 12B 模型基於文字模型 Nemo 12B 構建,能夠回答關於任意數量、任意尺寸影像的問題。

與 Anthropic 的 Claude 系列和 OpenAI 的 GPT-4o 等其他多模態模型類似,Pixtral 12B 理論上應能執行諸如為影像新增描述和統計照片中物體數量等任務。使用者可以下載、微調 Pixtral 12B 模型,並能依據 Apache 2.0 許可證使用。

Mistral 開發者關係負責人 Sophia Yang 在 X 平臺的一篇帖子中表示,Pixtral 12B 很快將在 Mistral 的聊天機器人和 API 服務平臺 Le Chat 及 Le Plateforme 上開放測試。(@IT 之家)

02 有態度的觀點

1、百度李彥宏:未來大模型之間的差距將拉大

百度 CEO 李彥宏的一次內部講話內容曝光,談到了業界對於大模型的認識誤區,涵蓋大模型競爭、開源模型效率、智慧體趨勢等。

李彥宏認為,未來大模型之間的差距可能會越來越大,模型的天花板很高,現在距離理想情況還相差非常遠,所以模型要不斷快速迭代、更新和升級;需要能幾年、十幾年如一日地投入,需要不斷滿足使用者需求,關注大模型成本的降低和效率的提升。大模型應用落地也將經歷從輔助工具、到智慧體、再到 Al Worker 的三個階段。

李彥宏指出,模型之間的差距是多維度的,一個維度是「能力」方面:理解能力、生成能力、邏輯推理能力、記憶能力等;另一個維度是「成本」方面:想具備這個能力或者想回答這些問題,付出的成本是多少。(@ 愛範兒)

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章