gpt-4o-audio-preview 釋出,支援 STT/TTS 不含實時音訊;Ministral 3B/8B 端側模型釋出

RTE开发者社区發表於2024-10-18

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。

我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

01`有話題的新聞

1、英偉達開源模型 Nemotron-70B 超越 GPT-4o 和 Claude 3.5,僅次於 OpenAI o1

英偉達開源了超強模型 Nemotron-70B,該模型一經發布,就立刻在 AI 社群引發巨大轟動。

在多個基準測試中,它一舉超越多個最先進的 AI 模型,包括 OpenAI 的 GPT-4、GPT-4 Turbo 以及 Anthropic 的 Claude 3.5 Sonnet 等 140 多個開閉源模型。並且僅次於 OpenAI 最新模型 o1。

Nemotron 基礎模型,是基於 Llama-3.1-70B 開發而成。Nemotron-70B 透過人類反饋強化學習完成的訓練,尤其是「強化演算法」。

這次訓練過程中,使用了一種新的混合訓練方法,訓練獎勵模型時用了 Bradley-Terry 和 Regression。使用混合訓練方法的關鍵,就是 Nemotron 的訓練資料集,而英偉達也一併開源了。

它基於 Llama-3.1-Nemotron-70B-Reward 提供獎勵訊號,並利用 HelpSteer2-Preference 提示來引導模型生成符合人類偏好的答案。

業內人士評價:英偉達在 Llama 3.1 的基礎上訓練出不太大的模型,超越了 GPT-4o 和 Claude 3.5 Sonnet,簡直是神來之筆。

目前,模型權重已可在 Hugging Face 上獲取。(@IT 之家)

2、OpenAI 開放 ChatGPT Windows 版本,可像 Office 那樣使用了

今天凌晨 OpenAI 宣佈向所有 ChatGPT Plus、Enterprise、Team 和 Edu 使用者,提供 Windows 桌面應用早期版本。

使用者可在微軟的應用商店中下載,安裝完成後透過 Alt + Space 快捷鍵就能迅速啟用,提供檔案分析、搜尋對話、文字生成等功能,使用體驗相當絲滑和 Office 一樣。

目前,OpenAI 已經開放了 Mac、Windows 兩大作業系統的桌面版本,唯獨沒有對 Linux 做出明確的釋出時間安排,所以,不少使用者詢問何時能開放該平臺版本。OpenAI 還沒有給出詳細的日期。(@AIGC 開放者社群)

3、端側 AI 崛起:Mistral 釋出 Ministral 3B / 8B,「全球最好的邊緣模型」

Mistral 公司最新推出了 Ministral 3B 和 Ministral 8B 兩款 AI 模型,並不需要連線雲伺服器,重點提高膝上型電腦和智慧手機等裝置的本地化 AI 體驗,官方聲稱是「世界上最好的邊緣模型」。

Mistral 公司表示越來越多的企業希望能夠在個人裝置上執行 AI 模型,一方面確保安全的資料處理,另一方面也提高響應速度。

上述兩個模型可在沒有網際網路接入的情況下,執行翻譯服務、本地分析和機器人等多項服務。

這兩個 AI 模型的上下文視窗均為 128K,相當於一次可以處理 50 頁文件。

Ministral 8B 的價格為每百萬個 tokens 售價 0.1 美元,而 3B 版本則為 0.04 美元,適合小規模操作或初創開發者。Ministral 8B 採用了特殊的交錯滑動視窗注意力機制,這種設計可以在推理時更快且節省記憶體。(@IT 之家)

4、微軟將終止中國個人 Azure OpenAI 服務,僅企業客戶可用

據第一財經 10 月 17 日報導,多位開發者收到微軟郵件稱,由於當地監管要求,微軟 Azure OpenAI 服務將於 10 月 21 日關停,未來在中國大陸只有企業客戶才能訂閱 Azure 的 OpenAI 服務。

多數開發者是 17 日早上收到了郵件。有開發者表示,「這是個人身份在國內能合規使用 OpenAI 的唯一視窗,現在也關閉了。」同時,有開發者不滿微軟「就給四天處理時間」。針對此事,微軟方面暫未表態。

值得注意的是,微軟官方微信公眾號「微軟科技」悄悄刪除了一篇題為《何須平替?遷移到 AzureOpenAI,簡單快捷的文章,這篇文章發出於 6 月 26 日。

而據此前報導,就在 6 月 25 日,OpenAI 向國內部分開發者傳送郵件,稱「從 7 月 9 日起採取額外措施,阻止來自非支援國家和地區列表中的地區的 API 流量」。(@IT 之家)

5、Hallo 2:根據單張影像和音訊輸入能夠生成長達一小時的 4K 解析度人像影片

根據單張影像和音訊輸入生成唱歌和說話影片,並能控制人物表情和姿態的模型 Hallo 釋出了更新版本 Hallo 2。

Hallo2 解決了長時、高解析度的影片生成問題。它在現有的短時影片生成模型(如 Hallo)基礎上進行了多項重要改進,能夠生成長達一小時的 4K 解析度人像影片,適用於各種人像表情和風格控制。

  • 生成影片時長:最多支援生成 1 小時 的連續人像影片,且保持視覺一致性。
  • 解析度支援:最高支援 4K 解析度 影片輸出,生成的人像動畫在細節和清晰度方面表現出色。
  • 表情和風格控制:透過語音和文字標籤的結合,生成的內容表現出高水平的可控性,能夠根據不同輸入生成情感豐富的多樣化內容。
  • 視覺一致性與時間連貫性:實驗表明,Hallo2 透過補丁丟棄和噪聲增強技術,在生成長時影片時極大程度上減少了表情抖動和外觀漂移等問題。

Hallo2 是目前首個實現長達一小時、4K 解析度的音訊驅動人像動畫生成模型。透過創新的補丁丟棄、噪聲增強和時間對齊等技術,它解決了長時影片生成中的外觀漂移和視覺不一致問題,支援靈活的語音與文字控制,生成質量達到業內領先水平。(小互 AI)

6、OpenAI 釋出新的支援音訊的 Chat 模型 "gpt-4o-audio-preview"

OpenAI 釋出了新的支援音訊的 Chat 模型 "gpt-4o-audio-preview"

現在呼叫這個模型可以輸入文字或音訊,API 可以返回文字、音訊或混合資料。這個 API 更適合非同步場景,如果想要實時音訊,還是需要用前不久釋出的很貴的實時音訊 API。

但這個 API 返回速度是不錯的,只是不能像實時 API 可以隨時打斷。

並且這個模型同樣可以檢測語調、語氣變化及其他細微差別。

可以利用這些音訊功能來:

  • 生成文字內容的語音摘要(輸入文字,輸出音訊)
  • 對錄音進行情感分析(輸入音訊,輸出文字)
  • 與模型進行非同步的語音對話(輸入音訊,輸出音訊)

來源:寶玉@X https://x.com/dotey/status/1847100400664494186

02 有態度的觀點

1、LeCun:AGI「至少還需要幾年甚至十年的時間」

Meta 首席 AI 科學家 Yann LeCun(楊立昆)近日在「Human-Level AI」演講中表示,儘管當前 AI 模型在模擬人類記憶、思考、規劃和推理方面取得了進展,但它們並未真正達到「人類水平的 AI」。

當前的 AI 系統,如 ChatGPT 和 Meta AI,基於預測下一個標記或畫素,雖然在各自維度上預測能力很強,但並不能真正理解三維世界。

他提出了「世界模型」(world model)這一概念,世界模型是關於世界如何運作的心理模型,可以預測一系列行動對世界的影響。與大型語言模型相比,世界模型能夠處理更多資料,但計算密集度高,這也是雲服務提供商爭相與 AI 公司合作的原因。
想要達到人類水平的人工智慧,或許我們還需要數十年的時間。( @APPSO)

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章