智譜清言 App 面向 C 端開放 AI 視訊通話服務;谷歌 GameNGen:神經網路驅動的實時遊戲引擎丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、端側開源 AI 模型 Zamba2-mini 登場:12 億引數,4bit 量化下記憶體佔用小於 700MB
Zyphra 於 8 月 27 日釋出博文,宣佈推出 Zamba2-mini 1.2B 模型,共有 12 億引數,聲稱是端側 SOTA 小語言模型。該模型在 4bit 量化下記憶體佔用低於 700MB,效能與谷歌 Gemma-2B、Huggingface 的 SmolLM-1.7B、蘋果的 OpenELM-1.1B 和微軟的 Phi-1.5 等更大模型相媲美。
Zamba2-mini 在推理任務中表現出色,與 Phi3-3.8B 等模型相比,Zamba2-mini 的首次令牌時間(從輸入到輸出第一個 token 的延遲)是此前的二分之一,記憶體佔用減少了 27%。
Zamba2-mini 1.2B 主要透過高度最佳化的架構實現,融合了不同神經網路設計的優勢,既能保持大型密集變壓器的高質量輸出,又能以更小模型的計算和記憶體效率執行。
與前代 Zamba1 相比,Zamba2-mini 的關鍵進步之一是整合了兩個共享注意力層。這種雙層方法增強了模型在不同深度保持資訊的能力,從而提高了整體效能。在共享注意力層中加入旋轉位置嵌入也略微提高了效能,這表明 Zyphra 致力於在模型設計中進行漸進而有影響力的改進。
Zamba2-mini 在海量資料集上預訓練,經過嚴格過濾和退火階段的最佳化,最終以 Apache 2.0 許可開源。(@IT 之家)
2、智譜清言 App 國內率先面向 C 端開放視訊通話服務
在 KDD 國際資料探勘與知識發現大會上,智譜正式釋出了新一代基座大模型 GLM-4-Plus。與 GLM-4-Plus 同步上線的,還有國內首個面向 C 端開放的「視訊通話」功能,這是國內首個面向 C 端使用者開放的視訊通話服務。
清言視訊通話功能跨越了文字、音訊和影片模態,並具備實時推理能力。使用者在撥打清言的視訊通話時,可以體驗到流暢的互動,即使頻繁打斷,它也能迅速響應。清言不僅能夠理解攝像頭拍攝到的畫面,還能聽懂並準確執行使用者的指令,帶來如同真人視訊通話般的體驗。隨著視訊通話功能的加入,清言 app 成為首個可以透過文字、音訊、影片和影像來進行多模態互動的 AI 助手。
「清言 APP」的視訊通話功能將於 今日(8 月 30 日)上線,首批將面向部分使用者開放,同時接受外部申請。(@GLM 大模型)
3、谷歌最新 GameNGen:擴散模型做遊戲引擎,單 TPU 20 FPS 模擬毀滅戰士
谷歌研究人員在人工智慧領域取得了重大突破,釋出了世界上首個完全由神經模型驅動的遊戲引擎 GameNGen。這一革命性的成果不僅標誌著遊戲開發方式的巨大變革,更預示著遊戲行業即將邁入一個全新的時代。
據官方訊息,GameNGen 能夠在不使用傳統遊戲引擎的情況下,為經典射擊遊戲《DOOM》(又稱《毀滅戰士》)生成實時遊戲畫面。這一引擎在單個 TPU(谷歌定製的人工智慧加速器晶片)上,以超過 20 幀每秒的速度實時模擬《DOOM》,生成的畫面質量與真實遊戲非常接近,甚至讓 60% 的片段未被玩家識別出是 AI 生成。
這不僅大幅降低了遊戲的開發時間和成本,更使得遊戲創作變得更加民主化,無論是大型遊戲公司還是小型工作室,甚至是個人創作者,都能利用這一技術創造出複雜且高質量的互動體驗。
此外,GameNGen 的釋出也為全新的遊戲型別開啟了大門。未來,遊戲行業可能會從以熱門遊戲為中心的模式,轉向更加多樣化的生態系統。玩家將能夠享受到更加個性化、定製化的遊戲體驗,而開發者也將擁有更多創新的空間和可能性。(@AI 產業研究院)
4、賈佳亞團隊新影像影片生成控制 ControlNeXt
賈佳亞團隊開發了一款名為 ControlNeXt 的影像和影片生成控制工具,該工具在生成速度、精準控制和使用者友好性上有顯著提升。ControlNeXt 相容多款 Stable Diffusion 影像和影片生成模型,如 SD1.5、SDXL、SD3 和 SVD,實現了即插即用,且 GitHub 上已獲得 1.1k 星標。ControlNeXt 支援多種條件控制,包括 Canny 邊緣、掩模、景深、姿勢等,能夠生成高質量的影像和影片,且支援超解析度和人體姿勢動作的精準控制。
ControlNeXt 在架構上採用了輕量級卷積模組,去除了 ControlNet 中的龐大控制分支,減少了訓練引數量、計算開銷和記憶體佔用,同時透過交叉歸一化技術最佳化了訓練和推理過程。該專案的創新在於實現了更高效的模型訓練和推理,挑戰了 Scaling Law 的傳統做法,即透過增加引數、資料和算力來提升模型效能。(@ 機器之心)
5、阿里通義千問推出 Qwen2-VL:開源 2B / 7B 模型,處理任意解析度影像無需分割成塊
通義千問團隊於今日對 Qwen-VL(視覺語言、Vision Language)模型進行更新,推出 Qwen2-VL。
Qwen2-VL 的一項關鍵架構改進是實現了動態解析度支援(Naive Dynamic Resolution support)。與上一代模型 Qwen-VL 不同,Qwen2-VL 可以處理任意解析度的影像,而無需將其分割成塊,從而確保模型輸入與影像固有資訊之間的一致性。這種方法更接近地模仿人類的視覺感知,使模型能夠處理任何清晰度或大小的影像。
另一個關鍵架構增強是 Multimodal Rotary Position Embedding(M-ROPE)。透過將 original rotary embedding 分解為代表時間和空間(高度和寬度)資訊的三個部分,M-ROPE 使 LLM 能夠同時捕獲和整合 1D 文字、2D 視覺和 3D 影片位置資訊。這使 LLM 能夠充當多模態處理器和推理器。
在 7B 規模下,Qwen2-VL-7B 保留了對影像、多影像和影片輸入的支援,以更具成本效益的模型大小提供「具有競爭力」的效能。
Qwen2-VL-2B 模型針對潛在的移動部署進行了最佳化。儘管引數量只有 2B,但官方表示該模型在影像、影片和多語言理解方面表現出色。(@IT 之家)
6、HuggingFace 開源低成本 AI 機器人解決方案 LeRobot
HuggingFace 推出名為 LeRobot 的開源專案,旨在提供一個低成本的 AI 機器人解決方案,讓更多人能夠參與到 AI 機器人的構建和訓練中。
LeRobot 專案由前特斯拉工程師 Remi Cadene 領導,提供了詳細的指南,包括機器人的組裝、配置以及如何訓練控制機器人的神經網路。LeRobot 基於開源的 Koch v1.1 機器人套件,包含兩個六電機的機械臂,並且支援多攝像頭作為視覺感測器。專案的硬體和軟體資源,包括訓練和控制程式、AI 模型和 SolidWorks 檔案,均已開源。LeRobot 還計劃推出一個定價為 150 美元的 Moss v1 版本。此外,專案提供了四種模型和 98 個資料集,開發者可以根據需要上傳自己的資料集進行訓練。透過 LeRobot,使用者可以從零開始組裝機械臂,並透過 AI 模型訓練機器人執行一系列任務。(@ 雷鋒網)
02 有態度的觀點
1、a16z:下一代皮克斯,AI 將如何融合電影和遊戲?
未來世紀的皮克斯不會透過傳統的電影或動畫產生,而是透過互動影片。這種新的敘事形式將模糊電子遊戲和電視 / 電影之間的界限,將深刻的敘事與觀眾的參與性和「玩」性結合起來,開闢出一個龐大的新市場。隨著消費者對互動媒體的偏好增加,以生成式 AI 的發展,遊戲已經成為現代敘事的前沿。
互動式影片透過將故事講述與玩耍結合起來,提供了一個新的媒介格式。與傳統的影片遊戲不同,互動式影片完全由神經網路實時生成幀。這種格式結合了電視 / 電影的可訪問性和敘事深度,以及影片遊戲的動態系統和觀眾參與性。儘管以往的嘗試,如 Telltale 的《奔逃殭屍》和 Netflix 的《Bandersnatch》,因為製作成本和時間的限制而面臨挑戰,但生成式 AI 模型的進步可能是實現互動式影片的關鍵。
近年來,模型蒸餾、影像生成和影片生成技術的顯著進步,已經使得實時生成高質量影片成為可能。研究人員和公司正在探索新的互動式影片體驗,並開發出能夠生成完整 3D 可玩世界的基礎模型。預計,隨著技術的不斷進步,完全可生成的互動式影片可能在未來兩年內實現商業化。
未來的互動式皮克斯將需要是一個世界級的互動敘事工作室和頂尖的技術公司,能夠將敘事和遊戲設計與技術創新相結合。這樣的團隊將需要找到新的方法,讓人類敘事者與 AI 工具協同工作,同時解決法律和倫理上的挑戰。長遠來看,生成式 AI 可以創造不僅僅是互動故事,而是整個虛擬世界。(@ 雷鋒網)
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- go語言遊戲服務端開發(二)——網路通訊Go遊戲服務端
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- 微軟預計年底實現實時語音介面;矽基智慧開源 AI 數字人互動平臺 Duix 丨 RTE 開發者日報微軟AIUI開發者日報
- 活動報名丨實時互動 AI 開發者年度聚會!RTE Open Day@RTE2024,10.25/26 北京AI
- OpenAI 收購桌面實時協作公司 Multi;iOS 18 開放 iPhone 映象測試丨 RTE 開發者日報 Vol.231OpenAIiOSiPhone開發者日報
- 網頁端實時音視訊服務架構與實踐網頁架構
- 蘋果開源高效語言模型 OpenELM;全球首個 AI 基因編輯器開源丨 RTE 開發者日報 Vol.192蘋果模型AI開發者日報
- 谷歌Project Fi無線服務面向全美使用者開放谷歌Project
- Mini-Omni:具有實時對話能力的多模態模型;狨猴會用名字稱呼彼此 丨 RTE 開發者日報模型開發者日報
- Meta 研發大型 AI 推薦引擎;全球首部全面監管 AI 法規將落地丨 RTE 開發者日報 Vol.160AI開發者日報
- 開發者實踐丨Agora Home AI 音視訊的未來GoAI
- 微軟將深度整合 Azure AI 與 GitHub;Stability AI 0.5 秒生成三維建模丨 RTE 開發者日報微軟AIGithub開發者日報
- 開放式神經網路交換-ONNX(上)神經網路
- 結合多模態 AI 谷歌展示 AR 眼鏡原型機;Meta 被曝開發帶攝像頭的 AI 耳機丨 RTE 開發者日報 Vol.204AI谷歌原型開發者日報
- [譯] 除錯神經網路的清單除錯神經網路
- 網際網路揭祕:AI 的神話與現實AI
- 影片生成模型 Dream Machine 開放試用;微軟將停止 Copilot GPTs 丨 RTE 開發者日報 Vol.224模型Mac微軟GPT開發者日報
- 白話深度神經網路神經網路
- Meta SAM 2:實時分割圖片和影片中物件;Apple Intelligence 首個開發者測試版釋出丨 RTE 開發者日報物件APPIntel開發者日報
- 小米回應「網友惡搞 AI 雷軍配音罵人」;Hailuo AI 上線圖片生成影片功能丨 RTE 開發者日報AI開發者日報
- 面向統一的AI神經網路架構和預訓練方法AI神經網路架構
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- 阿里開源深度神經網路推理引擎 MNN阿里神經網路
- 亞馬遜秘密研發 AI 對標 ChatGPT;語音 AI 未來五年或將釋放 100 億美元市場 丨 RTE 開發者日報亞馬遜AIChatGPT開發者日報
- 實現客戶端與服務端的HTTP通訊客戶端服務端HTTP
- 遊戲內嵌社群服務開放,助力開發者提升玩家互動與留存遊戲
- 文件驅動式面向服務的敏捷開發與高效執行敏捷
- 神經網路:numpy實現神經網路框架神經網路框架
- WWDC 蘋果釋出 AI 全家桶;三星宣佈「實時翻譯」將相容第三方 App 丨 RTE 開發者日報 Vol.222蘋果AIAPP開發者日報
- go語言遊戲服務端開發(三)——服務機制Go遊戲服務端
- 史丹佛 AI 團隊被曝抄襲中國大模型開源成果;Zoom 創始人談視訊會議未來丨 RTE 開發者日報 Vol.218AI大模型OOM開發者日報
- zeroc ice 客戶端與服務端通訊例子(c++)客戶端服務端C++
- 面向 C++ 的測試驅動開發C++
- 大型C++網路遊戲開發視訊教程C++遊戲開發
- 平價 Vision Pro 需搭配 Mac/iPhone;OpenAI 收購實時分析資料庫公司丨 RTE 開發者日報MaciPhoneOpenAI資料庫開發者日報
- 視訊通話 - 時信魔方教程
- 自智網路,意圖驅動?