最強國產 Sora 大模型 Vidu 釋出,長度可達 16 秒;微信檔案 3 小時內可撤回丨 RTE 開發者日報 Vol.194
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real Time Engagement)領域內「有話題的新聞」、「有態度的觀點」、「有意思的資料」、「有思考的文章」、「有看點的會議」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@CY,@JLT,@ 鮑勃
01 有話題的新聞
1、清華團隊國產「Sora」火了!畫面效果對標 OpenAI,長度可達 16 秒
生數科技和清華大學聯合釋出了新的 AI 影片生成模型「Vidu」,該模型可以一鍵生成長達 16 秒、解析度達 1080p 的高畫質影片內容。Vidu 在多鏡頭語言、時間和空間一致性、遵循物理規律等方面表現出色,能夠產生非常逼真的超現實主義畫面。
同時,Vidu 還具有豐富的想象力,能生成現實世界中不存在的畫面,為創作超現實主義內容提供了新的可能。全新技術突破僅用了兩個月時間,迅速實現。(@ 量子位)
2、首個純電驅擬人奔跑機器人「天工」釋出
4 月 27 日,北京人形機器人創新中心在北京亦莊舉辦了「天工釋出會」,釋出了自主研發的通用人形機器人母平臺「天工」。
據介紹,「天工」身高 163 cm,輕量化體重達 43kg。同時,機器人配備多個視覺感知感測器,配備每秒 550 萬億次操作算力,並配備高精度的慣性測量單元( IMU )和 3D 視覺感測器。
在釋出會上,「天工」還展示出對複雜環境更強的適應性,在行走及奔跑時更快速、更擬人,已實現 6km/h 的穩定奔跑。並且,在盲視情況下「天工」能夠平穩透過斜坡和樓梯,對磕絆、踏空等情況也可以做到步態的敏捷調整。(@ 愛範兒)
3、中國自研腦機介面「北腦二號」問世:已植入獼猴大腦 達世界領先水平
4 月 27 日訊息,近日,「北腦二號」智慧腦機介面系統正式釋出,填補了國內高效能侵入式腦機介面技術的空白。
在動物實驗中,在顱內植入一片牽著柔軟細絲的小小薄膜,綁住雙手的猴子就能僅用「意念」控制機械臂,抓住「草莓」。
據介紹,與半侵入式採集腦皮層電訊號的「北腦一號」系統不同,此次釋出的「北腦二號」採用侵入式採集單神經元電訊號,將電極植入獼猴大腦,大幅提升訊號採集與解碼的精準性。
「北腦二號」的高效能,歸功於我國自研的 3 個核心元件:高通量柔性微絲電極、千通道高速神經電訊號採集裝置兩個硬體,以及基於前饋控制策略的生成式神經解碼演算法。
「北腦二號」應用的演算法也是國內自研,能在大腦皮層神經活動與運動引數之間建立精確對映。(@ 快科技)
4、 rabbit r1 AI 產品首批交付,表現好過 AI Pin
rabbit r1 AI 產品首批交付,得到了一致性評價,其表現好過 AI Pin,卻同樣無法符合 AI 硬體的救世主期待。
r1 憑藉良好的使用者體驗和唯美的設計引人關注,它以 AI 作業系統替代手機使用者與手機 app 的互動方式,適合在各種場景下使用。
但是,它僅支援雲端服務,且只支援四個外部服務:Spotify、Uber、DoorDash 和 Midjourney,對於使用者的隱私問題也存在疑慮。創始人呂騁表示 r1 並非取代手機,而是與手機形成互補。(@ 愛範兒)
5、阿里巴巴釋出了首個千億引數的大模型 Qwen1.5-110B
阿里巴巴釋出了首個千億引數的大模型 Qwen1.5-110B。此前它釋出了 0.5B、1.8B、4B、7B、14B 和 72B 不同規模引數的版本。阿里巴巴稱,Qwen1.5-110B 模型在基礎能力評估中與 Meta-Llama3-70B 相媲美,在 Chat 評估中表現出色,包括 MT-Bench 和 AlpacaEval 2.0。Qwen1.5-110B 與其他 Qwen1.5 模型相似,採用了相同的 Transformer 解碼器架構。它包含了分組查詢注意力(GQA),在模型推理時更加高效。該模型支援 32K tokens 的上下文長度,同時它仍然是多語言的,支援英、中、法、西、德、俄、日、韓、越、阿等多種語言。(@ CSDN)
6、微信官方回應訊息撤回時限:常規訊息 2 分鐘、檔案 3 小時
4 月 27 日訊息,網路上關於微信撤回的傳聞很多,有人說 2 分鐘可撤回、有人說 5 分鐘可撤回,甚至還有人說 3 小時可撤回。微信官方對此進行了詳細的回應,其實上述說法從各自的角度來說都是正確的。
微信派最新發布影片介紹,常規訊息 2 分鐘內可以撤回,如文字、語音、表情包、圖片等。其中,文字訊息撤回後 5 分鐘內可重新編輯,無需重新輸入,讓使用者修改更方便。而檔案內容則支援 3 小時撤回,如 Word、Excel、PPT 等。所有訊息撤回之後,對方都會看到相關提醒,提示對方撤回一條訊息。
對於為何撤回之後要提醒對方,騰訊此前曾表示,如果在一些商務談判或借貸等特定場合,撤回資訊無文字提示,可能會導致一方出現利益受損的情況。(@ 快科技)
02 有態度的觀點
1、印度塔塔諮詢:AI 將取代客服崗位
印度 IT 公司塔塔諮詢服務公司的負責人 K Krithivasan ,在接受英國《金融時報》採訪時表示,人工智慧有可能會在一年內影響到客服崗位。
他認為,跨國客戶更廣泛地採用生成式 AI ,將會徹底改變在印度和菲律賓等國家創造大量就業機會的客戶服務中心。
同時, K Krithivasan 在採訪中還稱,在理想情況下, AI 可以預測來電,主動解決客戶的痛點。(@ 愛範兒)
2、OpenAI CEO 最新演講:GPT-5 效能遠超 GPT-4,保持迭代部署很重要
近日,OpenAI 聯合創始人兼執行長薩姆·奧爾特曼(Sam Altman)在史丹佛大學發表演講,提及 AGI(通用人工智慧)發展、OpenAI 的迭代節奏等。有訊息稱,這場演講在英偉達禮堂進行,超一千人在門口排隊,熱度頗高。“GPT-5 會更加智慧,這將是歷史上最令人矚目的事件之一。”
在一段流出的影片中,奧爾特曼表示,以高度的科學確定性來說,GPT-5 將比 GPT-4 智慧很多,GPT-6 將比 GPT-5 智慧很多,而我們遠未觸及極限。此前 OpenAI 已推出 GPT-3.5 和 GPT-4。對於 OpenAI 的產品迭代,奧爾特曼認為儘早且頻繁推出 AI 產品,保持迭代部署非常重要,即便現在看來 ChatGPT 還有點令人尷尬,GPT-4 還顯得愚蠢。要讓社會為技術進步做好準備,依賴於迭代部署。(@ 第一財經)
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- 阿里 Qwen2.5 開源釋出;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 開發者日報阿里Go模型開發者日報
- 商湯釋出行業首個全棧大模型產品矩陣;微軟釋出小型 AI 模型 Phi-3-mini 丨 RTE 開發者日報 Vol.191行業全棧大模型矩陣微軟AI開發者日報
- 首位腦機患者直播用意念玩遊戲;快手自研大模型有信心半年內達 GPT4 水平丨 RTE 開發者日報 Vol.169遊戲大模型GPT開發者日報
- 蘋果歷時 13 年最終勝訴;谷歌釋出 Gemma 大模型;華為首超蘋果成中國平板市場第一丨 RTE 開發者日報 Vol.149蘋果谷歌Gemma大模型開發者日報
- OpenAI 再發 Sora 新短片,傳 Sora 兩週內推出;李飛飛團隊出品空間智慧版 ImageNet 丨 RTE 開發者日報OpenAISora開發者日報
- 特斯拉全自動駕駛能力(FSD)或與百度合作;小紅書內測自研大模型丨 RTE 開發者日報 Vol.196自動駕駛大模型開發者日報
- Mistral 釋出 Large 2 123B 大模型;微軟釋出 VALL-E 2,零樣本實現聲音克隆丨 RTE 開發者日報大模型微軟開發者日報
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- 亞馬遜雲集齊 Claude 3 全家桶;世界數字技術院釋出大模型安全國際標準丨 RTE 開發者日報 Vol.187亞馬遜大模型開發者日報
- (內含福利)Meta 釋出新開源模型 Llama 3;華為 Pura 70 系列一分鐘售罄丨 RTE 開發者日報 Vol.188模型開發者日報
- 當前最強國產Sora!清華團隊突破16秒長影片,懂多鏡頭語言,會模擬物理規律Sora
- 谷歌釋出世界模型,能生成可互動虛擬世界;華為釋出全球首個 5.5G 智慧核心網丨 RTE 開發者日報 Vol.152谷歌世界模型虛擬世界開發者日報
- 阿里釋出革新的音訊多模態模型 Qwen2-Audio;月之暗面回應大模型顯示「9.11 大於 9.9」丨 RTE 開發者日報阿里音訊大模型開發者日報
- 微軟開發者大會推出 60 個新發布;阿里雲和百度加入大模型「價格戰」丨 RTE 開發者日報 Vol.209微軟阿里大模型開發者日報
- Amphion 推出開源 TTS 模型 MaskGCT,5 秒克隆聲音;神秘文生圖模型「小熊貓」登頂競技場丨 RTE 開發者日報TTS模型GC開發者日報
- 微軟 Azure 推出文字到語音虛擬人;英偉達釋出 8B 小語言模型,可在 RTX 工作站部署丨 RTE 開發者日報微軟模型開發者日報
- 馬斯克回應蓋茨;谷歌反壟斷案開庭;蘋果釋出 3nm 晶片的 iPhone 15丨RTE開發者日報 Vol.48馬斯克谷歌蘋果晶片iPhone開發者日報
- 零一萬物 Yi-Lightning:超越 GPT-4o 衝擊全球榜單;阿里國際 Marco 翻譯大模型釋出丨 RTE 開發者日報GPT阿里大模型開發者日報
- Meta SAM 2:實時分割圖片和影片中物件;Apple Intelligence 首個開發者測試版釋出丨 RTE 開發者日報物件APPIntel開發者日報
- 釋出會後蘋果股價創歷史新高;商湯 Embedding 模型拿下 SOTA 丨 RTE 開發者日報 Vol.223蘋果模型開發者日報
- 微軟將深度整合 Azure AI 與 GitHub;Stability AI 0.5 秒生成三維建模丨 RTE 開發者日報微軟AIGithub開發者日報
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- 英偉達市值超越蘋果;ChatGPT、Perplexity、Claude 同時大崩潰丨 RTE 開發者日報 Vol.220蘋果ChatGPT開發者日報
- 重磅:谷歌釋出最強大AI模型【Google Gemini】谷歌AI模型Go
- 谷歌破解 OpenAI 模型關鍵資訊;微軟更改預設瀏覽器,不再主推 Edge 丨 RTE 開發者日報 Vol.163谷歌OpenAI模型微軟瀏覽器開發者日報
- Vidu 全球首發「主體參照」新功能,一鍵同步角色特徵;GPT-4o 實時音訊專案負責人離職創業丨 RTE 開發者日報特徵GPT音訊創業開發者日報
- Rokid Glasses AR 眼鏡釋出,搭載通義 AI;3D 社交平臺 SEELE 完成千萬美元融資丨 RTE 開發者日報AI3D開發者日報
- 特斯拉宣佈 10% 大裁員;劉強東數字人開啟直播首秀丨 RTE 開發者日報 Vol.185開發者日報
- 華為否認大模型演示造假;美國億萬富翁宣佈競購 TikTok 丨 RTE 開發者日報 Vol.206大模型開發者日報
- OpenAI 釋出全新生成式模型 GPT-4o;位元組收購音訊裝置公司 Oladance 丨 RTE 開發者日報 Vol.203OpenAI模型GPT音訊開發者日報
- Mini-Omni:具有實時對話能力的多模態模型;狨猴會用名字稱呼彼此 丨 RTE 開發者日報模型開發者日報
- 創紀錄:英偉達市值一日增 2770 億美元;Xiaomi 14 Ultra 正式釋出丨 RTE 開發者日報 Vol.150開發者日報
- Hume AI 推出 EVI 2 情感模型;OpenAI o1 模型問世,模擬人類思考問題 丨 RTE 開發者日報模型OpenAI開發者日報
- 百度釋出 AI 眼鏡:全球首搭中文大模型,支援邊走邊問;OpenAI 聯合創始人宣佈迴歸,主抓重大技術創新丨 RTE 開發者日報大模型OpenAI開發者日報
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- Sam Altman 新公司將打造 AI 健康教練;全新大模型架構 TTT 超越 Transformer 丨 RTE 開發者日報AI大模型架構ORM開發者日報
- ChatGPT 向更多使用者推出高階語音模式:支援 50 種語言;位元組釋出兩款新影片生成大模型丨 RTE 開發者日報ChatGPT模式大模型開發者日報