Hume AI 推出 EVI 2 情感模型;OpenAI o1 模型問世,模擬人類思考問題 丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。
我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的新聞」、「有態度的觀點」、「有意思的資料」、「有思考的文章」、「有看點的會議」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
一、有話題的新聞
1、Fish Speech 1.4 釋出:開源 TTS 模型迎來多語言突破
Fish Speech 1.4 版本的釋出標誌著這款開源文字轉語音(TTS)模型在多語言支援和效能方面取得了重大突破。作為一個致力於提供高質量、自然流暢語音合成體驗的創新解決方案,Fish Speech 在這次更新中展現了其強大的技術實力和廣闊的應用前景。
本次 Fish Speech 的更新主要有以下亮點:
- 多語言支援大幅提升: 訓練資料量翻倍至 70 萬小時,支援 8 種主要語言,擴充了應用範圍。
- 效能與功能全面升級: 超快速度與低延遲,即時語音克隆功能,靈活部署選項和 API 服務。
- 應用前景廣闊: 教育領域支援語言學習,娛樂產業即時語音克隆,輔助技術視障人士工具,智慧客服和跨文化交流。(@AIbase 基地)
2、元象釋出中國最大 MoE 開源大模型:總引數 255B,啟用引數 36B
元象 XVERSE 釋出中國最大 MoE 開源模型 XVERSE-MoE-A36B。
該模型總引數 255B,啟用引數 36B,官方號稱效果能「大致達到」超過 100B 大模型的「跨級」效能躍升,同時訓練時間減少 30%,推理效能提升 100%,使每 token 成本大幅下降。
MoE(Mixture of Experts)混合專家模型架構,將多個細分領域的專家模型組合成一個超級模型,在擴大模型規模的同時,保持模型效能最大化,甚至還能降低訓練和推理的計算成本。谷歌 Gemini-1.5、OpenAI 的 GPT-4 、馬斯克旗下 xAI 公司的 Grok 等大模型都使用了 MoE。
在多個評測中,元象 MoE 超過多個同類模型,包括國內千億 MoE 模型 Skywork-MoE、傳統 MoE 霸主 Mixtral-8x22B 以及 3140 億引數的 MoE 開源模型 Grok-1-A86B 等。(@IT 之家)
3、Roblox 宣佈全新 AI 工具,可以用文字直接生成 3D 遊戲世界
在 2024 年 Roblox 開發者大會(RDC)上,執行長 David Baszucki 宣佈了 Roblox 的一項重大創新——AI 驅動的「3D 基礎模型」。該工具旨在透過文字、影片和 3D 提示建立 3D 資產,實現與遊戲玩法直接整合的實時世界構建。
Roblox 一直在將生成式 AI 技術逐步融入其創作者開發工具中,如:
- Assistant:自動化幫助開發者處理常規任務的工具。
- 紋理生成器:自動生成 3D 模型的紋理,減少人工操作的時間。
- Avatar 自動設定工具:簡化了為遊戲角色建立個性化外觀的步驟。
然而,Baszucki 強調,這些工具僅僅是初步嘗試,Roblox 計劃將 AI 技術提升到一個新高度,使 AI 不僅能夠幫助開發者生成單一元素,還能夠動態生成完整的 3D 世界場景。
Roblox 正在開發一個 3D 基礎模型,該模型能夠根據多種輸入(如文字、影片或 3D 提示)生成複雜的 3D 環境和物體。演示展示了以下功能:
從文字到 3D 的實時轉換:透過簡單的文字提示(例如描述一個沙漠),AI 可以自動生成 3D 場景。開發者隨後又用一個簡單的指令將沙漠轉換為森林場景。這種基於提示符的生成能力,使得建立複雜的 3D 環境變得更加便捷。
多模態輸入:除了文字,使用者還可以透過影片或 3D 提示符來引導 AI 生成所需的場景或物體。這意味著未來開發者可以更加直觀地與 AI 合作完成專案。
該 AI 工具的真正創新之處在於其可以實時建立 3D 內容並與遊戲玩法深度整合。這一功能將賦予玩家和開發者更大的創造自由,尤其是在開放世界和沙盒類遊戲中。未來的 Roblox 體驗將有可能是一個完全由 AI 生成、玩家實時影響的動態世界。Baszucki 描繪了一個設想的場景:例如在一個虛擬的 D&D 遊戲中,遊戲世界可以隨著地牢主的描述而即時生成,玩家的每一個行動都能實時影響環境的變化。
儘管功能看起來十分令人興奮,但 Baszucki 也提到,這項技術仍處於早期研發階段,目前大約有 40 名員工專門從事這個專案的開發。儘管如此,短短三個月的開發已經展示了初步的效果。雖然目前展示的能力是在舞臺上預錄的演示,實際應用中的效果如何還需進一步驗證。(@ 小互 AI)
4、夸克 AI 寫作助手 CueMe,不僅能寫長文還能模仿風格
CueMe 是夸克基於大模型自主研發的全新智慧對話助手,AI 寫作能力突出,支援不同體裁、不同篇幅的內容生成,最長可生成 2 萬字的內容,使用者現可透過 cueme.cn 或夸克 App 使用。
夸克表示,CueMe 針對不同細分體裁進行了充分的語料預訓練,可支援上千種不同體裁的寫作需求,包括研究報告、日常寫作、課程論文、新媒體文案等等,並且還在持續擴充套件中。
此外,CueMe 還支援文風定製,使用者可選擇根據平臺風格、語言風格或個人文章風格生成符合其個性化需求的內容。
據夸克官方介紹,CueMe 實現了三項關鍵技術突破 —— 長文字理解與生成、專業知識檢索與增強、以及複雜多輪文創指令遵循。在此基礎上,CueMe 從三個方向進行內容深度最佳化。
- 首先是結構,對於研究報告等長文,高質量大綱生成是確保內容結構合理、邏輯清晰的關鍵。
- 其次是引用素材時效性強、內容豐富。
- 最後在生成內容中增加細節描述和鮮明觀點,從而讓生成內容不再「AI 痕跡明顯」或者泛泛而談(@IT 之家)
5、騰訊 GameGen-O 生成開放世界遊戲的影片模型
來自香港和中國大陸大學的研究人員與騰訊一起開發了 GameGen-O,這是一種可以模擬開放世界影片遊戲的人工智慧模型。據研究小組稱,GameGen-O 可以生成各種遊戲元素,包括角色、環境、動作和事件。該模型還為研究人員所謂的 “遊戲模擬” 提供了互動式控制。
這些並不是完全可玩的遊戲,而是開發者可以用來快速建立原型並測試不同遊戲元素的工具,而無需從頭開始建立它們。
為了建立 GameGen-O,研究人員首先建立了一個名為 “OGameData” 的大型資料集,其中包括來自 100 多款現代開放世界遊戲的處理資料。然後,他們分兩個階段訓練模型:首先,它學會基於 OGameData 生成各種遊戲內容。接下來,他們新增了一個 “InstructNet” 元件,以實現對生成內容的互動式控制。
研究人員認為,GameGen-O 是利用人工智慧製作開放世界電子遊戲的重要一步。透過結合 “創造性生成與互動能力”,它展示了作為傳統渲染技術替代品的潛力。
根據該團隊的說法,GameGen-O 可以成為研究人員和開發人員的寶貴資源。它允許探索各種應用程式,例如為影片遊戲,互動式控制和沉浸式虛擬環境開發人工智慧。
最近,來自谷歌研究院、谷歌 DeepMind 和特拉維夫大學的研究人員展示了 GameNGen,這是一種人工智慧系統,可以以每秒超過 20 幀的速度完全模擬和實時播放經典遊戲《毀滅戰士》。(@ 大模型 Daliy)
6、OpenAI o1 比博士還「聰明」,全球 11 位 AI 大咖怎麼看?
「好評」陣營:
- Sam Altman(OpenAI CEO):OpenAI o1 是迄今為止最強大的模型,儘管仍有缺陷,但其推理能力開創了 AI 的新正規化。
- Greg Brockman(OpenAI 總裁):o1 是透過強化學習訓練的模型,改進了推理質量和解釋性,雖然技術仍處早期,但展現了巨大潛力。
- Jason Wei(OpenAI 研究員):o1 的思維鏈機制能夠自適應地進行推理,在科學問題上表現出色,並重新定義了深度學習領域。
- Jim Fan(英偉達高階科學家):這是自 Chinchilla 縮放定律以來最重要的進展,o1 突破了推理瓶頸,是 AI 領域的一大飛躍。
- James Campbell(卡內基梅隆大學博士生):展示了 o1 在數學比賽中的出色表現,並認為它顯著超越了 GPT-4。
「中差評」陣營:
- Clement Delangue(HuggingFace CEO):批評稱 o1 並不具備真正的「思考」能力,認為 OpenAI 誇大了它的智慧,實際上是預測系統而非人類智慧。
- Gary Marcus(紐約大學教授):雖然認可 o1 的進展,但指出它距離 AGI 還很遙遠,且沒有完全取代 GPT-4 的表現,誇大了部分結果。
- Ethan Mollick(沃頓商學院教授):認為 o1 在規劃複雜問題上表現出色,但其智慧仍依賴於 GPT-4,存在錯誤和侷限性。
- Aravind Srinivas(Perplexit CEO):認為單純依賴大語言模型的推理不夠可靠,建議結合程式碼執行和知識圖譜來提升模型的實用性。(@LLM 大模型)
二、有態度的觀點
1、Sam Altman:對 AI 大量的審查是有必要的
近日,OpenAI CEO Sam Altman 接受了美國著名主持人 Oprah Winfrey 採訪,談到了為何可以信任 AI 技術。
Sam Altman 稱,AI 技術的標準非常高,OpenAI 能做到最好的事情就是把這個技術交到人們手中,談論它能或者不能做什麼,將會發生什麼,並向社會建議如何使用大模型,或者解釋為何不釋出一些技術,隨著時間的推移建立起社會對 AI 的信任。
Sam Altman 認為,對 AI 技術大量的審查是非常有必要的。他也聲稱「每隔幾天」就會和政府進行溝通,建立技術護欄,並讓政府開始研究如何對 AI 系統進行安全測試。
Altman 也表示,他對 AI 將帶來的好處感到非常興奮,認為這是令人難以置信的,但也會帶來一些壞處,因此 OpenAI 會盡可能減輕影響。他提醒 AI 技術會被濫用,每個人都需要認識到這點,不過他堅信 AI 帶來的好處更多。( @APPSO)
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- 微軟或開發新模型與 OpenAI 競爭;蘋果或將推出 Apple Pencil Pro 丨 RTE 開發者日報 Vol.198微軟模型OpenAI蘋果APP開發者日報
- OpenAI 成功收購 Chat.com 域名;AI「電子舌頭」問世,可辨別味道、檢測食品安全丨 RTE 開發者日報OpenAI開發者日報
- 爆火 AI 硬體遭差評,Ai Pin 上市即翻車;Grok 推出首個多模態模型丨 RTE 開發者日報 Vol.184AI模型開發者日報
- CosyVoice 2.0 支援雙向流式語音合成;無問芯穹開源全模態理解端側模型丨 RTE 開發者日報模型開發者日報
- Amphion 推出開源 TTS 模型 MaskGCT,5 秒克隆聲音;神秘文生圖模型「小熊貓」登頂競技場丨 RTE 開發者日報TTS模型GC開發者日報
- 11Labs 支援打造對話 AI 智慧體;阿里推出大模型 Qwen2.5-Turbo 速度提升 4.3 倍丨 RTE 開發者日報AI智慧體阿里大模型開發者日報
- 百度釋出 AI 眼鏡:全球首搭中文大模型,支援邊走邊問;OpenAI 聯合創始人宣佈迴歸,主抓重大技術創新丨 RTE 開發者日報大模型OpenAI開發者日報
- 阿里 Qwen2.5 開源釋出;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 開發者日報阿里Go模型開發者日報
- 《阿凡達》導演卡梅隆加入 Stability AI 董事會;Molmo 橫空出世,開源多模態模型王座易位丨 RTE 開發者日報AI模型開發者日報
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- 位元組豆包釋出新模型,AI 一句話 P 圖;Google 正式推出 Vids,簡單提示即可生成影片演示丨 RTE 開發者日報模型AIGo開發者日報
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- Sam Altman 新公司將打造 AI 健康教練;全新大模型架構 TTT 超越 Transformer 丨 RTE 開發者日報AI大模型架構ORM開發者日報
- 奧特曼回應 OpenAI 股權問題和「封口協議」;月暗楊植麟:大模型和網際網路開發模式完全不同丨 RTE 開發者日報 Vol.207奧特曼OpenAI協議大模型模式開發者日報
- OpenAI推出ChatGPT對話式AI模型OpenAIChatGPT模型
- Hume AI 語音控制功能:建立個性化語音;李飛飛空間智慧首個模型:單圖生成 3D 互動場景丨 RTE 開發者日報AI模型3D開發者日報
- 谷歌破解 OpenAI 模型關鍵資訊;微軟更改預設瀏覽器,不再主推 Edge 丨 RTE 開發者日報 Vol.163谷歌OpenAI模型微軟瀏覽器開發者日報
- 微軟 Azure 推出文字到語音虛擬人;英偉達釋出 8B 小語言模型,可在 RTX 工作站部署丨 RTE 開發者日報微軟模型開發者日報
- 阿里釋出革新的音訊多模態模型 Qwen2-Audio;月之暗面回應大模型顯示「9.11 大於 9.9」丨 RTE 開發者日報阿里音訊大模型開發者日報
- 蘋果開源高效語言模型 OpenELM;全球首個 AI 基因編輯器開源丨 RTE 開發者日報 Vol.192蘋果模型AI開發者日報
- 斯嘉麗·約翰遜指控 OpenAI 非法使用其聲音;微軟推出 AI 工具「回顧」(Recall)丨 RTE 開發者日報 Vol.208OpenAI微軟開發者日報
- 微軟開發者大會推出 60 個新發布;阿里雲和百度加入大模型「價格戰」丨 RTE 開發者日報 Vol.209微軟阿里大模型開發者日報
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- QQ 測試 AI 聊天搭子,再戰 AI 社交;零一萬物宣佈開源 Yi-9B 模型丨 RTE 開發者日報 Vol.159AI模型開發者日報
- 影片生成模型 Dream Machine 開放試用;微軟將停止 Copilot GPTs 丨 RTE 開發者日報 Vol.224模型Mac微軟GPT開發者日報
- OpenAI 再發 Sora 新短片,傳 Sora 兩週內推出;李飛飛團隊出品空間智慧版 ImageNet 丨 RTE 開發者日報OpenAISora開發者日報
- OpenAI 釋出全新生成式模型 GPT-4o;位元組收購音訊裝置公司 Oladance 丨 RTE 開發者日報 Vol.203OpenAI模型GPT音訊開發者日報
- Mini-Omni:具有實時對話能力的多模態模型;狨猴會用名字稱呼彼此 丨 RTE 開發者日報模型開發者日報
- 中國 10 億引數規模以上大模型數量已超 100 個;GitHub 推出程式碼自動修復工具丨 RTE 開發者日報 Vol.172大模型Github開發者日報
- ChatGPT 即將登陸 iPhone;史丹佛推出 AI 輔助全息成像技術丨 RTE 開發者日報 Vol.202ChatGPTiPhoneAI開發者日報
- 商湯釋出行業首個全棧大模型產品矩陣;微軟釋出小型 AI 模型 Phi-3-mini 丨 RTE 開發者日報 Vol.191行業全棧大模型矩陣微軟AI開發者日報
- Neuralink 將啟動第二例人類腦機晶片植入;多項 Claude 3.5 Sonnet AI 工具釋出丨 RTE 開發者日報晶片AI開發者日報
- Pi 母公司將開發情感 AI 商業機器人;Meta 科學家:Sora 不是影片生成唯一方向丨 RTE 開發者日報 Vol.214AI機器人Sora開發者日報
- ChatGPT 向更多使用者推出高階語音模式:支援 50 種語言;位元組釋出兩款新影片生成大模型丨 RTE 開發者日報ChatGPT模式大模型開發者日報
- 史丹佛 AI 團隊被曝抄襲中國大模型開源成果;Zoom 創始人談視訊會議未來丨 RTE 開發者日報 Vol.218AI大模型OOM開發者日報
- 位元組跳動打響大模型價格戰;蘋果將在 iPhone、iPad 上推出眼球追蹤功能丨 RTE 開發者日報 Vol.205大模型蘋果iPhoneiPad開發者日報