Hume AI 推出 EVI 2 情感模型;OpenAI o1 模型問世,模擬人類思考問題 丨 RTE 開發者日報

RTE开发者社区發表於2024-09-14

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。

我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的新聞」、「有態度的觀點」、「有意思的資料」、「有思考的文章」、「有看點的會議」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

一、有話題的新聞

1、Fish Speech 1.4 釋出:開源 TTS 模型迎來多語言突破

Fish Speech 1.4 版本的釋出標誌著這款開源文字轉語音(TTS)模型在多語言支援和效能方面取得了重大突破。作為一個致力於提供高質量、自然流暢語音合成體驗的創新解決方案,Fish Speech 在這次更新中展現了其強大的技術實力和廣闊的應用前景。

本次 Fish Speech 的更新主要有以下亮點:

  • 多語言支援大幅提升: 訓練資料量翻倍至 70 萬小時,支援 8 種主要語言,擴充了應用範圍。
  • 效能與功能全面升級: 超快速度與低延遲,即時語音克隆功能,靈活部署選項和 API 服務。
  • 應用前景廣闊: 教育領域支援語言學習,娛樂產業即時語音克隆,輔助技術視障人士工具,智慧客服和跨文化交流。(@AIbase 基地)

2、元象釋出中國最大 MoE 開源大模型:總引數 255B,啟用引數 36B

元象 XVERSE 釋出中國最大 MoE 開源模型 XVERSE-MoE-A36B。

該模型總引數 255B,啟用引數 36B,官方號稱效果能「大致達到」超過 100B 大模型的「跨級」效能躍升,同時訓練時間減少 30%,推理效能提升 100%,使每 token 成本大幅下降。

MoE(Mixture of Experts)混合專家模型架構,將多個細分領域的專家模型組合成一個超級模型,在擴大模型規模的同時,保持模型效能最大化,甚至還能降低訓練和推理的計算成本。谷歌 Gemini-1.5、OpenAI 的 GPT-4 、馬斯克旗下 xAI 公司的 Grok 等大模型都使用了 MoE。

在多個評測中,元象 MoE 超過多個同類模型,包括國內千億 MoE 模型 Skywork-MoE、傳統 MoE 霸主 Mixtral-8x22B 以及 3140 億引數的 MoE 開源模型 Grok-1-A86B 等。(@IT 之家)

3、Roblox 宣佈全新 AI 工具,可以用文字直接生成 3D 遊戲世界

在 2024 年 Roblox 開發者大會(RDC)上,執行長 David Baszucki 宣佈了 Roblox 的一項重大創新——AI 驅動的「3D 基礎模型」。該工具旨在透過文字、影片和 3D 提示建立 3D 資產,實現與遊戲玩法直接整合的實時世界構建。

Roblox 一直在將生成式 AI 技術逐步融入其創作者開發工具中,如:

  • Assistant:自動化幫助開發者處理常規任務的工具。
  • 紋理生成器:自動生成 3D 模型的紋理,減少人工操作的時間。
  • Avatar 自動設定工具:簡化了為遊戲角色建立個性化外觀的步驟。

然而,Baszucki 強調,這些工具僅僅是初步嘗試,Roblox 計劃將 AI 技術提升到一個新高度,使 AI 不僅能夠幫助開發者生成單一元素,還能夠動態生成完整的 3D 世界場景。

Roblox 正在開發一個 3D 基礎模型,該模型能夠根據多種輸入(如文字、影片或 3D 提示)生成複雜的 3D 環境和物體。演示展示了以下功能:

  • 從文字到 3D 的實時轉換:透過簡單的文字提示(例如描述一個沙漠),AI 可以自動生成 3D 場景。開發者隨後又用一個簡單的指令將沙漠轉換為森林場景。這種基於提示符的生成能力,使得建立複雜的 3D 環境變得更加便捷。

  • 多模態輸入:除了文字,使用者還可以透過影片或 3D 提示符來引導 AI 生成所需的場景或物體。這意味著未來開發者可以更加直觀地與 AI 合作完成專案。

該 AI 工具的真正創新之處在於其可以實時建立 3D 內容並與遊戲玩法深度整合。這一功能將賦予玩家和開發者更大的創造自由,尤其是在開放世界和沙盒類遊戲中。未來的 Roblox 體驗將有可能是一個完全由 AI 生成、玩家實時影響的動態世界。Baszucki 描繪了一個設想的場景:例如在一個虛擬的 D&D 遊戲中,遊戲世界可以隨著地牢主的描述而即時生成,玩家的每一個行動都能實時影響環境的變化。

儘管功能看起來十分令人興奮,但 Baszucki 也提到,這項技術仍處於早期研發階段,目前大約有 40 名員工專門從事這個專案的開發。儘管如此,短短三個月的開發已經展示了初步的效果。雖然目前展示的能力是在舞臺上預錄的演示,實際應用中的效果如何還需進一步驗證。(@ 小互 AI)

4、夸克 AI 寫作助手 CueMe,不僅能寫長文還能模仿風格

CueMe 是夸克基於大模型自主研發的全新智慧對話助手,AI 寫作能力突出,支援不同體裁、不同篇幅的內容生成,最長可生成 2 萬字的內容,使用者現可透過 cueme.cn 或夸克 App 使用。

夸克表示,CueMe 針對不同細分體裁進行了充分的語料預訓練,可支援上千種不同體裁的寫作需求,包括研究報告、日常寫作、課程論文、新媒體文案等等,並且還在持續擴充套件中。

此外,CueMe 還支援文風定製,使用者可選擇根據平臺風格、語言風格或個人文章風格生成符合其個性化需求的內容。

據夸克官方介紹,CueMe 實現了三項關鍵技術突破 —— 長文字理解與生成、專業知識檢索與增強、以及複雜多輪文創指令遵循。在此基礎上,CueMe 從三個方向進行內容深度最佳化。

  • 首先是結構,對於研究報告等長文,高質量大綱生成是確保內容結構合理、邏輯清晰的關鍵。
  • 其次是引用素材時效性強、內容豐富。
  • 最後在生成內容中增加細節描述和鮮明觀點,從而讓生成內容不再「AI 痕跡明顯」或者泛泛而談(@IT 之家)

5、騰訊 GameGen-O 生成開放世界遊戲的影片模型

來自香港和中國大陸大學的研究人員與騰訊一起開發了 GameGen-O,這是一種可以模擬開放世界影片遊戲的人工智慧模型。據研究小組稱,GameGen-O 可以生成各種遊戲元素,包括角色、環境、動作和事件。該模型還為研究人員所謂的 “遊戲模擬” 提供了互動式控制。

這些並不是完全可玩的遊戲,而是開發者可以用來快速建立原型並測試不同遊戲元素的工具,而無需從頭開始建立它們。

為了建立 GameGen-O,研究人員首先建立了一個名為 “OGameData” 的大型資料集,其中包括來自 100 多款現代開放世界遊戲的處理資料。然後,他們分兩個階段訓練模型:首先,它學會基於 OGameData 生成各種遊戲內容。接下來,他們新增了一個 “InstructNet” 元件,以實現對生成內容的互動式控制。

研究人員認為,GameGen-O 是利用人工智慧製作開放世界電子遊戲的重要一步。透過結合 “創造性生成與互動能力”,它展示了作為傳統渲染技術替代品的潛力。

根據該團隊的說法,GameGen-O 可以成為研究人員和開發人員的寶貴資源。它允許探索各種應用程式,例如為影片遊戲,互動式控制和沉浸式虛擬環境開發人工智慧。

最近,來自谷歌研究院、谷歌 DeepMind 和特拉維夫大學的研究人員展示了 GameNGen,這是一種人工智慧系統,可以以每秒超過 20 幀的速度完全模擬和實時播放經典遊戲《毀滅戰士》。(@ 大模型 Daliy)

6、OpenAI o1 比博士還「聰明」,全球 11 位 AI 大咖怎麼看?

「好評」陣營:

  • Sam Altman(OpenAI CEO):OpenAI o1 是迄今為止最強大的模型,儘管仍有缺陷,但其推理能力開創了 AI 的新正規化。
  • Greg Brockman(OpenAI 總裁):o1 是透過強化學習訓練的模型,改進了推理質量和解釋性,雖然技術仍處早期,但展現了巨大潛力。
  • Jason Wei(OpenAI 研究員):o1 的思維鏈機制能夠自適應地進行推理,在科學問題上表現出色,並重新定義了深度學習領域。
  • Jim Fan(英偉達高階科學家):這是自 Chinchilla 縮放定律以來最重要的進展,o1 突破了推理瓶頸,是 AI 領域的一大飛躍。
  • James Campbell(卡內基梅隆大學博士生):展示了 o1 在數學比賽中的出色表現,並認為它顯著超越了 GPT-4。

「中差評」陣營:

  • Clement Delangue(HuggingFace CEO):批評稱 o1 並不具備真正的「思考」能力,認為 OpenAI 誇大了它的智慧,實際上是預測系統而非人類智慧。
  • Gary Marcus(紐約大學教授):雖然認可 o1 的進展,但指出它距離 AGI 還很遙遠,且沒有完全取代 GPT-4 的表現,誇大了部分結果。
  • Ethan Mollick(沃頓商學院教授):認為 o1 在規劃複雜問題上表現出色,但其智慧仍依賴於 GPT-4,存在錯誤和侷限性。
  • Aravind Srinivas(Perplexit CEO):認為單純依賴大語言模型的推理不夠可靠,建議結合程式碼執行和知識圖譜來提升模型的實用性。(@LLM 大模型)

二、有態度的觀點

1、Sam Altman:對 AI 大量的審查是有必要的

近日,OpenAI CEO Sam Altman 接受了美國著名主持人 Oprah Winfrey 採訪,談到了為何可以信任 AI 技術。
Sam Altman 稱,AI 技術的標準非常高,OpenAI 能做到最好的事情就是把這個技術交到人們手中,談論它能或者不能做什麼,將會發生什麼,並向社會建議如何使用大模型,或者解釋為何不釋出一些技術,隨著時間的推移建立起社會對 AI 的信任。

Sam Altman 認為,對 AI 技術大量的審查是非常有必要的。他也聲稱「每隔幾天」就會和政府進行溝通,建立技術護欄,並讓政府開始研究如何對 AI 系統進行安全測試。

Altman 也表示,他對 AI 將帶來的好處感到非常興奮,認為這是令人難以置信的,但也會帶來一些壞處,因此 OpenAI 會盡可能減輕影響。他提醒 AI 技術會被濫用,每個人都需要認識到這點,不過他堅信 AI 帶來的好處更多。( @APPSO)

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章