基於 Groq 和 Cartesia 的高速 AI 語音助手釋出;xAI 將自行打造超級計算機丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的新聞」、「有態度的觀點」、「有意思的資料」、「有思考的文章」、「有看點的會議」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@JLT,@ 鮑勃
01 有話題的新聞
1、xAI 將自行打造超級計算機 3
馬斯克昨日在 X 平臺宣佈,其名下人工智慧初創企業 xAI 已經結束了與甲骨文擴大現有合作的協議。
此外,他還表示,xAI 正打造一臺擁有 10 萬塊英偉達 H100 GPU 的超級計算機,目前正在進行微調和修復,最快在下個月就可以釋出。
馬斯克稱,xAI 現在打造的這臺超級計算機「將成為全球範圍內功能最強大的訓練叢集,並且領先優勢巨大」。同時他還表示「我們的核心競爭力在於比任何其他的人工智慧公司都更快,這是縮小差距的唯一途徑」。(@ 愛範兒)
2、清華團隊開發 CharacterGen,單圖高效生成 3D 角色
清華大學研究團隊開發的 CharacterGen 框架在 3D 角色生成領域取得重大突破。該技術能從單張影像建立具有一致姿勢和高質量外觀的 3D 角色模型,並支援後續骨架繫結和動畫製作。CharacterGen 採用基於影像的多視角擴散模型校準姿勢,結合變換器的稀疏檢視重建模型建立詳細 3D 模型。
研究團隊還開發了特殊的紋理生成策略和專用訓練資料集。實驗結果表明,CharacterGen 在生成高質量 3D 角色方面表現出色,為遊戲和動畫製作等領域帶來新的可能性。該專案將於 SIGGRAPH 2024 釋出,相關程式碼和資料集也將開源。(@AI 科技評論)
3、Stability AI 重磅更新:一鍵無痕 P 圖摳圖,3 分鐘整首歌曲直接生成
Stability AI 釋出了 Stable Assistant 的兩項新功能:圖片編輯中的搜尋和替換,允許使用者無縫替換影像中的物件;以及 Stable Audio,能夠生成長達 3 分鐘的高質量音樂曲目。
這些功能基於 Stable Diffusion 3 技術,提供了包括影像放大、影片建立等多樣化的影像編輯工具,旨在賦能創意專業人士,目前 Stable Assistant 提供 3 天免費試用。(@ 智東西)
4、夸克 AI 搜尋迎來全新升級,推出一站式 AI 服務
7 月 10 日,夸克宣佈升級「超級搜尋框」,推出以 AI 搜尋為中心的一站式 AI 服務。同時還為使用者提供從檢索、創作、總結,到編輯、儲存、分享的一體化資訊服務價值。
使用者在開啟夸克 7.0 版搜尋框後,輸入問題即可體驗智慧回答,還有 AI 寫作、檔案總結、影片總結、拍題講解功能。一個「超級搜尋框」集納了智慧回答、智慧創作和智慧總結三大能力。
夸克 App 產品負責人鄭嗣壽表示,夸克會加速效果迭代和產品升級,給使用者更快更準的搜尋體驗。在多模態互動、內容生態建設、多端一體等方面,夸克將進一步加快產品創新節奏,為使用者創造無處不在的資訊服務價值。(@ 愛範兒)
5、ai-ng/swift:新一代 AI 語音助手專案亮相
ai-ng/swift 專案是一款基於 Groq 和 Cartesia 技術的高速 AI 語音助手。該專案利用 Groq 進行快速推理,結合 OpenAI Whisper 進行語音轉錄和 Meta Llama 3 生成文字響應。同時,它採用 Cartesia 的 Sonic 語音模型實現快速語音合成,並將合成的語音流式傳輸到前端。
專案還整合了語音活動檢測技術,能夠精確捕捉使用者的說話時機。整個應用程式使用 TypeScript 編寫,基於 Next.js 框架開發,並已成功部署到 Vercel 平臺。(@AI 科技評論)
6、急追英偉達,AMD 以 6.65 億美元現金收購 AI 模型開發商 Silo AI
7 月 10 日,據媒體報導,AMD 已同意以 6.65 億美元現金收購人工智慧模型開發商 Silo AI,希望此舉幫助 AMD 縮小與英偉達之間在 AI 方面的差距。AMD 表示,Silo AI 團隊將加入該公司人工智慧集團,現任 CEO 將繼續領導團隊。受此訊息影響,AMD 週三美股早盤一度大漲 5.7%。
根據 AMD 週三公佈的宣告,Silo AI 總部位於赫爾辛基,該公司自稱是歐洲最大的私營人工智慧實驗室,客戶包括安聯集團、聯合利華、和寶馬旗下的勞斯萊斯。AMD 表示,Silo AI 的聯合創始人兼執行長彼得·薩林將繼續領導他的團隊,該團隊將成為 AMD 人工智慧集團的一部分。
目前,AMD 被認為是英偉達在快速增長的 AI 硬體市場上最有可能的競爭對手,兩家公司主營的顯示卡已被證明是訓練大型語言模型最有效的手段。(@ 華爾街見聞)
02 有態度的觀點
1、谷歌 DeepMind CEO:當前 AI 綜合智力還不如普通家貓
7 月 10 日,谷歌 DeepMind 執行長戴密斯・哈薩比斯(Demis Hassabis)表示,當前人工智慧(AI)的 IQ 智力還沒有達到貓的水平。
哈薩比斯出席全球變革研究所組織的「2024 年英國未來會議」,在和英國前首相托尼・布萊爾(Tony Blair)的公開討論中表示:如果將 AI 作為通用系統來衡量,其 IQ 智商水平甚至沒有超過貓。不過,隨著鉅額現金和計算投資的推動,相關研究進展很快。一些人預計未來 5 年時間,AI 智力可以超過人類。
哈薩比斯表示 DeepMind 的工作重點不是人工智慧(AI),而是通用人工智慧(AGI)。(@IT 之家)
寫在最後:
我們歡迎更多的小夥伴參與 「RTE 開發者日報」 內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- 亞馬遜秘密研發 AI 對標 ChatGPT;語音 AI 未來五年或將釋放 100 億美元市場 丨 RTE 開發者日報亞馬遜AIChatGPT開發者日報
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- Neuralink 將啟動第二例人類腦機晶片植入;多項 Claude 3.5 Sonnet AI 工具釋出丨 RTE 開發者日報晶片AI開發者日報
- Sam Altman 新公司將打造 AI 健康教練;全新大模型架構 TTT 超越 Transformer 丨 RTE 開發者日報AI大模型架構ORM開發者日報
- “仍有 5 億人堅持用 QQ”;馬斯克:本週開源 xAI 人工智慧助手丨 RTE 開發者日報 Vol.162馬斯克AI人工智慧開發者日報
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- 微軟預計年底實現實時語音介面;矽基智慧開源 AI 數字人互動平臺 Duix 丨 RTE 開發者日報微軟AIUI開發者日報
- 阿里 Qwen2.5 開源釋出;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 開發者日報阿里Go模型開發者日報
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- NVIDIA 乙太網加速 xAI 構建的全球最大 AI 超級計算機AI計算機
- 沒有方向盤和踏板,特斯拉釋出無人駕駛計程車;位元組豆包推出 AI 智慧體耳機 Ola Friend 丨 RTE 開發者日報AI智慧體開發者日報
- ChatGPT 開啟「眼睛」,實時攝像頭對話來了;崑崙萬維推出實時語音助手 Skyo 丨 RTE 開發者日報ChatGPT開發者日報
- ChatGPT 開啟「眼睛」,實時攝像頭對話來了;崑崙萬維推出實時語音助手 Skyo丨 RTE 開發者日報ChatGPT開發者日報
- 微軟將深度整合 Azure AI 與 GitHub;Stability AI 0.5 秒生成三維建模丨 RTE 開發者日報微軟AIGithub開發者日報
- ChatGPT 向更多使用者推出高階語音模式:支援 50 種語言;位元組釋出兩款新影片生成大模型丨 RTE 開發者日報ChatGPT模式大模型開發者日報
- 馬斯克的 xAI 融資 60 億美元;英偉達收購兩家 AI 創企丨 RTE 開發者日報 Vol.193馬斯克AI開發者日報
- Meta SAM 2:實時分割圖片和影片中物件;Apple Intelligence 首個開發者測試版釋出丨 RTE 開發者日報物件APPIntel開發者日報
- 新 Chrome 外掛可檢測 AI 偽造聲音;Canary Speech 推出用於臨床對話的語音分析技術丨 RTE 開發者日報ChromeAI開發者日報
- Mistral 釋出 Large 2 123B 大模型;微軟釋出 VALL-E 2,零樣本實現聲音克隆丨 RTE 開發者日報大模型微軟開發者日報
- Meta 研發大型 AI 推薦引擎;全球首部全面監管 AI 法規將落地丨 RTE 開發者日報 Vol.160AI開發者日報
- ElevenLabs Voice Design:文字生成個性化語音;科學家用 AI 解讀豬叫聲背後情緒和壓力丨 RTE 開發者日報AI開發者日報
- ElevenLabs Voice Design:文字生成個性化語音;科學家用 AI 解讀豬叫聲背後情緒和壓力丨RTE 開發者日報AI開發者日報
- 語音生成公司 ElevenLabs 估值達 30 億美元;OpenAI Realtime API 很好也很貴丨 RTE 開發者日報OpenAIAPI開發者日報
- RTE 領域近期詞雲統計釋出;谷歌開始新一輪「瘦身」計劃;使用ChatGPT之後智力提高 50%丨RTE開發者日報 Vol.50谷歌ChatGPT開發者日報
- ElevenLabs Voice Design :可透過文字建立個性化語音;蘋果推出首個開發者測試版丨 RTE 開發者日報蘋果開發者日報
- 微軟 Azure 推出文字到語音虛擬人;英偉達釋出 8B 小語言模型,可在 RTX 工作站部署丨 RTE 開發者日報微軟模型開發者日報
- 實時語音互動中文基準首期測評出爐;美取消 SB-1047 法案,大模型廠商大難不死丨 RTE 開發者日報大模型開發者日報
- OpenAI 釋出 AI 生成圖片檢測器;特斯拉計劃在中國測試自動駕駛計程車丨 RTE 開發者日報 Vol.200OpenAI自動駕駛開發者日報
- 阿里釋出革新的音訊多模態模型 Qwen2-Audio;月之暗面回應大模型顯示「9.11 大於 9.9」丨 RTE 開發者日報阿里音訊大模型開發者日報
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- WWDC 蘋果釋出 AI 全家桶;三星宣佈「實時翻譯」將相容第三方 App 丨 RTE 開發者日報 Vol.222蘋果AIAPP開發者日報
- ChatGPT 即將登陸 iPhone;史丹佛推出 AI 輔助全息成像技術丨 RTE 開發者日報 Vol.202ChatGPTiPhoneAI開發者日報
- Hume AI 語音控制功能:建立個性化語音;李飛飛空間智慧首個模型:單圖生成 3D 互動場景丨 RTE 開發者日報AI模型3D開發者日報
- 蘋果開源高效語言模型 OpenELM;全球首個 AI 基因編輯器開源丨 RTE 開發者日報 Vol.192蘋果模型AI開發者日報
- SpaceX 星艦發射「成功一半」;首位具身 AI 機器人面世丨 RTE 開發者日報 Vol.166AI機器人開發者日報
- RTE 大會報名丨 重塑語音互動:音訊技術和 Voice AI,RTE2024 技術專場第一彈!音訊AI
- 結合多模態 AI 谷歌展示 AR 眼鏡原型機;Meta 被曝開發帶攝像頭的 AI 耳機丨 RTE 開發者日報 Vol.204AI谷歌原型開發者日報