微軟 Azure 推出文字到語音虛擬人;英偉達釋出 8B 小語言模型,可在 RTX 工作站部署丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、英偉達釋出 80 億引數新 AI 模型:精度、效率高,可在 RTX 工作站上部署
英偉達釋出了 Mistral-NeMo-Minitron 8B 小語言 AI 模型,共 80 億個引數,具備精度高、計算效率高等優點,可在 GPU 加速的資料中心、雲和搭載英偉達 RTX 顯示卡的工作站上執行。
英偉達表示透過寬度剪枝(width-pruning)Mistral NeMo 12B,並知識蒸餾(knowledge distillation)輕度重新訓練後獲得 Mistral-NeMo-Minitron 8B,相關成果發表在《Compact Language Models via Pruning and Knowledge Distillation》論文中。
剪枝透過去除對準確率貢獻最小的模型權重來縮小神經網路。在「蒸餾」過程中,研究小組在一個小型資料集上重新訓練剪枝後的模型,以顯著提高透過剪枝過程而降低的準確率。
就其規模而言,Mistral-NeMo-Minitron 8B 在語言模型的九項流行基準測試中遙遙領先。這些基準涵蓋了各種任務,包括語言理解、常識推理、數學推理、總結、編碼和生成真實答案的能力。(@IT 之家)
2、微軟 Azure AI 語音服務推出虛擬人形象,支援文字轉影片
微軟 Azure AI 語音服務允許開發者構建多語言生成式 AI 語音應用,Azure AI 語音服務最新推出了文字到語音虛擬人功能,可以將簡單的文字轉換為人類自然說話影片。
8 月 22 日,微軟宣佈全面推出 Text to Speech Avatar 功能。這項新功能使開發者能夠為其使用者建立個性化虛擬人。該服務的輸出影片解析度為 1920 x 1080,每秒 25 幀。
Text to Speech Avatar 具有以下功能:
- 將文字轉換為由 Azure AI 文字轉語音提供支援的人類說話影片,該影片具有自然的聲音。
- 提供不同的人物預設形象。
- 形象的聲音由 Azure AI 文字轉語音生成。
- 使用批次合成 API 非同步或實時合成文字到語音人像影片。
- 在 Speech Studio 中提供內容建立工具,無需編碼即可建立影片內容。
- 透過 Speech Studio 中的實時聊天頭像工具啟用實時人像對話。
定價方面,文字轉影片服務的收費將根據影片輸出的長度計算並按秒收費。該服務現已在東南亞、北歐、西歐、瑞典中部、美國中南部和美國西部地區推出。(@IT 之家)
3、Ideogram 釋出 2.0 全新版本,寫實風格顯著提升,接近真實照片,還能生成網頁設計頁面
Ideogram 釋出 Ideogram 2.0 版本,這是一款功能強大的文字轉影像模型,具有行業領先的生成真實影像、平面設計、排版等能力。
Ideogram 2.0 具有以下主要功能特點:
多種影像風格選擇:
- 現實主義風格:能夠生成高度逼真的影像,紋理和細節(如皮膚和頭髮)都非常接近真實照片
- 設計風格:強化了文字的準確性,非常適合製作帶有長文字的圖形設計,如賀卡、海報和社交媒體內容
- 3D 風格: 支援生成三維立體感較強的影像
- 動漫風格:專為生成動畫或卡通風格的影像而設計
靈活的影像生成:
- 任意寬高比:支援各種寬高比的影像生成,包括 3:1 和 1:3 等非傳統比例
- 顏色調控:使用者可以指定顏色調色盤,以便在生成的影像中保持一致的視覺風格,適用於藝術控制和品牌一致性
高階影像生成工具:
- Magic Prompt: 自動生成創意性的提示詞,幫助使用者更輕鬆地開始創作
- Describe 功能:根據已有影像生成詳細的文字提示,以此為基礎建立新的影像
API 與移動端支援:
- Ideogram API: 開發者可以透過 API 將 Ideogram 的影像生成能力整合到他們的應用中,並且相比其他同類產品,價格更具競爭力
- iOS 應用:提供了移動端應用程式,使用者可以隨時隨地生成影像(Android 版本將在稍後推出)
龐大的影像庫搜尋:
- 使用者可以透過文字搜尋訪問超過 10 億張公開生成的影像,找到靈感並探索他人的創作
(@ 小互 AI)
4、馬斯克點贊可靈 AI
8 月 20 日,AI 插畫藝術愛好者 Déborah 在推特上釋出了一段由可靈 AI 完成、時長為五秒鐘的影片。這條影片獲得了埃隆·馬斯克的關注,並且他在評論區回覆「AI Entertainment is happening fast」。
可靈 AI 作為快手自研的影片生成大模型,自今年 6 月初發布以來便受到了國內外的廣泛關注和好評。市場分析機構摩根士丹利公開評論:「可靈 AI 的表現要比抖音和騰訊過往釋出的影片生成模型都更加優秀。」
從影片生成效果本身來看,可靈 AI 不僅能夠模擬物理世界特性,還具備了強大的概念組合能力和想象力,生成的影片解析度高達 1080p,時長最高可達 2 分鐘。
6 月 21 日,可靈 AI 正式推出圖生影片功能,支援用任意靜態影像生成 5s 影片,並且可搭配不同的文字內容,實現豐富的視覺敘事 。馬斯克點讚的影片,也是出自可靈 AI 這一核心爆款功能。在海外,快手的圖生影片得到了廣泛的使用。被點贊影片的作者 Déborah 也多次用可靈 AI 製作影片 。
7 月 6 日,在上海舉行的 2024 世界人工智慧大會上,可靈 AI 正式上線了網頁端,推出了更加清晰的高畫質版,在影片處理的精細度上有了大幅提升。其中,首尾幀控制、鏡頭控制等新功能也一起上線,並且創作者單次生成的文生影片時長也增加至 10 秒。
7 月底,可靈 AI 大模型全面開放內測,並正式面向全球上線會員體系,針對不同類別的會員,提供相應的專屬功能服務。(@AI 科技評論)
5、原 Character.AI CEO 諾姆・沙澤爾將任谷歌 Gemini 聯合技術負責人
根據谷歌傳送給員工的訊息,本月重返谷歌的 Character.AI 聯合創始人兼原 CEO 諾姆・沙澤爾(Noam Shazeer)將擔任谷歌 AI 專案 Gemini 的聯合技術負責人。
沙澤爾將與谷歌長期從事人工智慧研究的傑夫・迪恩(Jeff Dean)和奧里奧爾・維尼亞爾斯(Oriol Vinyals)一起開發 Gemini,其目標是與 OpenAI 的大語言模型 GPT 競爭。
本月初,初創公司 Character.AI 宣佈,該公司已與谷歌母公司 Alphabet 簽署了一項協議,授予這家搜尋引擎巨頭非獨家使用其大型語言模型的許可。Character.AI 聯合創始人諾姆・沙澤爾和丹尼爾・德・弗雷塔斯將重返谷歌,谷歌發言人曾宣佈沙澤爾將加入 DeepMind 研究團隊。(@IT 之家)
02 有態度的觀點
1、Rippleing 創始人:你的公司 AI washing 了嗎?
Rippling 創始人 Parker Conrad 對於 AI 技術的實際應用持懷疑態度,認為許多軟體公司在產品中新增了新穎但不實用的 AI 功能。他指出,目前 AI 世界中存在大量無關緊要的東西,儘管 AI 有潛力帶來變革,但他對目前所見的 AI 功能並不印象深刻。
Conrad 理解為什麼公司會聲稱其產品具有 AI 功能,因為這可以提高公司的市場估值。資料顯示,AI 公司在美國的投資中佔有重要比重,超過 40% 的新獨角獸企業是 AI 初創企業。Parkway Venture Capital 的管理合夥人 Nekeshia Woods 認為 AI 正在成為企業自動化日常任務的方式,並預計 AI 助手和通用機器人將在未來出現。
Conrad 認為 AI 的強大在於其能力在處理大量非結構化資訊,幫助公司更好地瞭解其業務。儘管存在 AI 疲勞現象,但人們對 AI 的問題正在增加,投資者和創始人開始關注對人工智慧的大量投資何時能獲得回報。Conrad 對 AI 的未來保持觀望態度。(@AI 科技評論)
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- ChatGPT 向更多使用者推出高階語音模式:支援 50 種語言;位元組釋出兩款新影片生成大模型丨 RTE 開發者日報ChatGPT模式大模型開發者日報
- ElevenLabs Voice Design :可透過文字建立個性化語音;蘋果推出首個開發者測試版丨 RTE 開發者日報蘋果開發者日報
- Hume AI 推出 EVI 2 情感模型;OpenAI o1 模型問世,模擬人類思考問題 丨 RTE 開發者日報模型OpenAI開發者日報
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- Mistral 釋出 Large 2 123B 大模型;微軟釋出 VALL-E 2,零樣本實現聲音克隆丨 RTE 開發者日報大模型微軟開發者日報
- 基於 Groq 和 Cartesia 的高速 AI 語音助手釋出;xAI 將自行打造超級計算機丨 RTE 開發者日報AI計算機開發者日報
- 阿里 Qwen2.5 開源釋出;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 開發者日報阿里Go模型開發者日報
- 微軟預計年底實現實時語音介面;矽基智慧開源 AI 數字人互動平臺 Duix 丨 RTE 開發者日報微軟AIUI開發者日報
- 微軟將深度整合 Azure AI 與 GitHub;Stability AI 0.5 秒生成三維建模丨 RTE 開發者日報微軟AIGithub開發者日報
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- 谷歌釋出世界模型,能生成可互動虛擬世界;華為釋出全球首個 5.5G 智慧核心網丨 RTE 開發者日報 Vol.152谷歌世界模型虛擬世界開發者日報
- Amphion 推出開源 TTS 模型 MaskGCT,5 秒克隆聲音;神秘文生圖模型「小熊貓」登頂競技場丨 RTE 開發者日報TTS模型GC開發者日報
- 沒有方向盤和踏板,特斯拉釋出無人駕駛計程車;位元組豆包推出 AI 智慧體耳機 Ola Friend 丨 RTE 開發者日報AI智慧體開發者日報
- 蘋果開源高效語言模型 OpenELM;全球首個 AI 基因編輯器開源丨 RTE 開發者日報 Vol.192蘋果模型AI開發者日報
- 微軟或開發新模型與 OpenAI 競爭;蘋果或將推出 Apple Pencil Pro 丨 RTE 開發者日報 Vol.198微軟模型OpenAI蘋果APP開發者日報
- 商湯釋出行業首個全棧大模型產品矩陣;微軟釋出小型 AI 模型 Phi-3-mini 丨 RTE 開發者日報 Vol.191行業全棧大模型矩陣微軟AI開發者日報
- 創紀錄:英偉達市值一日增 2770 億美元;Xiaomi 14 Ultra 正式釋出丨 RTE 開發者日報 Vol.150開發者日報
- 微軟小語言模型Phi-3-Mini-4K-Instructk開源釋出微軟模型Struct
- 文字到語音(tts)TTS
- 語音生成公司 ElevenLabs 估值達 30 億美元;OpenAI Realtime API 很好也很貴丨 RTE 開發者日報OpenAIAPI開發者日報
- 斯嘉麗·約翰遜指控 OpenAI 非法使用其聲音;微軟推出 AI 工具「回顧」(Recall)丨 RTE 開發者日報 Vol.208OpenAI微軟開發者日報
- 新 Chrome 外掛可檢測 AI 偽造聲音;Canary Speech 推出用於臨床對話的語音分析技術丨 RTE 開發者日報ChromeAI開發者日報
- 亞馬遜秘密研發 AI 對標 ChatGPT;語音 AI 未來五年或將釋放 100 億美元市場 丨 RTE 開發者日報亞馬遜AIChatGPT開發者日報
- 微軟開發者大會推出 60 個新發布;阿里雲和百度加入大模型「價格戰」丨 RTE 開發者日報 Vol.209微軟阿里大模型開發者日報
- 騰訊釋出VRSDK推出虛擬現實開發者扶持計劃VR
- OpenAI 釋出全新生成式模型 GPT-4o;位元組收購音訊裝置公司 Oladance 丨 RTE 開發者日報 Vol.203OpenAI模型GPT音訊開發者日報
- ElevenLabs Voice Design:文字生成個性化語音;科學家用 AI 解讀豬叫聲背後情緒和壓力丨 RTE 開發者日報AI開發者日報
- 小語言模型指南模型
- 微軟釋出Cortana小娜語音助手 人工智慧無處不在微軟人工智慧
- 影片生成模型 Dream Machine 開放試用;微軟將停止 Copilot GPTs 丨 RTE 開發者日報 Vol.224模型Mac微軟GPT開發者日報
- 阿里釋出革新的音訊多模態模型 Qwen2-Audio;月之暗面回應大模型顯示「9.11 大於 9.9」丨 RTE 開發者日報阿里音訊大模型開發者日報
- 位元組豆包釋出新模型,AI 一句話 P 圖;Google 正式推出 Vids,簡單提示即可生成影片演示丨 RTE 開發者日報模型AIGo開發者日報
- ChatTTS,語氣韻律媲美真人的開源TTS模型,文字轉語音界的新魁首,對標微軟Azure-ttsTTS模型微軟
- 谷歌釋出TTS新系統Tacotron 2:直接從文字生成類人語音谷歌TTS
- 釋出會後蘋果股價創歷史新高;商湯 Embedding 模型拿下 SOTA 丨 RTE 開發者日報 Vol.223蘋果模型開發者日報
- 英偉達市值超越蘋果;ChatGPT、Perplexity、Claude 同時大崩潰丨 RTE 開發者日報 Vol.220蘋果ChatGPT開發者日報