ElevenLabs Voice Design :可透過文字建立個性化語音;蘋果推出首個開發者測試版丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、蘋果推出 iOS 18.2 首個開發者測試版,Siri 接入 ChatGPT
今日,蘋果向 iPhone 15 Pro 及以上機型推送了 iOS 18.2 首個開發者測試版。新版本包括了更多的 Apple 智慧功能更新:
Image Playground:允許使用者使用提示詞生成圖片
Genmoji:允許使用者使用提示詞生成自定義的表情符號
Siri 接入 ChatGPT:Siri 現在可以把使用者的提問和請求移交給 ChatGPT。整合 ChatGPT 的 Siri 支援螢幕響應功能,使用者可以發出類似「這張照片中有什麼」的提問
視覺智慧:iPhone 16 系列機型支援,可以用於識別周圍的物體和地點,還能獲取 Google 搜尋結果和 ChatGPT 答案
寫作工具:重寫工具支援描述語氣和內容
語言更新:新增了對澳大利亞、加拿大、紐西蘭、南非和英國英語的支援
除了 Apple 智慧,iOS 18.2 還帶來了重新設計的郵件應用、更新的語音備忘錄、自定義預設應用等功能。(@ APPSO)
2、Runway 推出一鍵表情複製功能 Act-One
AI 影片生成平臺 Runway 釋出了全新工具「Act-One」,能夠在 Gen-3 Alpha 模型中生成富有表現力的角色表演影片。
據介紹,Act-One 可以使用影片和語音表演作為輸入源,可以用來進行真人演員的表情捕捉,能夠準確地將表演轉換為與原始影片比例不同的角色,而不需要傳統動作捕捉的大量裝置。
Act-One 也支援僅靠單個演員和攝像機,生成兩個不同的角色的多機位對話場景。(@ APPSO)
3、ElevenLabs 推出全新 AI 語音生成工具 Voice Design 可透過文字提示建立個性化語音
ElevenLabs 日前釋出全新 AI 語音生成工具 Voice Design,透過簡單的文字描述即可建立個性化語音,開創了 AI 配音領域的新紀元。
這款工具最大的特點是其直觀的文字提示功能。使用者只需描述所需聲音的特徵,如「溫暖友好的中年女性聲音,帶著輕微英國口音」,系統便能快速生成符合要求的語音。
Voice Design 支援調節多個語音引數,包括年齡、性別、口音、語調和音高等,確保生成的聲音精確匹配使用者需求。
除了模擬真實人聲,Voice Design 還突破性地支援創作角色化語音。無論是精靈的空靈之音,還是機器人的金屬音效,系統都能準確捕捉並還原這些虛擬角色的聲音特徵。使用者可以反覆調整引數,探索無限的創作可能,為遊戲開發、有聲內容製作等領域提供了強大的創意工具。(@ 站長之家)
4、OpenAI 聘請第一位首席經濟學家
TechCrunch 報導,OpenAI 聘請了第一位首席經濟學家:Aaron Chatterji,他曾為兩位美國總統服務,現任杜克大學商業與公共政策教授。
Chatterji 將為 OpenAI 研究人工智慧造成的經濟影響,並領導人工智慧如何影響經濟增長和就業前景的研究。
OpenAI 還任命了前助理副總檢察長和 Uber 的合規主管 Scott Schools 為新任首席合規官,將為這家公司就法律要求和道德規範方面進行合作。(@ APPSO)
5、JetBrains 為開發者打造最強 AI 助手 Mellum:為程式設計而生,延遲低、補全快、準確度高
JetBrains 公司於 10 月 22 日釋出博文,專門設計推出了全新的大語言模型 Mellum,為軟體開發者提供更快速、更智慧和更具上下文意識的程式碼補全。
官方表示 Mellum 相比較其它大語言模型,最大的亮點就是專門為開發者程式設計而設計的,具備延遲低、效能強、功能全面等優點,可以在最短時間內為開發者提供相關建議。
Mellum 已支援 Java、Kotlin、Python、Go 和 PHP 等流行程式語言,使用者可透過加入早期訪問計劃獲取更多語言支援。
Mellum 表示補全程式碼延遲時間是此前的三分之一,顯著提高了任務完成速度;完成建議的接受率約為 40%,成為行業內的可靠基準。
Mellum 不僅在速度和準確性上表現卓越,還深度整合 JetBrains IDE,讓其能夠提供符合專案需求的上下文程式碼建議。
JetBrains 承諾 Mellum 的訓練資料僅來自公開可用且具有寬鬆許可的程式碼,確保使用者隱私。(@IT 之家)
02 有態度的觀點
1、《人類簡史》作者尤瓦爾:我們需要防止人工智慧失控,確保其符合人類價值觀
「2024 ESG 全球領導者大會」於 10 月 16 日 -18 日在上海舉行。新浪財經歐洲站站長郝倩與知名歷史學家、哲學家、《人類簡史》、《智人之上》作者尤瓦爾・赫拉利展開對話。
尤瓦爾認為,人工智慧(AI)的崛起是人類所面臨的一大挑戰。但不可否認的是,人工智慧能夠造福人類的觀點同樣存在。在被問題及,在可持續發展的社會中,人工智慧應該扮演什麼角色時,尤瓦爾表示,如果能夠防止人工智慧失控,確保它能符合人類的價值觀,那麼人工智慧可能會成為人類歷史上最好的發明。
「因為到那時,它的巨大力量將服務於人類社會,而不是危害人類社會」,尤瓦爾舉例說,諸如醫療保健等領域,目前沒有足夠數量的醫生為病人服務,而人工智慧醫生可以在這方面提供巨大幫助。
談及人工智慧的監管問題,尤瓦爾強調,「監管非常重要,而且許多國家的政府對此很感興趣」。
他強調,禁止人工智慧假冒人類是一項重要規定。「我們歡迎人工智慧以醫生或教師的身份在社交媒體上與我們互動,但它絕不能假裝自己是人類。你在交談時,需要知道交談的物件是人類還是人工智慧。」
此外,同樣重要的是,人工智慧公司要對其演算法的行為負責。如果一家公司研發了一種功能強大的演算法,而它對社會、人類心理或其他方面產生了危險的副作用,那麼這家公司就必須承擔責任,必須對它造成的損害負責。(@IT 之家)
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- ElevenLabs Voice Design:文字生成個性化語音;科學家用 AI 解讀豬叫聲背後情緒和壓力丨 RTE 開發者日報AI開發者日報
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- 語音生成公司 ElevenLabs 估值達 30 億美元;OpenAI Realtime API 很好也很貴丨 RTE 開發者日報OpenAIAPI開發者日報
- Meta SAM 2:實時分割圖片和影片中物件;Apple Intelligence 首個開發者測試版釋出丨 RTE 開發者日報物件APPIntel開發者日報
- 蘋果開源高效語言模型 OpenELM;全球首個 AI 基因編輯器開源丨 RTE 開發者日報 Vol.192蘋果模型AI開發者日報
- 新 Chrome 外掛可檢測 AI 偽造聲音;Canary Speech 推出用於臨床對話的語音分析技術丨 RTE 開發者日報ChromeAI開發者日報
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- 微軟 Azure 推出文字到語音虛擬人;英偉達釋出 8B 小語言模型,可在 RTX 工作站部署丨 RTE 開發者日報微軟模型開發者日報
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- 美眾議院透過強制要求 TikTok 剝離的法案; 首個 AI 軟體工程師上線丨 RTE 開發者日報 Vol.165AI軟體工程工程師開發者日報
- 爆火 AI 硬體遭差評,Ai Pin 上市即翻車;Grok 推出首個多模態模型丨 RTE 開發者日報 Vol.184AI模型開發者日報
- 蘋果釋出 macOS11.0 Big Sur 首個開發者測試版蘋果Mac
- RTE 大會報名丨 重塑語音互動:音訊技術和 Voice AI,RTE2024 技術專場第一彈!音訊AI
- 基於 Groq 和 Cartesia 的高速 AI 語音助手釋出;xAI 將自行打造超級計算機丨 RTE 開發者日報AI計算機開發者日報
- 英偉達市值超越蘋果;ChatGPT、Perplexity、Claude 同時大崩潰丨 RTE 開發者日報 Vol.220蘋果ChatGPT開發者日報
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- ChatGPT 訂閱價或漲到 44 美元;研究稱 AI 可 100% 繞過 reCAPTCHA V2 驗證丨 RTE 開發者日報ChatGPTAIAPT開發者日報
- 奧特曼淨資產破 20 億美元;蘋果計劃透過線上渠道釋出 2024 款 iPad 和 Mac 丨 RTE 開發者日報 Vol.156奧特曼蘋果iPadMac開發者日報
- OpenAI 釋出 AI 生成圖片檢測器;特斯拉計劃在中國測試自動駕駛計程車丨 RTE 開發者日報 Vol.200OpenAI自動駕駛開發者日報
- 谷歌推智慧啤酒冰箱:可透過語音命令解鎖谷歌
- OpenAI 收購桌面實時協作公司 Multi;iOS 18 開放 iPhone 映象測試丨 RTE 開發者日報 Vol.231OpenAIiOSiPhone開發者日報
- 微軟開發者大會推出 60 個新發布;阿里雲和百度加入大模型「價格戰」丨 RTE 開發者日報 Vol.209微軟阿里大模型開發者日報
- 蘋果頭顯產品年內中國上市;「美版貼吧」Reddit 苦熬 19 年終上市丨 RTE 開發者日報 Vol.170蘋果開發者日報
- 影片生成模型 Dream Machine 開放試用;微軟將停止 Copilot GPTs 丨 RTE 開發者日報 Vol.224模型Mac微軟GPT開發者日報
- 亞馬遜秘密研發 AI 對標 ChatGPT;語音 AI 未來五年或將釋放 100 億美元市場 丨 RTE 開發者日報亞馬遜AIChatGPT開發者日報
- 微軟預計年底實現實時語音介面;矽基智慧開源 AI 數字人互動平臺 Duix 丨 RTE 開發者日報微軟AIUI開發者日報
- android收款語音播報+個推遠端通知、透傳推送Android
- ChatGPT 向更多使用者推出高階語音模式:支援 50 種語言;位元組釋出兩款新影片生成大模型丨 RTE 開發者日報ChatGPT模式大模型開發者日報
- 阿里 Qwen2.5 開源釋出;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 開發者日報阿里Go模型開發者日報
- 蘋果 Vision Pro 產地首次公佈:原汁原味的中國製造丨 RTE 開發者日報 Vol.143蘋果開發者日報
- 星紀魅族宣佈 All in AI;歐盟將首次對蘋果處以罰款丨 RTE 開發者日報 Vol.146AI蘋果開發者日報
- 微軟或開發新模型與 OpenAI 競爭;蘋果或將推出 Apple Pencil Pro 丨 RTE 開發者日報 Vol.198微軟模型OpenAI蘋果APP開發者日報
- 谷歌釋出世界模型,能生成可互動虛擬世界;華為釋出全球首個 5.5G 智慧核心網丨 RTE 開發者日報 Vol.152谷歌世界模型虛擬世界開發者日報
- 微軟將深度整合 Azure AI 與 GitHub;Stability AI 0.5 秒生成三維建模丨 RTE 開發者日報微軟AIGithub開發者日報
- Meta 研發大型 AI 推薦引擎;全球首部全面監管 AI 法規將落地丨 RTE 開發者日報 Vol.160AI開發者日報
- 蘋果挖走大量谷歌人才,建立神秘人工智慧實驗室;李飛飛創業成立「空間智慧」公司丨 RTE 開發者日報 Vol.197蘋果谷歌人工智慧創業開發者日報
- QQ 測試 AI 聊天搭子,再戰 AI 社交;零一萬物宣佈開源 Yi-9B 模型丨 RTE 開發者日報 Vol.159AI模型開發者日報
- Amphion 推出開源 TTS 模型 MaskGCT,5 秒克隆聲音;神秘文生圖模型「小熊貓」登頂競技場丨 RTE 開發者日報TTS模型GC開發者日報