AI 口語學習應用 Speak 新一輪融資估值 10 億美元;YouTube 推出 AI 多語言配音丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、DeepSeek AI 釋出新版 DeepSeek-V2.5-1210:數學、程式設計與寫作能力大幅提升
DeepSeek AI 近期推出了 DeepSeek-V2.5-1210,這是 DeepSeek-V2.5 的增強版本,旨在提升人工智慧在數學、程式設計、寫作和推理任務中的表現。
早期版本的模型在解決數學和推理任務方面已取得了一定成功,但在多種應用場景中表現的穩定性還有待提高,尤其是在實時編碼和細緻寫作方面。
新發布的 DeepSeek-V2.5-1210 透過改進模型的核心功能和最佳化演算法,顯著提升了各項任務的可靠性和易用性。該模型具備解決複雜方程、撰寫連貫文章及有效總結網頁內容的能力,適合研究人員、軟體開發者、教育工作者和分析師等多類使用者。
技術上,DeepSeek-V2.5-1210 的多個升級使其表現更加出色。根據 MATH-500 資料集的評估,模型的數學任務完成率從 74.8% 提升至 82.8%,展示了其在解決複雜數學問題上的能力。
在實時編碼方面,LiveCodebench 的得分也從 29.2% 提高到 34.38%,顯示出在實時編碼任務中的顯著進步。
此外,內部評估還表明,模型在寫作和推理能力上都有所提升,能夠生成連貫且符合上下文的輸出。諸如增強的檔案上傳功能和改進的網頁總結能力等實際更新,進一步提升了使用者體驗。這些改進得益於最佳化的 Transformer 架構、精煉的令牌處理和更好的訓練資料整合,確保在多種任務中的強大表現。
從基準測試結果和實際應用中可以看出,該模型的提升是顯而易見的。其數學精確性的提升將惠及處理複雜計算的研究人員,而編碼能力的增強則為開發者解決實際挑戰提供了幫助。
在寫作和推理方面的改進,透過內部測試顯示出在撰寫論文、總結和邏輯分析等任務上的潛力。此外,改進後的檔案處理和總結功能,使使用者在學術和工業領域更容易將模型整合進工作流程中。(@ AIbase 基地)
2、ChatGPT Canvas 迎來更新,面向所有使用者開放
北京時間今天凌晨,OpenAI 舉辦釋出會,宣佈為 ChatGPT Canvas 帶來三項更新:
- Canvas 功能整合進 ChatGPT 核心模型:
在讓 Canvas 創作故事時,可以讓其編輯標題,潤色文件,檢查語法,甚至新增恰當的表情符號都能勝任。
- 支援使用者直接在 Canvas 中執行 Python 程式碼:
據官方介紹,OpenAI 在 Canvas 中整合了基於 WebAssembly 的 Python 模擬器,使其能夠載入絕大多數 Python 庫,實現程式碼的即時執行。
- 將 Canvas 功能引入 GPTs 生態系統。
OpenAI CEO Sam Altman 隨後還發布推文,表示:「 Canvas 現在可供所有 ChatGPT 使用者使用,並且可以執行程式碼!更重要的是,它可以讓你的寫作更有 emoji 風格。」(@ APPSO)
3、資料管理將成為 2025 年人工智慧成功的關鍵因素
近期,隨著人工智慧(AI)技術的迅速發展,資料管理的重要性愈發凸顯。儘管 AI 熱潮尚未帶來大量實際成功案例,但多項研究顯示,良好的資料管理和高質量的資料是實現 AI 目標的基礎。
NetApp 釋出的《2024 年資料複雜性報告》顯示,全球 1300 名技術和資料高管的調查結果令人關注。調查發現,投資於資料統一的公司在實現 AI 目標方面更具備優勢,接近 80% 的受訪者認識到統一資料對達到理想 AI 結果的重要性。
報告還指出,約三分之二的公司表示,他們的資料「完全或基本上最佳化用於 AI」,意味著這些資料可訪問、準確且經過良好文件記錄。然而,40% 的高管認為,未來兩年在 AI 和資料管理上的投資將會大幅增加。
另一份由資料管理與分析提供商 Qlik 釋出的報告則揭示了阻礙 AI 進展的一些原因。在接受調查的 4200 名高管中,缺乏 AI 技能和資料治理挑戰被認為是主要障礙,均佔 23%。此外,AI 開發後部署和預算不足及缺乏可信資料的比例也相對較高。Qlik 的報告強調,建立信任對於實現廣泛的 AI 成功至關重要,37% 的高管對 AI 缺乏信任,61% 認為這種信任缺失正在削減他們的 AI 投資。
最後,Ataccama 公司的《資料信任報告》也強調了資料管理在 AI 實踐中的重要性。該公司與 Hanover Research 合作,對來自美國、加拿大和英國的 300 名高管進行了調查。調查結果顯示,51% 的高管認為改善資料質量和準確性是當務之急,30% 的高管面臨著管理大量資料的挑戰。(@ AIbase 基地)
02 有亮點的產品
1、AI 語言學習應用 Speak 宣佈獲得 7800 萬美元 C 輪融資,估值 10 億美元!
Speak 宣佈獲得 Accel 領投的 7800 萬美元 C 輪融資,估值達到 10 億美元,其他投資方包括 OpenAI Khosla Ventures 以及 YC。
Accel 合夥人 Ben Quazzo 將加入 Speak 董事會。他表示,Speak 已經成為 C 端 AI 應用的出色參與者。
據悉,此輪資金目的之一是擴大使用者可學習的目標語言數量,從而擴大潛在客戶規模,首先將從西班牙語和法語開始,Speak 目前已經支援了八種學習英語的原始語言。
CEO Connor Zwick 表示,Speak 的價值主張是教人們如何用語言交流,Speak 的總目標市場達到 15 億使用者。
聯合創始人& CTO Andrew Hsu 提到,Speak 當前的下載量已經超過 1000 萬次,平均每天使用時長達到 10~20 分鐘;此外,Speak 的企業級客戶 Speak for Business 也擁有超過 200 個客戶。
Zwick 將 Speak 描述為部分學習方法和部分技術平臺,其工作過程分為三個步驟:
1)使用者先是參與到傾聽和交談中,產品不會馬上解釋語法規則;
2)使用者會被要求反覆運用這個新術語或短語,即用其他各種語言大聲講出來;
3)透過 AI 在現實世界中呈現這個短語。
目前,像 Duolingo 和 Kahoot 等公司已經傾向於將產品遊戲化,將學習打造成一種遊戲化體驗,
Zwick 表示,Speak 在融資後會將更多行為機制引入產品中,從而為使用者帶來積極的變化,但這不會以犧牲學習效果為代價。當需要在遊戲化、使用者參與度以及有效性之間進行取捨時,將 100% 選擇學習有效性。(@ 有新 Newin)
2、面壁智慧獲新一輪數億元融資 將提速端側等大模型商業化佈局
北京面壁智慧科技有限責任公司近期宣佈完成了新一輪數億元人民幣的融資。
本輪融資由龍芯創投、鼎暉百孚、中關村科學城基金和賽富投資基金聯合領投,北京市人工智慧產業投資基金與清科創投跟投,萬甲資本擔任獨家財務顧問。面壁智慧計劃利用這筆資金加速端側 AI 大模型的商業化佈局,致力於提供同等引數下更高效能、更低能耗和更快速度的高效大模型服務,以深度服務行業併為使用者創造具體可感知的價值。
面壁智慧以「高效為第一性原理」的大模型公司而聞名。其端側模型面壁小鋼炮 MiniCPM 因其以小博大、高效低成本的效能優勢而受到關注,該模型不僅在多項基準測試中領先,還將無限長文字、超清 OCR 識圖、實時影片理解等功能首次整合到端側,創造多項紀錄。自發布以來,面壁小鋼炮 MiniCPM 系列累計下載量突破 300 萬,成為全球開源社群的明星專案。
在端側智慧方面,面壁智慧在主流消費電子硬體和新興硬體中融入端側 AI,同時佈局端雲協同的未來正規化,與華為雲、百度智慧雲等達成戰略合作。公司與華為、聯發科技、聯想、英特爾、長城汽車、易來科技等行業標杆企業緊密協作,業務覆蓋 AI Phone、AI PC、智慧座艙、智慧家居與具身機器人等領域,將高效能的端側 AI 帶入千家萬戶、千行百業。(@ AIbase 基地)
3、YouTube 推出 AI 自動配音,打破語言壁壘
YouTube 在日前宣佈了一項重大更新 - AI 自動配音功能將為數十萬個頻道開放。這項創新技術旨在幫助內容創作者更輕鬆地觸達全球受眾,消除語言障礙。
據悉,這個基於 AI 的配音工具最初在去年的 Vidcon 大會上首次亮相,當時仍處於小規模測試階段。現在,這項功能正式面向以教育和指導類內容為主的頻道開放,包括烹飪、手工等型別的影片。
使用方法非常簡單:創作者只需像往常一樣上傳影片,YouTube 將自動識別原始語言並生成多語言配音版本。目前支援的語言包括英語、法語、德語、印地語、印尼語、義大利語、日語、葡萄牙語和西班牙語。
值得注意的是,這項技術依託於谷歌的 Gemini 人工智慧能力,能夠模仿人類語音。不過 YouTube 也坦誠地表示,由於技術仍處於發展早期,配音的準確性可能存在一定侷限性。公司表示將持續最佳化,並歡迎使用者提供反饋。
未來,YouTube 還計劃推出「表情語音」功能,這將幫助 AI 更精準地複製創作者的語氣、情感,甚至周圍環境的氛圍。這意味著跨語言內容傳播將變得更加生動和自然。(@ AIbase 基地)
4、位元組跳動豆包電腦版上線影片生成功能,內測使用者每日可免費生成十支影片
位元組跳動影片生成模型 PixelDance 已在豆包電腦版正式開啟內測,部分使用者已開通體驗入口。內測頁面顯示,使用者每日可免費生成十支影片。
據此前報導,PixelDance 影片生成模型於 9 月底首次釋出,最早透過即夢 AI、火山引擎面向創作者和企業客戶小範圍邀測。
據早期內測創作者介紹,當 PixelDance 生成 10 秒影片時,切換鏡頭 3-5 次的效果最佳,場景和角色能保持很好的一致性。此外,使用者還可使用時序提示詞、長鏡頭等技巧,增強影片的複雜度和表現力。
目前,基於該模型的影片生成能力已在豆包電腦版陸續開放。豆包相關負責人表示,未來仍將持續開放和最佳化該功能,更好地幫助普通使用者創作和表達。(@ IT 之家)
03 有態度的觀點
1、OpenAI 6 年元老:我們應該為全社會的 AI 發展安裝一個「剎車」
於 10 月底從 OpenAI 離職的 6 年元老 Miles Brundage,近期在個人部落格上發文,表示「我們應該為全社會的 AI 發展安裝一個剎車」。
他認為,目前 AI 的進展非常快,比如 2021 年出版的一本書——《人工智慧簡史》中的觀點,放到三年後的今天已經過時了。雖然在某些時刻人們對於人工智慧的進步過於樂觀,但他認為從總體來看,就近十年來說,堅持唱深度學習的反調確實不是一個成功的策略。
在部落格中他表示,人類應當安裝(經過設計和辯論的)「剎車」,因為當前 AI 的進步明顯快於社會能夠有效理解和塑造的速度,而且這種情況可能不會很快改變——甚至,二者之間差距可能逐漸擴大。(@ APPSO)
2、位元組內部判斷 AI 對話類產品天花板可能不高,提升剪映即夢優先順序
據知情人士透露,豆包的使用者活躍度較低,平均每週僅活躍 2 至 3 天,每天傳送訊息輪次為 5 到 6 次,單次時長約 2 分鐘,人均使用時長約 10 分鐘,過去一年增長幅度不顯著。位元組內部管理層認為這並非豆包的問題,其相關資料已處於國內產品第一梯隊,且基於文字的對話類產品可能並不是理想的產品形態。
QuestMobile 資料顯示,豆包、Kimi 和文小言的日均使用頻次均在 4 到 5 次之間,人均使用時長在 5 到 10 分鐘之間,變化不大。儘管如此,豆包在使用者增長上表現亮眼,9 月日活達 760 萬,遠超 Kimi 的 130 多萬。此外,豆包快速補齊了音樂生成、圖生圖、圖生影片等功能,語音功能也表現出色,但對話輪次和時長等關鍵指標仍不理想,商業化前景尚不明朗。
有知情人士透露,位元組內部認為付費訂閱模式在中國難以成功,而低使用時長和輪次限制了廣告空間,形成了隱形天花板。管理層建議尋找更低門檻和「多模態」的產品形式,剪映和即夢可能是合適的選擇。
剪映作為影片創作工具,已在圖片和影片編輯等功能上應用了最新模型技術,近期在圖片生成和理解領域取得技術突破,月活躍使用者達 1.7 億,全球排名第二。即夢是前抖音集團 CEO 張楠推出的 AI 創作工具,具備強內容社群屬性,吸引了大量 AI 創作者。位元組計劃將更多資源轉向多模態產品,即夢將在未來承擔更大希望,特別是在視覺生成相關的大模型最佳化方面。(@ 智慧湧現)
更多 Voice Agent 學習筆記:
市場規模超 60 億美元,語音如何改變對話式 AI?
2024 語音模型前沿研究整理,Voice Agent 開發者必讀
從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶
WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?
人類級別語音 AI 路線圖丨 Voice Agent 學習筆記
語音 AI 革命:未來,消費者更可能傾向於與 AI 溝通,而非人工客服
語音 AI 迎來爆發期,也仍然隱藏著被低估的機會丨 RTE2024 音訊技術和 Voice AI 專場
下一代 AI 陪伴 | 平等關係、長久記憶與情境共享 | 播客《編碼人聲》
Voice-first,閉關做一款語音產品的思考|社群來稿
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記AI筆記
- 語音生成公司 ElevenLabs 估值達 30 億美元;OpenAI Realtime API 很好也很貴丨 RTE 開發者日報OpenAIAPI開發者日報
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- 亞馬遜秘密研發 AI 對標 ChatGPT;語音 AI 未來五年或將釋放 100 億美元市場 丨 RTE 開發者日報亞馬遜AIChatGPT開發者日報
- Epic將展開新一輪融資 或使公司估值達170億美元
- 小米回應「網友惡搞 AI 雷軍配音罵人」;Hailuo AI 上線圖片生成影片功能丨 RTE 開發者日報AI開發者日報
- 馬斯克的 xAI 融資 60 億美元;英偉達收購兩家 AI 創企丨 RTE 開發者日報 Vol.193馬斯克AI開發者日報
- 新 Chrome 外掛可檢測 AI 偽造聲音;Canary Speech 推出用於臨床對話的語音分析技術丨 RTE 開發者日報ChromeAI開發者日報
- 蘋果開源高效語言模型 OpenELM;全球首個 AI 基因編輯器開源丨 RTE 開發者日報 Vol.192蘋果模型AI開發者日報
- ChatGPT 向更多使用者推出高階語音模式:支援 50 種語言;位元組釋出兩款新影片生成大模型丨 RTE 開發者日報ChatGPT模式大模型開發者日報
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- AI晶片年度最大融資,地平線將融資10億美元!AI晶片學者地圖出爐AI晶片地圖
- UiPath獲E輪2.25億美元融資:估值102億美元成全球估值最高RPA企業UI
- “AI明星”地平線B輪融資6億美元!AI
- 曠視科技完成7.5億美元D輪融資,估值達40億美元
- AI一分鐘 | Facebook或將面臨2萬億美元罰款;大疆尋求新一輪融資,估值150億美元AI
- 爆火 AI 硬體遭差評,Ai Pin 上市即翻車;Grok 推出首個多模態模型丨 RTE 開發者日報 Vol.184AI模型開發者日報
- 《PMGO》開發商展開新一輪融資 規模約2億美元Go
- Rokid Glasses AR 眼鏡釋出,搭載通義 AI;3D 社交平臺 SEELE 完成千萬美元融資丨 RTE 開發者日報AI3D開發者日報
- Rokid Glasses AR 眼鏡釋出,搭載通義 AI;3D 社交平臺 SEELE 完成千萬美元融資丨RTE 開發者日報AI3D開發者日報
- 基於AI的英語學習應用WordUp推出"幻想聊天"功能AI
- Runway 新增影片擴充套件畫面功能;Anthropic 再獲亞馬遜投資 40 億美元,聚焦 AI 晶片研發丨 RTE 開發者日報套件亞馬遜AI晶片開發者日報
- 微軟將深度整合 Azure AI 與 GitHub;Stability AI 0.5 秒生成三維建模丨 RTE 開發者日報微軟AIGithub開發者日報
- ChatGPT 即將登陸 iPhone;史丹佛推出 AI 輔助全息成像技術丨 RTE 開發者日報 Vol.202ChatGPTiPhoneAI開發者日報
- AI晶片獨角獸寒武紀新融資完成:估值逾20億美元,國家隊基金入場AI晶片
- ElevenLabs Voice Design :可透過文字建立個性化語音;蘋果推出首個開發者測試版丨 RTE 開發者日報蘋果開發者日報
- 基於 Groq 和 Cartesia 的高速 AI 語音助手釋出;xAI 將自行打造超級計算機丨 RTE 開發者日報AI計算機開發者日報
- ElevenLabs Voice Design:文字生成個性化語音;科學家用 AI 解讀豬叫聲背後情緒和壓力丨RTE 開發者日報AI開發者日報
- ElevenLabs Voice Design:文字生成個性化語音;科學家用 AI 解讀豬叫聲背後情緒和壓力丨 RTE 開發者日報AI開發者日報
- Hume AI 推出 EVI 2 情感模型;OpenAI o1 模型問世,模擬人類思考問題 丨 RTE 開發者日報模型OpenAI開發者日報
- Discord融資5億美元,估值飆漲至150億
- 微軟 Azure 推出文字到語音虛擬人;英偉達釋出 8B 小語言模型,可在 RTX 工作站部署丨 RTE 開發者日報微軟模型開發者日報
- Meta 研發大型 AI 推薦引擎;全球首部全面監管 AI 法規將落地丨 RTE 開發者日報 Vol.160AI開發者日報
- AI獨角獸第四正規化再融2.3億美元,估值20億美元,思科聯想入股AI
- 位元組豆包釋出新模型,AI 一句話 P 圖;Google 正式推出 Vids,簡單提示即可生成影片演示丨 RTE 開發者日報模型AIGo開發者日報
- AI一分鐘 | 傳螞蟻金服融資100億美元,估值1500億美元;美國擬建百億億次級超算AI
- AI一分鐘 | 傳螞蟻金服融資100億美元,估值1500億美元;美國擬建百億億次級超算...AI
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報