AI 口語學習應用 Speak 新一輪融資估值 10 億美元;YouTube 推出 AI 多語言配音丨 RTE 開發者日報

RTE开发者社区發表於2024-12-11

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

01 有話題的新聞

1、DeepSeek AI 釋出新版 DeepSeek-V2.5-1210:數學、程式設計與寫作能力大幅提升

DeepSeek AI 近期推出了 DeepSeek-V2.5-1210,這是 DeepSeek-V2.5 的增強版本,旨在提升人工智慧在數學、程式設計、寫作和推理任務中的表現。

早期版本的模型在解決數學和推理任務方面已取得了一定成功,但在多種應用場景中表現的穩定性還有待提高,尤其是在實時編碼和細緻寫作方面。

新發布的 DeepSeek-V2.5-1210 透過改進模型的核心功能和最佳化演算法,顯著提升了各項任務的可靠性和易用性。該模型具備解決複雜方程、撰寫連貫文章及有效總結網頁內容的能力,適合研究人員、軟體開發者、教育工作者和分析師等多類使用者。

技術上,DeepSeek-V2.5-1210 的多個升級使其表現更加出色。根據 MATH-500 資料集的評估,模型的數學任務完成率從 74.8% 提升至 82.8%,展示了其在解決複雜數學問題上的能力。

在實時編碼方面,LiveCodebench 的得分也從 29.2% 提高到 34.38%,顯示出在實時編碼任務中的顯著進步。

此外,內部評估還表明,模型在寫作和推理能力上都有所提升,能夠生成連貫且符合上下文的輸出。諸如增強的檔案上傳功能和改進的網頁總結能力等實際更新,進一步提升了使用者體驗。這些改進得益於最佳化的 Transformer 架構、精煉的令牌處理和更好的訓練資料整合,確保在多種任務中的強大表現。

從基準測試結果和實際應用中可以看出,該模型的提升是顯而易見的。其數學精確性的提升將惠及處理複雜計算的研究人員,而編碼能力的增強則為開發者解決實際挑戰提供了幫助。

在寫作和推理方面的改進,透過內部測試顯示出在撰寫論文、總結和邏輯分析等任務上的潛力。此外,改進後的檔案處理和總結功能,使使用者在學術和工業領域更容易將模型整合進工作流程中。(@ AIbase 基地)

2、ChatGPT Canvas 迎來更新,面向所有使用者開放

北京時間今天凌晨,OpenAI 舉辦釋出會,宣佈為 ChatGPT Canvas 帶來三項更新:

  • Canvas 功能整合進 ChatGPT 核心模型:

在讓 Canvas 創作故事時,可以讓其編輯標題,潤色文件,檢查語法,甚至新增恰當的表情符號都能勝任。

  • 支援使用者直接在 Canvas 中執行 Python 程式碼:

據官方介紹,OpenAI 在 Canvas 中整合了基於 WebAssembly 的 Python 模擬器,使其能夠載入絕大多數 Python 庫,實現程式碼的即時執行。

  • 將 Canvas 功能引入 GPTs 生態系統。

OpenAI CEO Sam Altman 隨後還發布推文,表示:「 Canvas 現在可供所有 ChatGPT 使用者使用,並且可以執行程式碼!更重要的是,它可以讓你的寫作更有 emoji 風格。」(@ APPSO)

3、資料管理將成為 2025 年人工智慧成功的關鍵因素

近期,隨著人工智慧(AI)技術的迅速發展,資料管理的重要性愈發凸顯。儘管 AI 熱潮尚未帶來大量實際成功案例,但多項研究顯示,良好的資料管理和高質量的資料是實現 AI 目標的基礎。

NetApp 釋出的《2024 年資料複雜性報告》顯示,全球 1300 名技術和資料高管的調查結果令人關注。調查發現,投資於資料統一的公司在實現 AI 目標方面更具備優勢,接近 80% 的受訪者認識到統一資料對達到理想 AI 結果的重要性。

報告還指出,約三分之二的公司表示,他們的資料「完全或基本上最佳化用於 AI」,意味著這些資料可訪問、準確且經過良好文件記錄。然而,40% 的高管認為,未來兩年在 AI 和資料管理上的投資將會大幅增加。

另一份由資料管理與分析提供商 Qlik 釋出的報告則揭示了阻礙 AI 進展的一些原因。在接受調查的 4200 名高管中,缺乏 AI 技能和資料治理挑戰被認為是主要障礙,均佔 23%。此外,AI 開發後部署和預算不足及缺乏可信資料的比例也相對較高。Qlik 的報告強調,建立信任對於實現廣泛的 AI 成功至關重要,37% 的高管對 AI 缺乏信任,61% 認為這種信任缺失正在削減他們的 AI 投資。

最後,Ataccama 公司的《資料信任報告》也強調了資料管理在 AI 實踐中的重要性。該公司與 Hanover Research 合作,對來自美國、加拿大和英國的 300 名高管進行了調查。調查結果顯示,51% 的高管認為改善資料質量和準確性是當務之急,30% 的高管面臨著管理大量資料的挑戰。(@ AIbase 基地)

02 有亮點的產品

1、AI 語言學習應用 Speak 宣佈獲得 7800 萬美元 C 輪融資,估值 10 億美元!

Speak 宣佈獲得 Accel 領投的 7800 萬美元 C 輪融資,估值達到 10 億美元,其他投資方包括 OpenAI Khosla Ventures 以及 YC。

Accel 合夥人 Ben Quazzo 將加入 Speak 董事會。他表示,Speak 已經成為 C 端 AI 應用的出色參與者。

據悉,此輪資金目的之一是擴大使用者可學習的目標語言數量,從而擴大潛在客戶規模,首先將從西班牙語和法語開始,Speak 目前已經支援了八種學習英語的原始語言。

CEO Connor Zwick 表示,Speak 的價值主張是教人們如何用語言交流,Speak 的總目標市場達到 15 億使用者。

聯合創始人& CTO Andrew Hsu 提到,Speak 當前的下載量已經超過 1000 萬次,平均每天使用時長達到 10~20 分鐘;此外,Speak 的企業級客戶 Speak for Business 也擁有超過 200 個客戶。

Zwick 將 Speak 描述為部分學習方法和部分技術平臺,其工作過程分為三個步驟:

1)使用者先是參與到傾聽和交談中,產品不會馬上解釋語法規則;

2)使用者會被要求反覆運用這個新術語或短語,即用其他各種語言大聲講出來;

3)透過 AI 在現實世界中呈現這個短語。

目前,像 Duolingo 和 Kahoot 等公司已經傾向於將產品遊戲化,將學習打造成一種遊戲化體驗,

Zwick 表示,Speak 在融資後會將更多行為機制引入產品中,從而為使用者帶來積極的變化,但這不會以犧牲學習效果為代價。當需要在遊戲化、使用者參與度以及有效性之間進行取捨時,將 100% 選擇學習有效性。(@ 有新 Newin)

2、面壁智慧獲新一輪數億元融資 將提速端側等大模型商業化佈局

北京面壁智慧科技有限責任公司近期宣佈完成了新一輪數億元人民幣的融資。

本輪融資由龍芯創投、鼎暉百孚、中關村科學城基金和賽富投資基金聯合領投,北京市人工智慧產業投資基金與清科創投跟投,萬甲資本擔任獨家財務顧問。面壁智慧計劃利用這筆資金加速端側 AI 大模型的商業化佈局,致力於提供同等引數下更高效能、更低能耗和更快速度的高效大模型服務,以深度服務行業併為使用者創造具體可感知的價值。

面壁智慧以「高效為第一性原理」的大模型公司而聞名。其端側模型面壁小鋼炮 MiniCPM 因其以小博大、高效低成本的效能優勢而受到關注,該模型不僅在多項基準測試中領先,還將無限長文字、超清 OCR 識圖、實時影片理解等功能首次整合到端側,創造多項紀錄。自發布以來,面壁小鋼炮 MiniCPM 系列累計下載量突破 300 萬,成為全球開源社群的明星專案。

在端側智慧方面,面壁智慧在主流消費電子硬體和新興硬體中融入端側 AI,同時佈局端雲協同的未來正規化,與華為雲、百度智慧雲等達成戰略合作。公司與華為、聯發科技、聯想、英特爾、長城汽車、易來科技等行業標杆企業緊密協作,業務覆蓋 AI Phone、AI PC、智慧座艙、智慧家居與具身機器人等領域,將高效能的端側 AI 帶入千家萬戶、千行百業。(@ AIbase 基地)

3、YouTube 推出 AI 自動配音,打破語言壁壘

YouTube 在日前宣佈了一項重大更新 - AI 自動配音功能將為數十萬個頻道開放。這項創新技術旨在幫助內容創作者更輕鬆地觸達全球受眾,消除語言障礙。

據悉,這個基於 AI 的配音工具最初在去年的 Vidcon 大會上首次亮相,當時仍處於小規模測試階段。現在,這項功能正式面向以教育和指導類內容為主的頻道開放,包括烹飪、手工等型別的影片。

使用方法非常簡單:創作者只需像往常一樣上傳影片,YouTube 將自動識別原始語言並生成多語言配音版本。目前支援的語言包括英語、法語、德語、印地語、印尼語、義大利語、日語、葡萄牙語和西班牙語。

值得注意的是,這項技術依託於谷歌的 Gemini 人工智慧能力,能夠模仿人類語音。不過 YouTube 也坦誠地表示,由於技術仍處於發展早期,配音的準確性可能存在一定侷限性。公司表示將持續最佳化,並歡迎使用者提供反饋。

未來,YouTube 還計劃推出「表情語音」功能,這將幫助 AI 更精準地複製創作者的語氣、情感,甚至周圍環境的氛圍。這意味著跨語言內容傳播將變得更加生動和自然。(@ AIbase 基地)

4、位元組跳動豆包電腦版上線影片生成功能,內測使用者每日可免費生成十支影片

位元組跳動影片生成模型 PixelDance 已在豆包電腦版正式開啟內測,部分使用者已開通體驗入口。內測頁面顯示,使用者每日可免費生成十支影片。

據此前報導,PixelDance 影片生成模型於 9 月底首次釋出,最早透過即夢 AI、火山引擎面向創作者和企業客戶小範圍邀測。

據早期內測創作者介紹,當 PixelDance 生成 10 秒影片時,切換鏡頭 3-5 次的效果最佳,場景和角色能保持很好的一致性。此外,使用者還可使用時序提示詞、長鏡頭等技巧,增強影片的複雜度和表現力。

目前,基於該模型的影片生成能力已在豆包電腦版陸續開放。豆包相關負責人表示,未來仍將持續開放和最佳化該功能,更好地幫助普通使用者創作和表達。(@ IT 之家)

03 有態度的觀點

1、OpenAI 6 年元老:我們應該為全社會的 AI 發展安裝一個「剎車」

於 10 月底從 OpenAI 離職的 6 年元老 Miles Brundage,近期在個人部落格上發文,表示「我們應該為全社會的 AI 發展安裝一個剎車」。

他認為,目前 AI 的進展非常快,比如 2021 年出版的一本書——《人工智慧簡史》中的觀點,放到三年後的今天已經過時了。雖然在某些時刻人們對於人工智慧的進步過於樂觀,但他認為從總體來看,就近十年來說,堅持唱深度學習的反調確實不是一個成功的策略。

在部落格中他表示,人類應當安裝(經過設計和辯論的)「剎車」,因為當前 AI 的進步明顯快於社會能夠有效理解和塑造的速度,而且這種情況可能不會很快改變——甚至,二者之間差距可能逐漸擴大。(@ APPSO)

2、位元組內部判斷 AI 對話類產品天花板可能不高,提升剪映即夢優先順序

據知情人士透露,豆包的使用者活躍度較低,平均每週僅活躍 2 至 3 天,每天傳送訊息輪次為 5 到 6 次,單次時長約 2 分鐘,人均使用時長約 10 分鐘,過去一年增長幅度不顯著。位元組內部管理層認為這並非豆包的問題,其相關資料已處於國內產品第一梯隊,且基於文字的對話類產品可能並不是理想的產品形態。

QuestMobile 資料顯示,豆包、Kimi 和文小言的日均使用頻次均在 4 到 5 次之間,人均使用時長在 5 到 10 分鐘之間,變化不大。儘管如此,豆包在使用者增長上表現亮眼,9 月日活達 760 萬,遠超 Kimi 的 130 多萬。此外,豆包快速補齊了音樂生成、圖生圖、圖生影片等功能,語音功能也表現出色,但對話輪次和時長等關鍵指標仍不理想,商業化前景尚不明朗。

有知情人士透露,位元組內部認為付費訂閱模式在中國難以成功,而低使用時長和輪次限制了廣告空間,形成了隱形天花板。管理層建議尋找更低門檻和「多模態」的產品形式,剪映和即夢可能是合適的選擇。

剪映作為影片創作工具,已在圖片和影片編輯等功能上應用了最新模型技術,近期在圖片生成和理解領域取得技術突破,月活躍使用者達 1.7 億,全球排名第二。即夢是前抖音集團 CEO 張楠推出的 AI 創作工具,具備強內容社群屬性,吸引了大量 AI 創作者。位元組計劃將更多資源轉向多模態產品,即夢將在未來承擔更大希望,特別是在視覺生成相關的大模型最佳化方面。(@ 智慧湧現)

更多 Voice Agent 學習筆記:

市場規模超 60 億美元,語音如何改變對話式 AI?

2024 語音模型前沿研究整理,Voice Agent 開發者必讀

從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?

人類級別語音 AI 路線圖丨 Voice Agent 學習筆記

語音 AI 革命:未來,消費者更可能傾向於與 AI 溝通,而非人工客服

語音 AI 迎來爆發期,也仍然隱藏著被低估的機會丨 RTE2024 音訊技術和 Voice AI 專場

下一代 AI 陪伴 | 平等關係、長久記憶與情境共享 | 播客《編碼人聲》

Voice-first,閉關做一款語音產品的思考|社群來稿

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章