楊立昆談 Deepseek:開源正在超越私有;SpeechGPT 2.0-preview:情景智慧擬人化實時互動系統

RTE开发者社区發表於2025-01-27

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@qqq,@ 鮑勃

01 社群專案推薦

1、SpeechGPT 2.0-preview:邁向情景智慧推出的第一個擬人化實時互動系統。

SpeechGPT 2.0-preview 是我們在邁向情景智慧推出的第一個擬人化實時互動系統。作為在百萬小時級語音資料上訓練的端到端語音大模型,它具有擬人口語化表達與百毫秒級低延遲響應,支援自然流暢的實時打斷互動。SpeechGPT 2.0-preview 較好的對齊了語音和文字兩個模態:一方面展現出了一定的風格泛化能力,能夠精準捕捉使用者指令,實現多情感、多風格、多音色的精準控制與智慧切換;擁有不錯的角色扮演能力,能夠模擬各類角色的語氣和情感狀態;它還具備多種語音才藝,能夠進行詩歌朗誦、故事講述、說方言等;另一方面,它在具備語音表現力的同時有不錯的智商與文字能力,從而具備支援工具呼叫、聯網搜尋、外掛知識庫等功能的能力。SpeechGPT 2.0-preview 目前只在中文語音資料上做了訓練,沒有混英文語音資料訓練,因此目前模型還沒有英文對話能力。

本專案實時音訊傳輸服務由聲網和 RTE 開發者社群支援。

「RTE 開發者陪跑計劃」助力更多優秀 Real-Time AI 和 Voice Agent 專案成長,申請計劃:

https://www.rtecommunity.dev/t/t_dSuzw47cPBCv8C

02 有話題的技術

1、百川智慧開源全模態模型 Omni-1.5 上線,稱多項能力超越 GPT-4o mini

1 月 26 日,百川智慧宣佈正式上線 Baichuan-Omni-1.5 開源全模態模型。該模型不僅支援文字、影像、音訊和影片的全模態理解,還具備文字和音訊的雙模態生成能力。在視覺、語音及多模態流式處理等方面,Baichuan-Omni-1.5 的表現均優於 GPT-4o mini。

官方宣稱,其在視覺、語音及多模態流式處理等方面,Baichuan-Omni-1.5 的表現均優於 GPT-4o mini;在多模態醫療應用領域,其具備更突出的領先優勢。

Baichuan-Omni-1.5 不僅能在輸入和輸出端實現多種互動操作,還擁有強大的多模態推理能力和跨模態遷移能力。

其在音訊技術領域採用了端到端解決方案,可支援多語言對話、端到端音訊合成,還可實現自動語音識別、文字轉語音等功能,且支援音影片實時互動。

據介紹,在影片理解能力方面,Baichuan-Omni-1.5 透過對編碼器、訓練資料和訓練方法等多個關鍵環節進行深入最佳化,其整體效能大幅超越 GPT-4o-mini。(@ 介面新聞)

2、支援 100 萬 Tokens 上下文的 Qwen2.5-1M 開源模型來了

今天,Qwen 正式推出開源的 Qwen2.5-1M 模型及其對應的推理框架支援。
本次釋出的亮點:

開源模型: 本次釋出了兩個新的開源模型,分別是 Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M,這是 Qwen 首次將開源的 Qwen 模型的上下文擴充套件到 1M 長度。

推理框架: 為了幫助開發者更高效地部署 Qwen2.5-1M 系列模型,Qwen 團隊完全開源了基於 vLLM 的推理框架,並整合了稀疏注意力方法,使得該框架在處理 1M 標記輸入時的速度提升了 3 倍到 7 倍。

技術報告: Qwen 團隊還分享了 Qwen2.5-1M 系列背後的技術細節,包括訓練和推理框架的設計思路以及消融實驗的結果。

另外,最近也推出了 Qwen Chathttps://chat.qwenlm.ai/) ,一個基於 Qwen 系列的 AI 助手。使用者可以與他對話、程式設計、生成影像與影片,使用搜尋以及呼叫工具等功能。除此之外,還可以在 Qwen Chat 中與使用上下文長度同樣為 1M 的 Qwen2.5-Turbo 模型進行長序列處理。(@ 通義千問 Qwen)

3、DeepSeek AI 助手登頂蘋果商店:低成本、高效率,中國 AI 崛起引發全球關注

(圖片來源:量子位)

中國人工智慧公司 DeepSeek 近日釋出其推理模型 R1 的開放版本,迅速在科技界引發熱議。其驚人的突破性成就不僅令風險投資家馬克·安德森驚歎為「我見過的最令人驚歎、最令人印象深刻的突破之一」,更在 AI 基準測試中展現出匹敵甚至超越 OpenAI o1 模型的實力。

尤其引人關注的是,DeepSeek 聲稱其模型訓練成本僅為 560 萬美元,而美國領先企業則需要數億美元,這無疑顛覆了人們對 AI 模型開發成本的認知。

Y Combinator 執行長 Garry Tan 認為 DeepSeek 的成功將促使 AI 推理需求加速,從而帶動整個行業發展。Meta 首席人工智慧科學家 Yann LeCun 也強調,DeepSeek 的成功並非是中美競爭的體現,而是「開源模型正在超越專有模型」的有力證明。他認為 DeepSeek 的發展得益於開源研究和開源工具,並促進了技術的進一步發展,最終讓所有人受益。

值得一提的是,DeepSeek 的 AI 助手在釋出後迅速走紅。截至週日下午,該應用已超越 ChatGPT,登頂蘋果 App Store 免費應用榜首,進一步顯示了其受歡迎程度。(@AIbase 基地)

4、Video Depth Anything:位元組開源首款 10 分鐘級長影片深度估計模型,效能 SOTA

Video Depth Anything 工作來自位元組跳動智慧創作 AR 團隊與豆包大模型團隊。位元組跳動智慧創作 AR 團隊致力於建設領先的計算機視覺、音影片編輯、特效處理、3D 視覺與擴增實境(AR)等技術。豆包大模型團隊成立於 2023 年,致力於開發先進的 AI 大模型技術,成為業界一流的研究團隊。

近期,位元組智慧創作 AR 團隊聯合豆包大模型團隊開發的 Video Depth Anything(VDA)基於 Depth Anything V2,它融合了高效的時空頭、精簡的時域一致性損失函式,以及新穎的基於關鍵幀長影片推理策略,甚至可面向 10 分鐘級的影片,完成深度估計任務。

在不犧牲泛化能力、細節生成能力和計算效率前提下,VDA 實現了時序穩定的深度估計,且無需引入複雜影片生成先驗知識,為單目深度估計在影片領域應用提供全新解決方案。(@ 機器之心)

5、今年賀歲檔電影 AI 起來了,《唐探 1900》還沒上線,AI 大模型讓它先火了一把

從《唐探 1900》官方微博釋出的訊息來看,這是電影圈裡首款 AI 動態海報,效果之靈動,斬獲了一眾網友們的好評,不止是在網上,甚至是在北京王府井、上海南京路,以及成都春熙路上,都已經開始播放這個 AI 海報。

而影片背後的 AI,正是百度智慧雲千帆大模型平臺剛剛上新的圖生影片元件(聯合生數科技)。

可以說,這是影視圈和科技圈雙頂流之間的一次合作。(@ 量子位)

03 有態度的觀點

1、圖靈獎得主楊立昆談 DeepSeek 及 AGI:開源即一切

在 DeepSeek 激起千層浪的時刻,作為技術開源最忠實的擁躉,楊立昆為 Deepseek 發聲:「與其說是中國在人工智慧上超越美國,正確的看法應該是開原始碼正在超越私有模式。DeepSeek 從開放研究和開放原始碼中受益(例如來自 Meta 的 PyTorch 和 Llama),提出了新想法,並將它們建在其他人的工作之上。而因為他們的作品也是開源的,每個人都可以從中獲益。這就是開放研究和開放原始碼的力量。」楊立昆一直不遺餘力地強調 AI 競爭中「開源」的重要性,在前陣子他參加由約翰霍普金斯大學舉辦的講座上,面對矽谷知名記者 Kara Swisher,他仍然用到了 PyTorch 和 Llama 作為例子。同時,他的語出驚人也沒有改變,分享了許多別具一格的觀點:

  • 一昧給 AI 研究和開發加限制,企圖用這種方式避免危害,是一種適得其反的做法,是出於 AI 技術的錯誤理解。

  • 人類認為語言是智慧的頂峰有點違反直覺。它實際上很簡單,因為它只是一系列離散的符號。人工智慧不應該侷限於語言。

  • 目前為訓練大模型而燒的錢不冤枉,那是面向未來的長期投資。(@ APPSO)

更多 Voice Agent 學習筆記:

2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布

對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢

語音即入口:AI 語音互動如何重塑下一代智慧應用

Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……

幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記

市場規模超 60 億美元,語音如何改變對話式 AI?

2024 語音模型前沿研究整理,Voice Agent 開發者必讀

從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章