微信 Callkit 擴大測試範圍;DeepSeek-R1 模型釋出,效能對標 OpenAI o1 正式版丨 RTE 開發者日報

RTE开发者社区發表於2025-01-21

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@qqq,@ 鮑勃

01 有話題的技術

1、DeepSeek-R1 模型釋出,效能對標 OpenAI o1 正式版

昨日,幻方量化旗下 AI 公司深度求索(DeepSeek)正式釋出 DeepSeek-R1 模型,並同步開源模型權重。

據官方介紹,DeepSeek-R1 在後訓練階段大規模使用了強化學習技術,在僅有極少標註資料的情況下,極大提升了模型推理能力。在數學、程式碼、自然語言推理等任務上,效能比肩 OpenAI o1 正式版。

DeepSeek 稱,DeepSeek-R1 蒸餾小模型超越 OpenAI o1-mini。DeepSeek 在開源 DeepSeek-R1-Zero 和 DeepSeek-R1 兩個 660B 模型的同時,透過 DeepSeek-R1 的輸出,蒸餾了 6 個小模型開源給社群,其中 32B 和 70B 模型在多項能力上實現了對標 OpenAI o1-mini 的效果。

登入 DeepSeek 官網或官方 App,開啟「深度思考」模式,即可呼叫最新版 DeepSeek-R1 完成各類推理任務。

(@ IT 之家)

2、k1.5 新模型登場:Kimi 如何做到滿血版多模態 o1 水平

k1.5 多模態思考模型:

這是繼去年 11 月釋出 k0-math 數學模型,12 月釋出 k1 視覺思考模型之後,Kimi 連續第三個月帶來 k 系列強化學習模型的重磅升級。

從基準測試成績看,k1.5 多模態思考模型實現了 SOTA(state-of-the-art)級別的多模態推理和通用推理能力。

在 short-CoT 模式下, Kimi k1.5 的數學、程式碼、視覺多模態和通用能力,大幅超越了全球範圍內短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet 的水平,領先達到 550%。

在 long-CoT 模式下, Kimi k1.5 的數學、程式碼、多模態推理能力,也達到長思考 SOTA 模型 OpenAI o1 正式版的水平。這應該是全球範圍內,OpenAI 之外的公司首次實現 o1 正式版的多模態推理效能。(@ 月之暗面 Kimi)

3、階躍星辰推出 Step-2 mini/文學大師版

1 月 20 日,階躍星辰宣佈正式為使用者帶來兩款 Step-2 系列新模型,Step-2 mini 和 Step-2 文學大師版。

Step-2 mini 和萬億引數大模型 Step-2 相比,以 3% 左右的引數量保有了其 80% 以上的模型效能;同時,Step-2 mini 擁有更快的生成速度和極高的價效比,在輸入 4000 tokens 的情況下,Step-2 mini 的平均首字時延僅 0.17 秒。Step-2 mini 還擁有極高價效比,官方表示,Step-2 mini 輸入 1 元/百萬 token,而輸出 2 元/百萬 token。

目前,使用者已經可以在階躍星辰開放平臺呼叫 Step-2 mini 的 API 介面。同步推出的 Step-2 文學大師版沿襲了 Step-2 廣袤的知識儲備、對文字強大的細節把控能力,與此同時它還擁有更加強大的內容創作能力。Step-2 文學大師版目前已經上線躍問 App,網頁端也將於本週全量上線。(@ APPSO)

4、微信 Callkit 擴大測試範圍,更多人能使用了

近日,大量微信使用者發現,自己的微信突然有了 CallKit 功能,覺得非常意外,相關話題衝上社交平臺熱搜榜。


諸多網友表示,確實在「設定 - 訊息通知」中找到了「語音和視訊通話用系統電話接聽」選項,點選即可開啟該功能。但 CallKit 功能仍在內測中,依舊有不少使用者尚未獲得更新。

CallKit 功能指的是可將第三方網路通訊整合在 iPhone 自帶的通話功能中,以提供更靈活的通話體驗。微信支援 CallKit 後,即便微信在後臺執行或處於關閉狀態,乃至手機在鎖屏的狀態下,好友撥打的微信語音通話也能像普通電話一樣,在系統級的通話介面顯示出來。還能切換外放或者開啟靜音,十分方便。

而無論接聽還是拒絕,此次語音通話記錄還能自動在系統通話中儲存下來,能一鍵回撥。

同時,因為接入 CallKit 功能,其通話提醒彈窗還會以「靈動島」形式顯示。因此,微信登上靈動島的相關話題也衝上熱搜。

早在 2016 年的 iOS 10 系統裡,蘋果就推出了這個開發框架,允許第三方 VoIP 應用將通話功能整合到 iPhone 自帶的通話介面中,從而提升使用者體驗。但 2021 年該功能被停用,直到現在都沒有全面開放。

直至現在,CallKit 成為使用者最「意難忘」的功能,微信更新十個小功能都不及這一個功能的上線能給使用者帶來驚喜。(@ 電腦報)

02 有亮點的產品

1、位元組跳動推出 Trae :提供全面的中文介面及友好的程式碼註釋支援

位元組跳動近日推出了一款針對中文開發者的 AI 整合開發環境(IDE)——Trae。這一產品旨在與 Cursor 和 Windsurf 等國際知名工具競爭,特別是在中文開發者的使用體驗上,Trae 希望能填補現有工具的短板。

在程式設計的日常中,許多開發者常常需要在英文和中文之間切換,這種中英混合的工作模式雖然習以為常,卻讓不少中文開發者感到不便。現有的 IDE 如 Cursor、Windsurf 和 Vscode,雖然功能強大,卻未能對中文使用者進行特別最佳化,造成使用時的不適感。Trae 的出現正是為了解決這一問題。

Trae IDE 從底層設計開始就充分考慮了中文開發者的需求,提供全面的中文介面及友好的程式碼註釋支援,致力於帶來更為順暢的使用體驗。此外,Trae 還整合了 Claude3.5 和 GPT-4o 等國際主流大模型,具備智慧程式碼生成和邏輯最佳化的功能。雖然在理解中文的能力上還有提升空間,但 Trae 的重點在於提供符合中文開發者實際場景的使用體驗。

在 Trae 的介面中,使用者可以輕鬆選擇內建的程式語言和主題,介面友好且簡潔。此外,Trae 支援從 Vscode 或 Cursor 中遷移配置,極大地方便了使用者的上手。同時,Trae 還提供了 AI Chat 功能,使用者可以透過快捷鍵與 AI 進行互動,AI 則能夠提供程式碼更新建議。儘管在某些方面與 Cursor 存在差異,比如在對話過程中的上下文引用,Trae 卻展現出獨特的實用性。

值得注意的是,Trae 還具備一個強大的 Builder 功能,能夠根據使用者需求生成完整的程式碼專案。然而,使用者在專案開發過程中仍需手動確認 AI 生成的程式碼,確保程式碼的完整性和準確性。這一過程或許略顯繁瑣,但也為使用者提供了更大的控制權。

Trae 的上線不僅豐富了中文開發者的工具選擇,也為提升其程式設計體驗開闢了新的可能性。(@ AIbase 基地)

2、貓與星:AI 定製孩子自己的童話故事音訊

「貓與星」是一款能幫助孩子們根據興趣,快速生成有趣的專屬童話,並在睡前溫柔的敘述給小朋友們,陪伴其入眠的 App。在「貓與星」中,你只需要輸入孩子的資訊,就能生成出一段專屬於孩子自己的童話冒險,App 內包含多套有趣的故事主題,確保所生成出的每一個故事都能保證獨一無二。

「貓與星」剛剛上架 App Store,目前正在為年度會員提供早鳥優惠,家裡有小朋友的小夥伴們可以考慮下載體驗,當作送給小朋友的新年禮物也會是一個不錯的選擇。(@ PriceTag 發現好應用)

03 有態度的觀點

1、比爾蓋茲:人類還將迎來一些新的 AI 突破,比如所謂的「元認知」(metacognition)

近期,比爾蓋茲與阿布扎比 CNN 學院的學生進行交流,並接受了深度專訪,其表示人類還將迎來一些新的 AI 突破。比爾蓋茲在採訪中提到,OpenAI 旗下的 ChatGPT-4 突破了電腦並不能真正「閱讀」這一問題;比爾蓋茲還以此表示,人類還正在迎來一些新的 AI 突破,比如所謂的「元認知(metacognition)」。當學生提及「應該採取什麼措施來確保資源匱乏地區也能夠受益」,比爾蓋茲認為,真正的難點在於,讓這些智慧服務所需的雲端計算資源能在哪些國家使用。同時比爾蓋茲建議,只有透過有意識的努力,比如準備好合適的資料,支援當地語言,幫助這些國家建立符合他們需求的監管體系,並且為他們提供一定比例的雲端計算資源捐贈,就能覆蓋很多基本需求。最後,對於 AI 本身與能源該如何平衡,比爾蓋茲覺得相較於其他工業,人工智慧對能源的消耗還算小。但他也提醒,人類需要考慮混合多種能源技術,讓核能更便宜,也需要探索各種方式讓天然氣使用沒有任何洩漏,甚至實現零二氧化碳排放。(@ APPSO)

更多 Voice Agent 學習筆記:

2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布

對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢

語音即入口:AI 語音互動如何重塑下一代智慧應用

Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……

幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記

市場規模超 60 億美元,語音如何改變對話式 AI?

2024 語音模型前沿研究整理,Voice Agent 開發者必讀

從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章