微信 Callkit 擴大測試範圍;DeepSeek-R1 模型釋出,效能對標 OpenAI o1 正式版丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@qqq,@ 鮑勃
01 有話題的技術
1、DeepSeek-R1 模型釋出,效能對標 OpenAI o1 正式版
昨日,幻方量化旗下 AI 公司深度求索(DeepSeek)正式釋出 DeepSeek-R1 模型,並同步開源模型權重。
據官方介紹,DeepSeek-R1 在後訓練階段大規模使用了強化學習技術,在僅有極少標註資料的情況下,極大提升了模型推理能力。在數學、程式碼、自然語言推理等任務上,效能比肩 OpenAI o1 正式版。
DeepSeek 稱,DeepSeek-R1 蒸餾小模型超越 OpenAI o1-mini。DeepSeek 在開源 DeepSeek-R1-Zero 和 DeepSeek-R1 兩個 660B 模型的同時,透過 DeepSeek-R1 的輸出,蒸餾了 6 個小模型開源給社群,其中 32B 和 70B 模型在多項能力上實現了對標 OpenAI o1-mini 的效果。
登入 DeepSeek 官網或官方 App,開啟「深度思考」模式,即可呼叫最新版 DeepSeek-R1 完成各類推理任務。
(@ IT 之家)
2、k1.5 新模型登場:Kimi 如何做到滿血版多模態 o1 水平
k1.5 多模態思考模型:
這是繼去年 11 月釋出 k0-math 數學模型,12 月釋出 k1 視覺思考模型之後,Kimi 連續第三個月帶來 k 系列強化學習模型的重磅升級。
從基準測試成績看,k1.5 多模態思考模型實現了 SOTA(state-of-the-art)級別的多模態推理和通用推理能力。
在 short-CoT 模式下, Kimi k1.5 的數學、程式碼、視覺多模態和通用能力,大幅超越了全球範圍內短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet 的水平,領先達到 550%。
在 long-CoT 模式下, Kimi k1.5 的數學、程式碼、多模態推理能力,也達到長思考 SOTA 模型 OpenAI o1 正式版的水平。這應該是全球範圍內,OpenAI 之外的公司首次實現 o1 正式版的多模態推理效能。(@ 月之暗面 Kimi)
3、階躍星辰推出 Step-2 mini/文學大師版
1 月 20 日,階躍星辰宣佈正式為使用者帶來兩款 Step-2 系列新模型,Step-2 mini 和 Step-2 文學大師版。
Step-2 mini 和萬億引數大模型 Step-2 相比,以 3% 左右的引數量保有了其 80% 以上的模型效能;同時,Step-2 mini 擁有更快的生成速度和極高的價效比,在輸入 4000 tokens 的情況下,Step-2 mini 的平均首字時延僅 0.17 秒。Step-2 mini 還擁有極高價效比,官方表示,Step-2 mini 輸入 1 元/百萬 token,而輸出 2 元/百萬 token。
目前,使用者已經可以在階躍星辰開放平臺呼叫 Step-2 mini 的 API 介面。同步推出的 Step-2 文學大師版沿襲了 Step-2 廣袤的知識儲備、對文字強大的細節把控能力,與此同時它還擁有更加強大的內容創作能力。Step-2 文學大師版目前已經上線躍問 App,網頁端也將於本週全量上線。(@ APPSO)
4、微信 Callkit 擴大測試範圍,更多人能使用了
近日,大量微信使用者發現,自己的微信突然有了 CallKit 功能,覺得非常意外,相關話題衝上社交平臺熱搜榜。
諸多網友表示,確實在「設定 - 訊息通知」中找到了「語音和視訊通話用系統電話接聽」選項,點選即可開啟該功能。但 CallKit 功能仍在內測中,依舊有不少使用者尚未獲得更新。
CallKit 功能指的是可將第三方網路通訊整合在 iPhone 自帶的通話功能中,以提供更靈活的通話體驗。微信支援 CallKit 後,即便微信在後臺執行或處於關閉狀態,乃至手機在鎖屏的狀態下,好友撥打的微信語音通話也能像普通電話一樣,在系統級的通話介面顯示出來。還能切換外放或者開啟靜音,十分方便。
而無論接聽還是拒絕,此次語音通話記錄還能自動在系統通話中儲存下來,能一鍵回撥。
同時,因為接入 CallKit 功能,其通話提醒彈窗還會以「靈動島」形式顯示。因此,微信登上靈動島的相關話題也衝上熱搜。
早在 2016 年的 iOS 10 系統裡,蘋果就推出了這個開發框架,允許第三方 VoIP 應用將通話功能整合到 iPhone 自帶的通話介面中,從而提升使用者體驗。但 2021 年該功能被停用,直到現在都沒有全面開放。
直至現在,CallKit 成為使用者最「意難忘」的功能,微信更新十個小功能都不及這一個功能的上線能給使用者帶來驚喜。(@ 電腦報)
02 有亮點的產品
1、位元組跳動推出 Trae :提供全面的中文介面及友好的程式碼註釋支援
位元組跳動近日推出了一款針對中文開發者的 AI 整合開發環境(IDE)——Trae。這一產品旨在與 Cursor 和 Windsurf 等國際知名工具競爭,特別是在中文開發者的使用體驗上,Trae 希望能填補現有工具的短板。
在程式設計的日常中,許多開發者常常需要在英文和中文之間切換,這種中英混合的工作模式雖然習以為常,卻讓不少中文開發者感到不便。現有的 IDE 如 Cursor、Windsurf 和 Vscode,雖然功能強大,卻未能對中文使用者進行特別最佳化,造成使用時的不適感。Trae 的出現正是為了解決這一問題。
Trae IDE 從底層設計開始就充分考慮了中文開發者的需求,提供全面的中文介面及友好的程式碼註釋支援,致力於帶來更為順暢的使用體驗。此外,Trae 還整合了 Claude3.5 和 GPT-4o 等國際主流大模型,具備智慧程式碼生成和邏輯最佳化的功能。雖然在理解中文的能力上還有提升空間,但 Trae 的重點在於提供符合中文開發者實際場景的使用體驗。
在 Trae 的介面中,使用者可以輕鬆選擇內建的程式語言和主題,介面友好且簡潔。此外,Trae 支援從 Vscode 或 Cursor 中遷移配置,極大地方便了使用者的上手。同時,Trae 還提供了 AI Chat 功能,使用者可以透過快捷鍵與 AI 進行互動,AI 則能夠提供程式碼更新建議。儘管在某些方面與 Cursor 存在差異,比如在對話過程中的上下文引用,Trae 卻展現出獨特的實用性。
值得注意的是,Trae 還具備一個強大的 Builder 功能,能夠根據使用者需求生成完整的程式碼專案。然而,使用者在專案開發過程中仍需手動確認 AI 生成的程式碼,確保程式碼的完整性和準確性。這一過程或許略顯繁瑣,但也為使用者提供了更大的控制權。
Trae 的上線不僅豐富了中文開發者的工具選擇,也為提升其程式設計體驗開闢了新的可能性。(@ AIbase 基地)
2、貓與星:AI 定製孩子自己的童話故事音訊
「貓與星」是一款能幫助孩子們根據興趣,快速生成有趣的專屬童話,並在睡前溫柔的敘述給小朋友們,陪伴其入眠的 App。在「貓與星」中,你只需要輸入孩子的資訊,就能生成出一段專屬於孩子自己的童話冒險,App 內包含多套有趣的故事主題,確保所生成出的每一個故事都能保證獨一無二。
「貓與星」剛剛上架 App Store,目前正在為年度會員提供早鳥優惠,家裡有小朋友的小夥伴們可以考慮下載體驗,當作送給小朋友的新年禮物也會是一個不錯的選擇。(@ PriceTag 發現好應用)
03 有態度的觀點
1、比爾蓋茲:人類還將迎來一些新的 AI 突破,比如所謂的「元認知」(metacognition)
近期,比爾蓋茲與阿布扎比 CNN 學院的學生進行交流,並接受了深度專訪,其表示人類還將迎來一些新的 AI 突破。比爾蓋茲在採訪中提到,OpenAI 旗下的 ChatGPT-4 突破了電腦並不能真正「閱讀」這一問題;比爾蓋茲還以此表示,人類還正在迎來一些新的 AI 突破,比如所謂的「元認知(metacognition)」。當學生提及「應該採取什麼措施來確保資源匱乏地區也能夠受益」,比爾蓋茲認為,真正的難點在於,讓這些智慧服務所需的雲端計算資源能在哪些國家使用。同時比爾蓋茲建議,只有透過有意識的努力,比如準備好合適的資料,支援當地語言,幫助這些國家建立符合他們需求的監管體系,並且為他們提供一定比例的雲端計算資源捐贈,就能覆蓋很多基本需求。最後,對於 AI 本身與能源該如何平衡,比爾蓋茲覺得相較於其他工業,人工智慧對能源的消耗還算小。但他也提醒,人類需要考慮混合多種能源技術,讓核能更便宜,也需要探索各種方式讓天然氣使用沒有任何洩漏,甚至實現零二氧化碳排放。(@ APPSO)
更多 Voice Agent 學習筆記:
2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布
對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點
這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢
語音即入口:AI 語音互動如何重塑下一代智慧應用
Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……
幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記
市場規模超 60 億美元,語音如何改變對話式 AI?
2024 語音模型前沿研究整理,Voice Agent 開發者必讀
從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶
WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- Hume AI 推出 EVI 2 情感模型;OpenAI o1 模型問世,模擬人類思考問題 丨 RTE 開發者日報模型OpenAI開發者日報
- 阿里 Qwen2.5 開源釋出;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 開發者日報阿里Go模型開發者日報
- Mistral 釋出 Large 2 123B 大模型;微軟釋出 VALL-E 2,零樣本實現聲音克隆丨 RTE 開發者日報大模型微軟開發者日報
- 微軟或開發新模型與 OpenAI 競爭;蘋果或將推出 Apple Pencil Pro 丨 RTE 開發者日報 Vol.198微軟模型OpenAI蘋果APP開發者日報
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- 商湯釋出行業首個全棧大模型產品矩陣;微軟釋出小型 AI 模型 Phi-3-mini 丨 RTE 開發者日報 Vol.191行業全棧大模型矩陣微軟AI開發者日報
- OpenAI 釋出 AI 生成圖片檢測器;特斯拉計劃在中國測試自動駕駛計程車丨 RTE 開發者日報 Vol.200OpenAI自動駕駛開發者日報
- Meta SAM 2:實時分割圖片和影片中物件;Apple Intelligence 首個開發者測試版釋出丨 RTE 開發者日報物件APPIntel開發者日報
- 影片生成模型 Dream Machine 開放試用;微軟將停止 Copilot GPTs 丨 RTE 開發者日報 Vol.224模型Mac微軟GPT開發者日報
- 最強國產 Sora 大模型 Vidu 釋出,長度可達 16 秒;微信檔案 3 小時內可撤回丨 RTE 開發者日報 Vol.194Sora大模型開發者日報
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- OpenAI 釋出全新生成式模型 GPT-4o;位元組收購音訊裝置公司 Oladance 丨 RTE 開發者日報 Vol.203OpenAI模型GPT音訊開發者日報
- OpenAI 收購桌面實時協作公司 Multi;iOS 18 開放 iPhone 映象測試丨 RTE 開發者日報 Vol.231OpenAIiOSiPhone開發者日報
- 谷歌破解 OpenAI 模型關鍵資訊;微軟更改預設瀏覽器,不再主推 Edge 丨 RTE 開發者日報 Vol.163谷歌OpenAI模型微軟瀏覽器開發者日報
- 阿里釋出多模態推理模型 QVQ-72B,視覺、語言能力雙提升;OpenAI 正在研發人形機器人丨 RTE 開發者日報阿里模型視覺OpenAI機器人開發者日報
- 微軟開發者大會推出 60 個新發布;阿里雲和百度加入大模型「價格戰」丨 RTE 開發者日報 Vol.209微軟阿里大模型開發者日報
- 亞馬遜雲集齊 Claude 3 全家桶;世界數字技術院釋出大模型安全國際標準丨 RTE 開發者日報 Vol.187亞馬遜大模型開發者日報
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- 阿里釋出革新的音訊多模態模型 Qwen2-Audio;月之暗面回應大模型顯示「9.11 大於 9.9」丨 RTE 開發者日報阿里音訊大模型開發者日報
- 重磅釋出:OpenAI o1全新推理模型系列OpenAI模型
- 釋出會後蘋果股價創歷史新高;商湯 Embedding 模型拿下 SOTA 丨 RTE 開發者日報 Vol.223蘋果模型開發者日報
- 零一萬物 Yi-Lightning:超越 GPT-4o 衝擊全球榜單;阿里國際 Marco 翻譯大模型釋出丨 RTE 開發者日報GPT阿里大模型開發者日報
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- 實時語音互動中文基準首期測評出爐;美取消 SB-1047 法案,大模型廠商大難不死丨 RTE 開發者日報大模型開發者日報
- 11Labs 支援打造對話 AI 智慧體;阿里推出大模型 Qwen2.5-Turbo 速度提升 4.3 倍丨 RTE 開發者日報AI智慧體阿里大模型開發者日報
- 百度釋出 AI 眼鏡:全球首搭中文大模型,支援邊走邊問;OpenAI 聯合創始人宣佈迴歸,主抓重大技術創新丨 RTE 開發者日報大模型OpenAI開發者日報
- Sam Altman 新公司將打造 AI 健康教練;全新大模型架構 TTT 超越 Transformer 丨 RTE 開發者日報AI大模型架構ORM開發者日報
- QQ 測試 AI 聊天搭子,再戰 AI 社交;零一萬物宣佈開源 Yi-9B 模型丨 RTE 開發者日報 Vol.159AI模型開發者日報
- 語音生成公司 ElevenLabs 估值達 30 億美元;OpenAI Realtime API 很好也很貴丨 RTE 開發者日報OpenAIAPI開發者日報
- 平價 Vision Pro 需搭配 Mac/iPhone;OpenAI 收購實時分析資料庫公司丨 RTE 開發者日報MaciPhoneOpenAI資料庫開發者日報
- 亞馬遜秘密研發 AI 對標 ChatGPT;語音 AI 未來五年或將釋放 100 億美元市場 丨 RTE 開發者日報亞馬遜AIChatGPT開發者日報
- ElevenLabs Voice Design :可透過文字建立個性化語音;蘋果推出首個開發者測試版丨 RTE 開發者日報蘋果開發者日報
- 微軟 Azure 推出文字到語音虛擬人;英偉達釋出 8B 小語言模型,可在 RTX 工作站部署丨 RTE 開發者日報微軟模型開發者日報
- 位元組預熱智慧硬體 Ola Friend,預計為智慧耳機;鴻蒙 NEXT 公測正式開啟,微信邀請內測丨 RTE 開發者日報鴻蒙開發者日報
- OpenAI 成功收購 Chat.com 域名;AI「電子舌頭」問世,可辨別味道、檢測食品安全丨 RTE 開發者日報OpenAI開發者日報
- 斯嘉麗·約翰遜指控 OpenAI 非法使用其聲音;微軟推出 AI 工具「回顧」(Recall)丨 RTE 開發者日報 Vol.208OpenAI微軟開發者日報
- 李飛飛團隊多模態模型統一動作與語言;OpenAI 推出電話服務,讓更多人與 Chatgpt 對話丨 RTE 開發者日報模型OpenAIChatGPT開發者日報
- Meta 公佈首款 AR 眼鏡 Orion,成本 1 萬美元;OpenAI CTO Mira Murati 離職丨 RTE 開發者日報OpenAI開發者日報