蘋果滑鼠有望加入 AI 語音控制功能;Accent Oracl :準確識別你口音的 AI 丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、曝蘋果或已停止生產第一代 Vision Pro 頭顯
據 MacRumors 報導,蘋果的第一代 Vision Pro 頭顯現在可能已經停產。報導指出,據稱蘋果已暫停最初的第二代 Vision Pro 的工作至少一年,以專注於開發低成本的頭顯。
此前,The Information 曾援引多位生產方面人員的訊息報導,稱蘋果突然減少了 Vision Pro 頭顯的產量,並可能在 2024 年底前完全停止生產這個裝置。
生產規模的縮減從初夏開始,可能表明目前蘋果的庫存中有足夠數量的 Vision Pro 裝置,可以滿足該裝置到明年的需求。
The Information 的報導指出,Vision Pro 供應商已經生產了足夠 50 萬到 60 萬副頭顯使用的元件,由於蘋果疲軟的銷量預測,一些工廠在 5 月份就停止了零部件的生產,大量部件在倉庫堆積。
蘋果也通知了 Vision Pro 的組裝商立訊精密可能要在 11 月停止生產,目前立訊精密每天生產約 1000 副頭顯,只有高峰產量的一半。(@APPSO)
2、Hugging Face 推出 SmolAgents:三行程式碼打造智慧代理,簡化 AI 開發
在傳統的 AI 開發中,構建智慧代理一直是一項複雜且技術要求高的任務。開發人員需要處理 API 整合、環境配置、依賴項管理等多個繁瑣的步驟,這使得構建智慧代理既耗時又費力。然而,Hugging Face 最近推出的 SmolAgents 工具包為開發人員提供了一種全新的簡化方式,使得建立智慧代理變得更加簡單和高效。
SmolAgents 的最大亮點是其輕量級設計和簡潔的 API 介面,開發人員只需三行程式碼即可建立一個功能強大的智慧代理。這一工具包基於 Hugging Face 的預訓練模型,簡化了資料檢索、程式碼執行和任務管理等多項複雜功能。SmolAgents 的出現,標誌著 AI 開發的門檻正在降低,AI 技術的民主化和可訪問性得到了進一步推動。(@AIbase 基地)
3、智譜深度推理模型 GLM-Zero 預覽版上線,2025 年考研數學一得 126 分
智譜官方近日釋出了 GLM-Zero 的初代版本 GLM-Zero-Preview,這是智譜首個基於擴充套件強化學習技術訓練的推理模型。
GLM-Zero-Preview 是 GLM 家族中專注於增強 AI 推理能力的模型,擅長處理數理邏輯、程式碼和需要深度推理的複雜問題。
據介紹,同基座模型相比,GLM-Zero-Preview 在不顯著降低通用任務能力的情況下,在專家任務能力方面的表現大幅提升,其在 AIME 2024、MATH500 和 LiveCodeBench 評測中,效果與 OpenAI o1-preview 相當。
在數學方面,GLM-Zero-Preview 具有強大的歸納與演繹能力,能夠快速處理複雜的數學運算,解答包括代數、微積分、機率統計等領域的問題。以 2025 年考研數學一為例,GLM-Zero-Preview 得分為 126。
官方表示,目前的 GLM-Zero-Preview 與 OpenAI 的 o3 模型還有不少的差距。將持續最佳化迭代強化學習技術。很快將會推出正式版 GLM-Zero,將深度思考的能力從數理邏輯擴充套件到更多更通用的技術。(@IT 之家)
4、阿里雲宣佈 2024 年度第三輪大模型降價
2024年12月31日,阿里雲宣佈 2024 年度第三輪大模型降價,通義千問視覺理解模型全線降價超 80%。
據悉,其中 Qwen-VL-Plus 直降 81%,輸入價格僅為 0.0015 元/千 tokens,創下全網最低價格;更高效能的 Qwen-VL-Max 降至 0.003 元/千 tokens,降幅高達 85%。
目前,按照最新價格,1 塊錢可最多處理約 600 張 720P 圖片,或 1700 張 480P 圖片。(@APPSO)
02 有亮點的產品
1、百度增設搜尋產品:上線「AI 搜」,透過 @ 與不同智慧體互動
百度近日在百度搜尋 Web 端首頁上線了百度「AI 搜」(Chat.baidu.com)入口,推動百度搜尋改版升級。據瞭解,「AI 搜」基於原百度搜尋 AI 夥伴改版升級而來,在此前的基礎上做功能升級。
百度「AI 搜」是基於百度文心大模型打造的桌面端 AI 搜尋引擎,目前內容側已經打通百度搜尋引擎、百度健康、百度律臨、百度文庫、百度教育等內容生態。
近期,360 集團、抖音、小紅書等先後推出 AI 搜尋產品,引發市場廣泛關注。實測發現,目前百度「AI 搜」主要提供包括話題探索、問題解決、決策輔助、知識答疑、主題研究、學習創作等功能,覆蓋文生圖、文生文、邏輯推理、多輪對話、智慧摘要、AI 修圖等 AI 技術。此外,百度「AI 搜」也提供了文心智慧體入口,在對話方塊中可透過 @ 方式與不同智慧體進行互動,方便使用者使用和建立智慧體。
有知情人士透露,目前百度 App 也將進行頁面更新,或將其搜尋框與 query 推薦結合,以更加簡潔的功能介面提升使用者體驗。
此前,百度創始人、董事長兼執行長李彥宏曾在三季度財報電話會上透露,百度將於 2025 年初推出文心大模型新版本,鞏固其在人工智慧基礎模型領域的領先地位,從而為搜尋業務提供強大的技術支援。據最新資料,百度 App 的 AI 功能已覆蓋近七成月活使用者,百度搜尋上超過 20% 的搜尋結果頁面涵蓋 AI 生成內容。(@IT 之家)
2、Accent Oracl :準確識別你口音的 AI
https://start.boldvoice.com/accent-guesser
Accent Oracle 是由專門從事口音訓練的公司 BoldVoice 建立的 AI。BoldVoice 是一個由 AI 驅動的語言學習平臺,但它不是典型的英語導師。它不會教你詞彙或語法,而是專注於改進你的美式口音。
然而,Accent Oracle 不是訓練你的口音,而是識別你的口音。你只需要閱讀一段簡短的文字,然後 Oracle 就會分析你的聲音,在幾秒鐘內猜出你的口音。
它由龐大的非母語人士資料庫提供支援,這意味著它不依賴於諸如「如果他們將 X 發音為 Y,那麼他們來自 Z」之類的刻板印象。相反,它會捕捉語音中的細微差別並檢測出您自己永遠不會注意到的模式。
有趣的是,Accent Oracle 不僅能夠精確的說出測試者的口音,甚至還能辨別出測試者口音中血統的影響(測試者確認自己是波斯人,但 Accent Oracle 測試出他的口音中有 17% 的土耳其語的影響)。(@Voice AI Newsletter)
3、蘋果新款妙控滑鼠有望加入 AI 語音控制功能
據爆料人馬克古爾曼透露,蘋果公司可能在其下一代妙控滑鼠中引入 AI 語音控制功能,這一訊息引起了公眾的廣泛關注。古爾曼強調,儘管 AI 技術的融合已成為硬體裝置發展的趨勢,但目前並沒有確鑿的證據顯示蘋果新款妙控滑鼠將支援 AI 語音控制。
在蘋果最新推送的 iOS18.1 正式版更新中,新增了名為「Apple Intelligence」的蘋果智慧功能,但國內使用者及許多非英語使用者暫時還無法體驗到這項服務。有訊息稱,蘋果正在與包括百度在內的國內企業進行洽談,旨在引入大型 AI 模型,提升 iPhone 的 AI 體驗。
古爾曼還提到,儘管現有的妙控滑鼠已將充電介面從 Lightning 升級為 USB-C,但介面位置仍位於滑鼠底部,這導致使用者在充電時無法使用滑鼠。針對這一使用者痛點,古爾曼透露蘋果正在開發一款既現代又能夠解決實際問題的新產品,其中就包括對充電介面位置的改進。(@AIbase 基地)
03 有態度的觀點
1、Meta 首席科學家楊立昆:實現 AGI 最樂觀需至少五到六年
Meta 首席科學家、圖靈獎得主楊立昆(Yann LeCun,法國人)在 29 日的「Into the Impossible」播客節目中談到了自己對通用人工智慧的看法。
他表示,目前 AI 的負面影響被過度放大,其能力目前仍非常有限。「在最樂觀的情況下,AGI 的實現至少尚需 5-6 年。」當前社會對 AI 普遍擔憂,甚至不乏一些關於 AI「可能導致的末日」有關觀點,楊立昆認為其忽視了 AI 的實際發展狀況和潛在的積極影響。
他表示,目前 AI 在理解和操作物理世界方面的能力仍非常有限,因為其主要透過文字資料進行訓練,缺乏對物理世界直觀理解的能力,無法像人類或動物去與環境自然互動。「譬如,一個 10 歲的孩子或者一隻貓都能透過『直觀物理(intuitive physics)』來理解如何與物理世界互動,像是規劃跳躍軌跡或理解物體的運動。而目前的 AI 系統,尚不具備這些能力。」(@IT 之家)
2、Perplexity CEO:模型會越來越商品化
前段時間,Perplexity 聯合創始人兼 CEO Aravind Srinivas ,在史丹佛商學院與 MBA 學生 Aislin Roth 進行了一次深入對話。
在採訪時,Aislin Roth 問到,Perplexity 既不擁有內容,也不擁有模型。其技術壁壘是什麼?為什麼 Perplexity 的方法比直接的縱向整合更好?Aravind Srinivas 則給出了這樣的回答:
我們確信一點:模型會越來越商品化。如果你想成為模型提供商,就需要鉅額資金支援,並且需要承受每年虧損數十億美元的風險。我們既不具備這樣的條件,也不希望走這條路。所以我們決定使用現有的模型,並針對終端使用者的搜尋體驗進行最佳化。
並且,Aravind Srinivas 還表示,模型之外還有很多事情可以做,我們覺得建立一個差異化的業務完全值得。最終,大多數成功的企業都是某種形式的「包裝工具」。(@APPSO)
更多 Voice Agent 學習筆記:
對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點
這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢
語音即入口:AI 語音互動如何重塑下一代智慧應用
Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……
幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記
市場規模超 60 億美元,語音如何改變對話式 AI?
2024 語音模型前沿研究整理,Voice Agent 開發者必讀
從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶
WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?
人類級別語音 AI 路線圖丨 Voice Agent 學習筆記
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 蘋果開源高效語言模型 OpenELM;全球首個 AI 基因編輯器開源丨 RTE 開發者日報 Vol.192蘋果模型AI開發者日報
- Hume AI 語音控制功能:建立個性化語音;李飛飛空間智慧首個模型:單圖生成 3D 互動場景丨 RTE 開發者日報AI模型3D開發者日報
- ElevenLabs Voice Design :可透過文字建立個性化語音;蘋果推出首個開發者測試版丨 RTE 開發者日報蘋果開發者日報
- ChatGPT 支援語音實時搜尋;Meta Ray-Ban 智慧眼鏡新增影片識別與實時語音翻譯功能丨 RTE 開發者日報ChatGPT開發者日報
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- 亞馬遜秘密研發 AI 對標 ChatGPT;語音 AI 未來五年或將釋放 100 億美元市場 丨 RTE 開發者日報亞馬遜AIChatGPT開發者日報
- 首個被人類騙錢的 AI 誕生;微信公眾號後臺新增「AI 配圖」功能丨 RTE 開發者日報AI開發者日報
- 星紀魅族宣佈 All in AI;歐盟將首次對蘋果處以罰款丨 RTE 開發者日報 Vol.146AI蘋果開發者日報
- 基於 Groq 和 Cartesia 的高速 AI 語音助手釋出;xAI 將自行打造超級計算機丨 RTE 開發者日報AI計算機開發者日報
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- 微軟將深度整合 Azure AI 與 GitHub;Stability AI 0.5 秒生成三維建模丨 RTE 開發者日報微軟AIGithub開發者日報
- 小米回應「網友惡搞 AI 雷軍配音罵人」;Hailuo AI 上線圖片生成影片功能丨 RTE 開發者日報AI開發者日報
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- AI 口語學習應用 Speak 新一輪融資估值 10 億美元;YouTube 推出 AI 多語言配音丨 RTE 開發者日報AI開發者日報
- 《阿凡達》導演卡梅隆加入 Stability AI 董事會;Molmo 橫空出世,開源多模態模型王座易位丨 RTE 開發者日報AI模型開發者日報
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- Meta 研發大型 AI 推薦引擎;全球首部全面監管 AI 法規將落地丨 RTE 開發者日報 Vol.160AI開發者日報
- 微軟預計年底實現實時語音介面;矽基智慧開源 AI 數字人互動平臺 Duix 丨 RTE 開發者日報微軟AIUI開發者日報
- 新 Chrome 外掛可檢測 AI 偽造聲音;Canary Speech 推出用於臨床對話的語音分析技術丨 RTE 開發者日報ChromeAI開發者日報
- 英偉達市值超越蘋果;ChatGPT、Perplexity、Claude 同時大崩潰丨 RTE 開發者日報 Vol.220蘋果ChatGPT開發者日報
- ElevenLabs Voice Design:文字生成個性化語音;科學家用 AI 解讀豬叫聲背後情緒和壓力丨RTE 開發者日報AI開發者日報
- ElevenLabs Voice Design:文字生成個性化語音;科學家用 AI 解讀豬叫聲背後情緒和壓力丨 RTE 開發者日報AI開發者日報
- WWDC 蘋果釋出 AI 全家桶;三星宣佈「實時翻譯」將相容第三方 App 丨 RTE 開發者日報 Vol.222蘋果AIAPP開發者日報
- ChatGPT 新增朗讀功能;微軟 Win11 滑鼠懸停自動開啟 Copilot 丨 RTE 開發者日報 Vol.158ChatGPT微軟開發者日報
- 微軟或開發新模型與 OpenAI 競爭;蘋果或將推出 Apple Pencil Pro 丨 RTE 開發者日報 Vol.198微軟模型OpenAI蘋果APP開發者日報
- 思必馳xiaochi獲2020 AESR“口音種類識別“冠軍和“口音英語語音識別”亞軍
- 蘋果 Vision Pro 產地首次公佈:原汁原味的中國製造丨 RTE 開發者日報 Vol.143蘋果開發者日報
- 語音生成公司 ElevenLabs 估值達 30 億美元;OpenAI Realtime API 很好也很貴丨 RTE 開發者日報OpenAIAPI開發者日報
- QQ 測試 AI 聊天搭子,再戰 AI 社交;零一萬物宣佈開源 Yi-9B 模型丨 RTE 開發者日報 Vol.159AI模型開發者日報
- Sam Altman 新公司將打造 AI 健康教練;全新大模型架構 TTT 超越 Transformer 丨 RTE 開發者日報AI大模型架構ORM開發者日報
- Runway 新增影片擴充套件畫面功能;Anthropic 再獲亞馬遜投資 40 億美元,聚焦 AI 晶片研發丨 RTE 開發者日報套件亞馬遜AI晶片開發者日報
- 蘋果mac電腦如何開啟“語音控制”?蘋果Mac
- 活動報名丨實時互動 AI 開發者年度聚會!RTE Open Day@RTE2024,10.25/26 北京AI
- 結合多模態 AI 谷歌展示 AR 眼鏡原型機;Meta 被曝開發帶攝像頭的 AI 耳機丨 RTE 開發者日報 Vol.204AI谷歌原型開發者日報
- 斯嘉麗·約翰遜指控 OpenAI 非法使用其聲音;微軟推出 AI 工具「回顧」(Recall)丨 RTE 開發者日報 Vol.208OpenAI微軟開發者日報
- RTE 大會報名丨 重塑語音互動:音訊技術和 Voice AI,RTE2024 技術專場第一彈!音訊AI
- SpaceX 星艦發射「成功一半」;首位具身 AI 機器人面世丨 RTE 開發者日報 Vol.166AI機器人開發者日報
- OpenAI 成功收購 Chat.com 域名;AI「電子舌頭」問世,可辨別味道、檢測食品安全丨 RTE 開發者日報OpenAI開發者日報