蘋果滑鼠有望加入 AI 語音控制功能;Accent Oracl :準確識別你口音的 AI 丨 RTE 開發者日報

RTE开发者社区發表於2025-01-02

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

01 有話題的新聞

1、曝蘋果或已停止生產第一代 Vision Pro 頭顯

據 MacRumors 報導,蘋果的第一代 Vision Pro 頭顯現在可能已經停產。報導指出,據稱蘋果已暫停最初的第二代 Vision Pro 的工作至少一年,以專注於開發低成本的頭顯。

此前,The Information 曾援引多位生產方面人員的訊息報導,稱蘋果突然減少了 Vision Pro 頭顯的產量,並可能在 2024 年底前完全停止生產這個裝置。

生產規模的縮減從初夏開始,可能表明目前蘋果的庫存中有足夠數量的 Vision Pro 裝置,可以滿足該裝置到明年的需求。

The Information 的報導指出,Vision Pro 供應商已經生產了足夠 50 萬到 60 萬副頭顯使用的元件,由於蘋果疲軟的銷量預測,一些工廠在 5 月份就停止了零部件的生產,大量部件在倉庫堆積。

蘋果也通知了 Vision Pro 的組裝商立訊精密可能要在 11 月停止生產,目前立訊精密每天生產約 1000 副頭顯,只有高峰產量的一半。(@APPSO)

2、Hugging Face 推出 SmolAgents:三行程式碼打造智慧代理,簡化 AI 開發

在傳統的 AI 開發中,構建智慧代理一直是一項複雜且技術要求高的任務。開發人員需要處理 API 整合、環境配置、依賴項管理等多個繁瑣的步驟,這使得構建智慧代理既耗時又費力。然而,Hugging Face 最近推出的 SmolAgents 工具包為開發人員提供了一種全新的簡化方式,使得建立智慧代理變得更加簡單和高效。

SmolAgents 的最大亮點是其輕量級設計和簡潔的 API 介面,開發人員只需三行程式碼即可建立一個功能強大的智慧代理。這一工具包基於 Hugging Face 的預訓練模型,簡化了資料檢索、程式碼執行和任務管理等多項複雜功能。SmolAgents 的出現,標誌著 AI 開發的門檻正在降低,AI 技術的民主化和可訪問性得到了進一步推動。(@AIbase 基地)

3、智譜深度推理模型 GLM-Zero 預覽版上線,2025 年考研數學一得 126 分

智譜官方近日釋出了 GLM-Zero 的初代版本 GLM-Zero-Preview,這是智譜首個基於擴充套件強化學習技術訓練的推理模型。

GLM-Zero-Preview 是 GLM 家族中專注於增強 AI 推理能力的模型,擅長處理數理邏輯、程式碼和需要深度推理的複雜問題。

據介紹,同基座模型相比,GLM-Zero-Preview 在不顯著降低通用任務能力的情況下,在專家任務能力方面的表現大幅提升,其在 AIME 2024、MATH500 和 LiveCodeBench 評測中,效果與 OpenAI o1-preview 相當。

在數學方面,GLM-Zero-Preview 具有強大的歸納與演繹能力,能夠快速處理複雜的數學運算,解答包括代數、微積分、機率統計等領域的問題。以 2025 年考研數學一為例,GLM-Zero-Preview 得分為 126。

官方表示,目前的 GLM-Zero-Preview 與 OpenAI 的 o3 模型還有不少的差距。將持續最佳化迭代強化學習技術。很快將會推出正式版 GLM-Zero,將深度思考的能力從數理邏輯擴充套件到更多更通用的技術。(@IT 之家)

4、阿里雲宣佈 2024 年度第三輪大模型降價

2024年12月31日,阿里雲宣佈 2024 年度第三輪大模型降價,通義千問視覺理解模型全線降價超 80%。

據悉,其中 Qwen-VL-Plus 直降 81%,輸入價格僅為 0.0015 元/千 tokens,創下全網最低價格;更高效能的 Qwen-VL-Max 降至 0.003 元/千 tokens,降幅高達 85%。

目前,按照最新價格,1 塊錢可最多處理約 600 張 720P 圖片,或 1700 張 480P 圖片。(@APPSO)

02 有亮點的產品

1、百度增設搜尋產品:上線「AI 搜」,透過 @ 與不同智慧體互動

百度近日在百度搜尋 Web 端首頁上線了百度「AI 搜」(Chat.baidu.com)入口,推動百度搜尋改版升級。據瞭解,「AI 搜」基於原百度搜尋 AI 夥伴改版升級而來,在此前的基礎上做功能升級。

百度「AI 搜」是基於百度文心大模型打造的桌面端 AI 搜尋引擎,目前內容側已經打通百度搜尋引擎、百度健康、百度律臨、百度文庫、百度教育等內容生態。

近期,360 集團、抖音、小紅書等先後推出 AI 搜尋產品,引發市場廣泛關注。實測發現,目前百度「AI 搜」主要提供包括話題探索、問題解決、決策輔助、知識答疑、主題研究、學習創作等功能,覆蓋文生圖、文生文、邏輯推理、多輪對話、智慧摘要、AI 修圖等 AI 技術。此外,百度「AI 搜」也提供了文心智慧體入口,在對話方塊中可透過 @ 方式與不同智慧體進行互動,方便使用者使用和建立智慧體。

有知情人士透露,目前百度 App 也將進行頁面更新,或將其搜尋框與 query 推薦結合,以更加簡潔的功能介面提升使用者體驗。

此前,百度創始人、董事長兼執行長李彥宏曾在三季度財報電話會上透露,百度將於 2025 年初推出文心大模型新版本,鞏固其在人工智慧基礎模型領域的領先地位,從而為搜尋業務提供強大的技術支援。據最新資料,百度 App 的 AI 功能已覆蓋近七成月活使用者,百度搜尋上超過 20% 的搜尋結果頁面涵蓋 AI 生成內容。(@IT 之家)

2、Accent Oracl :準確識別你口音的 AI

https://start.boldvoice.com/accent-guesser

Accent Oracle 是由專門從事口音訓練的公司 BoldVoice 建立的 AI。BoldVoice 是一個由 AI 驅動的語言學習平臺,但它不是典型的英語導師。它不會教你詞彙或語法,而是專注於改進你的美式口音。

然而,Accent Oracle 不是訓練你的口音,而是識別你的口音。你只需要閱讀一段簡短的文字,然後 Oracle 就會分析你的聲音,在幾秒鐘內猜出你的口音。

它由龐大的非母語人士資料庫提供支援,這意味著它不依賴於諸如「如果他們將 X 發音為 Y,那麼他們來自 Z」之類的刻板印象。相反,它會捕捉語音中的細微差別並檢測出您自己永遠不會注意到的模式。

有趣的是,Accent Oracle 不僅能夠精確的說出測試者的口音,甚至還能辨別出測試者口音中血統的影響(測試者確認自己是波斯人,但 Accent Oracle 測試出他的口音中有 17% 的土耳其語的影響)。(@Voice AI Newsletter)

3、蘋果新款妙控滑鼠有望加入 AI 語音控制功能

據爆料人馬克古爾曼透露,蘋果公司可能在其下一代妙控滑鼠中引入 AI 語音控制功能,這一訊息引起了公眾的廣泛關注。古爾曼強調,儘管 AI 技術的融合已成為硬體裝置發展的趨勢,但目前並沒有確鑿的證據顯示蘋果新款妙控滑鼠將支援 AI 語音控制。

在蘋果最新推送的 iOS18.1 正式版更新中,新增了名為「Apple Intelligence」的蘋果智慧功能,但國內使用者及許多非英語使用者暫時還無法體驗到這項服務。有訊息稱,蘋果正在與包括百度在內的國內企業進行洽談,旨在引入大型 AI 模型,提升 iPhone 的 AI 體驗。

古爾曼還提到,儘管現有的妙控滑鼠已將充電介面從 Lightning 升級為 USB-C,但介面位置仍位於滑鼠底部,這導致使用者在充電時無法使用滑鼠。針對這一使用者痛點,古爾曼透露蘋果正在開發一款既現代又能夠解決實際問題的新產品,其中就包括對充電介面位置的改進。(@AIbase 基地)

03 有態度的觀點

1、Meta 首席科學家楊立昆:實現 AGI 最樂觀需至少五到六年

Meta 首席科學家、圖靈獎得主楊立昆(Yann LeCun,法國人)在 29 日的「Into the Impossible」播客節目中談到了自己對通用人工智慧的看法。

他表示,目前 AI 的負面影響被過度放大,其能力目前仍非常有限。「在最樂觀的情況下,AGI 的實現至少尚需 5-6 年。」當前社會對 AI 普遍擔憂,甚至不乏一些關於 AI「可能導致的末日」有關觀點,楊立昆認為其忽視了 AI 的實際發展狀況和潛在的積極影響。

他表示,目前 AI 在理解和操作物理世界方面的能力仍非常有限,因為其主要透過文字資料進行訓練,缺乏對物理世界直觀理解的能力,無法像人類或動物去與環境自然互動。「譬如,一個 10 歲的孩子或者一隻貓都能透過『直觀物理(intuitive physics)』來理解如何與物理世界互動,像是規劃跳躍軌跡或理解物體的運動。而目前的 AI 系統,尚不具備這些能力。」(@IT 之家)

2、Perplexity CEO:模型會越來越商品化

前段時間,Perplexity 聯合創始人兼 CEO Aravind Srinivas ,在史丹佛商學院與 MBA 學生 Aislin Roth 進行了一次深入對話。

在採訪時,Aislin Roth 問到,Perplexity 既不擁有內容,也不擁有模型。其技術壁壘是什麼?為什麼 Perplexity 的方法比直接的縱向整合更好?Aravind Srinivas 則給出了這樣的回答:

我們確信一點:模型會越來越商品化。如果你想成為模型提供商,就需要鉅額資金支援,並且需要承受每年虧損數十億美元的風險。我們既不具備這樣的條件,也不希望走這條路。所以我們決定使用現有的模型,並針對終端使用者的搜尋體驗進行最佳化。

並且,Aravind Srinivas 還表示,模型之外還有很多事情可以做,我們覺得建立一個差異化的業務完全值得。最終,大多數成功的企業都是某種形式的「包裝工具」。(@APPSO)

更多 Voice Agent 學習筆記:

對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢

語音即入口:AI 語音互動如何重塑下一代智慧應用

Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……

幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記

市場規模超 60 億美元,語音如何改變對話式 AI?

2024 語音模型前沿研究整理,Voice Agent 開發者必讀

從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?

人類級別語音 AI 路線圖丨 Voice Agent 學習筆記

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章