開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的資料」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@鮑勃
01有話題的新聞
1、visionOS 2.2 Beta 引入超寬屏投屏模式
近日,蘋果在其 Vision Pro 頭顯的 visionOS 2.2 Beta 最新系統版本中推出了 Mac 投屏的寬屏及超寬屏模式。然而,這些新模式需要搭載最新的 macOS 15.2 Beta 系統,無法在 macOS 15.1 上執行。
據悉,Vision Pro 頭顯自推出以來,就具備將物理 Mac 螢幕替換為巨大虛擬螢幕的功能。使用者只需看向 MacBook 並點選浮動虛擬按鈕,或在臺式 Mac 上使用控制中心,即可輕鬆連線。
該系統能夠迅速在頭顯與 Mac 之間建立直接的無線連線,無需依賴 Wi-Fi 網路,帶來了高質量、低延遲的體驗。
此前,Mac 虛擬顯示僅限於 16:9 的寬屏模式。但隨著 visionOS 2.2 的推出,使用者現在可以選擇寬屏、超寬屏甚至全景沉浸的超寬顯示模式。所有三種模式下,Mac 虛擬螢幕都呈現出輕微的弧度,提供更具包圍感的觀看體驗。
蘋果表示,超寬的 Mac 虛擬螢幕具有 8K 的水平解析度,相當於將兩個 4K 顯示器並排放置,這得益於眼動追蹤技術的支援。
此外,visionOS 2.2 還最佳化了音訊路由功能,現在 Mac 的音訊可以直接傳輸到 Vision Pro 播放。這一改進使得使用者在享受巨大虛擬螢幕的同時,也能獲得更加沉浸式的音訊體驗。
與 Meta 和微軟等競爭對手的 PC 顯示擴充套件方式相比,蘋果的寬屏與超寬屏模式提供了不同的體驗。Meta Quest 及其 Immersed 和 Virtual Desktop 等第三方應用上,使用者可以虛擬新增多個側邊顯示器,但這些虛擬顯示器與物理顯示器之間通常保留間隙。
相較而言,而蘋果則透過單一擴充套件螢幕覆蓋整個寬屏區域,無需任何顯示間隙,實現了一體化的視覺體驗。(@新浪 VR)
2、超快速文字轉語音模型 Lightning:超低延遲, 100 毫秒生成 10 秒音訊
近日,總部位於美國加州舊金山的 AI 初創公司 smallest.ai 推出了其新產品 Lightning,一款能夠在 100 毫秒內生成長達 10 秒音訊的文字轉語音(TTS)模型。此項技術的進步,使得全球開發者能夠構建高模擬度的語音機器人應用,且延遲時間極短,降低了實施成本,提高了應用的可及性。
Lightning 目前支援英語和印地語的多種口音,團隊還計劃迅速新增更多語言,以滿足市場需求。這款模型的定價為每分鐘僅需 0.02 美元(約 1.6 印度盧比),為語音機器人開發者提供了一種極具成本效益的解決方案,應用的執行成本可控制在每分鐘 1 盧比以下,大幅降低了語音機器人構建的費用,同時擴大了市場的可達性。
與傳統的 TTS 模型依賴流媒體和網路套接字,增加伺服器負擔和複雜的可擴充套件性不同,Lightning 透過簡單的 REST API 設計,使音訊在大約 100 毫秒內交付,避免了持續流媒體帶來的伺服器壓力。這種快速的處理能力和成本效率,使其在語音機器人行業中成為一個顯著的替代選擇。
smallest.ai 由印度理工學院古瓦哈提校友 Sudarshan Kamath 和 Akshat Mandloi 創立。Kamath 表示,smallest.ai 的低價策略得益於他們對資料質量和模型效率的關注。「我們的模型比競爭對手如 ElevenLabs 的小得多,但我們透過高度精煉的資料實現了高質量的語音輸出。」 他解釋道。
早期獲得 Lightning 使用權的語音機器人開發者報告稱,他們的運營成本降低了 8 倍,同時音訊質量得到了提升。除了實時的語音機器人應用,Lightning 還可以用於製作有聲書和社交媒體內容的配音,如 Instagram 和 YouTube 等平臺。非開發者也可以透過 Waves Speech 平臺訪問 Lightning,體驗包括聲音克隆和口音轉換等功能,這些功能目前處於測試階段。(@AIbase 基地)
3、Meta 公司 AR 眼鏡團隊前負責人宣佈加入 OpenAI
11 月 5 日訊息,Meta 前擴增實境眼鏡專案負責人凱特琳・卡利諾夫斯基(Caitlin Kalinowski)週一在 LinkedIn 上宣佈,她將加入 OpenAI,領導機器人和消費硬體部門。
卡利諾夫斯基是一位資深的硬體主管,自 2022 年 3 月起領導 Meta 的 AR 眼鏡團隊。她監督了 Orion 的開發,這是一款擴增實境眼鏡原型,Meta 此前在年度 Connect 大會上展示了這款產品。卡利諾夫斯基還領導了 Meta 虛擬現實頭顯的硬體團隊近九年。在此之前,她曾在蘋果工作,設計 MacBook 的硬體。
「我很高興分享,我將加入 OpenAI 領導機器人和消費硬體部門,」卡利諾夫斯基在她的帖子中說,「在我的新角色中,我將最初專注於 OpenAI 的機器人工作和合作夥伴關係,以幫助將 AI 引入物理世界併為人類解鎖其潛力。」(@極客公園)
4、騰訊開源最大 MoE 大語言模型
11 月 5 日訊息,騰訊宣佈開源 MoE 大語言模型混元 Large、騰訊混元 3D 生成模型 Hunyuan3D-1.0 正式開源,並全面披露騰訊混元的全系列多尺寸模型、C 端應用、B 端應用版圖
騰訊稱混元 Large 是業界引數規模最大、效果最好的開源 MoE 大語言模型,採用 7T 訓練 tokens,總引數量 389B,啟用引數量 52B,上下文長度高達 256K,技術報告也同步釋出。混元-Large 包括三款模型:Hunyuan-A52B-Pretrain,Hunyuan-A52B-Instruct 和 Hunyuan-A52B-FP8。
與有相似啟用引數量的業界開源模型 Llama3.1-405B、Mixtral-8x22B 等相比,在多學科綜合評測集、中英文 NLP 任務、程式碼、數學等 9 大維度,混元 Large 都實現領先。(@極客公園)
5、訊息稱蘋果已進軍智慧眼鏡市場,啟動代號 Atlas 專案
據知情人士透露,蘋果上週悄然啟動了一項名為 Atlas 的內部研究專案,該專案主要聚焦於智慧眼鏡的開發。
為了深入瞭解員工對於智慧眼鏡的看法,蘋果上週還特意收集了相關反饋,並透過電子郵件向部分選定員工確認了這一產品研究方向。
據瞭解,蘋果在計劃推出新品類產品時,通常會組建秘密小組,並傾向於收集內部員工的反饋,以保持專案的保密性。這一做法再次印證了蘋果有意推進開發自有智慧眼鏡的傳聞,而此次 Atlas 專案正是由蘋果硬體工程部門的產品系統質量團隊所領導。
今年 2 月,蘋果釋出的 Vision Pro 頭顯因其高達 3499 美元的售價和笨重的外觀,被市場認為難以成為主流產品。然而,蘋果並未放棄在這一領域的探索,多年來一直在尋求製造一款更輕便、可全天佩戴的 AR 裝置,甚至期望其能夠取代 iPhone。然而,由於技術上的諸多挑戰,蘋果在這一專案上的進展並不順利。與此同時,Meta 透過更精簡的公式取得了成功。
面對 Meta 的成功,蘋果也在調整策略,尋求創造類似的產品。據推測,蘋果可能會借鑑其已經廣受歡迎的 AirPods 耳機的成功經驗,製造一款智慧眼鏡。這款眼鏡預計將擁有更長的電池壽命、先進的感測器和改進的音訊技術,以滿足使用者對便攜性和實用性的需求。
儘管蘋果方面尚未就此事發表評論,但種種跡象表明,蘋果對於智慧眼鏡市場的興趣濃厚,並正在積極投入研發資源。未來,隨著 Atlas 專案的深入進行,我們或許能夠見證蘋果在智慧眼鏡領域的創新與突破。(@新浪 VR)
02有態度的觀點
1、吳恩達對談史丹佛計算機系主任:生成式 AI 可賦能程式設計,但基礎程式設計知識及程式設計思維仍值得學習與培養
Andrew Ng(吳恩達)與史丹佛大學工程學院的電腦科學系主任 Mehran Sahami 在一次演講訪談中談到了對生成式 AI 對程式設計和軟體開發職業的影響、電腦科學教育的重要性,以及領域知識在 AI 應用中的關鍵作用。
他們認為,生成式 AI 正在加速軟體開發的速度,一方面幫助有經驗的開發者提高效率,另一方面也讓沒有太多程式設計經驗的人能夠快速進入軟體工程領域。這種技術使得編寫複雜程式變得更加可行,從而吸引了更多人參與軟體工程。因此,整個領域的速度在加快,開發出的軟體也越來越多。
此外,他們強調了電腦科學教育的必要性。儘管生成式 AI 能夠幫助生成程式碼,但基礎的電腦科學技能仍然至關重要。學生需要理解程式設計的基本概念、演算法和資料結構,以便能夠評估和最佳化生成的程式碼。教育應注重培養學生的計算思維,即如何系統地分解問題並解決問題,而不僅僅是教授程式語言的語法。
電腦科學推動的快速節奏正在給許多其他行業帶來壓力。生成式 AI 讓團隊能更快地完成任務,也可能會改變許多行業的工作模式。AI 作為一種新技術,能夠提高生產力,但如何利用這些生產力的提升仍然是人類的決策。AI 的應用與特定領域的知識相結合,能夠創造出更具價值的應用。(@ Z potentials)
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞