ChatGPT 開啟「眼睛」,實時攝像頭對話來了;崑崙萬維推出實時語音助手 Skyo 丨 RTE 開發者日報

RTE开发者社区發表於2024-11-21

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

01 有話題的新聞

1、360 將釋出新一代 AI 搜尋 周鴻禕:n.cn 域名花了約一個億

360 公司創始人周鴻禕近日宣佈,公司計劃在本月推出一款全新的搜尋產品,該產品將進一步擴充套件 360 在人工智慧應用領域的版圖。

周鴻禕指出,360AI 搜尋作為國內最大的原生人工智慧應用之一,已經證明了搜尋是使用者接觸和使用 AI 技術的直接和簡單方式。基於這一成功經驗,360 團隊致力於在現有基礎上進行創新,打造一個更易於普及和使用的 AI 工具。

目前,新產品的準備工作已接近完成,唯一待定的是產品名稱。周鴻禕表示,考慮到消費者對 360 的第一印象是安全,因此他希望新產品的名稱能夠體現 AI 的概念和含義。此外,他還特別提出,新名字必須以字母 N 開頭,這是因為他幾年前購買了域名 n.cn,並希望在新產品中利用這一域名。

周鴻禕還向公眾發出邀請,徵集新產品的名稱。他表示,一旦採納,將邀請命名者參加釋出會並擔任重要角色。(@AIbase 基地)

2、引進零一萬物聯創,「閃極科技」完成數千萬元 A 輪融資

「閃極科技」完成數千萬元人民幣 A 輪融資,由光遠投資領投,未來光錐前沿科技基金、邊緣 AI 晶片公司雲天勵飛跟投,躍為資本擔任獨家財務顧問。

融資資金將主要用於新品「閃極 AI 拍攝眼鏡」的市場擴充、AI 技術研發及人才梯隊建設。

據瞭解,這款新品將於 12 月 19 日釋出,賣點是持久續航、高畫質拍攝、影音質感及 AI 能力。

「閃極科技」成立於 2020 年,進軍 AI 眼鏡行業之前,該公司的主要業務是高階充儲能及攝影周邊器材領域。2023 年,「閃極科技」進軍 AI 硬體領域,計劃利用一年時間研發並推出一款 AI 眼鏡。

在 AI 投入方面,「閃極科技」在不久前引入了前谷歌大腦首位研究軟體工程師、前位元組跳動 AI 平臺負責人、「零一萬物」聯合創始人潘欣出任公司合夥人,負責 AI 相關技術研發。

「閃極科技」合夥人潘欣表示,全新的 AI 生態,正需要全新的硬體模式來承載。AI 具備的典型能力是多模態理解能力、自主決策能力,相比於過往的手機、PC,AI 眼鏡是更適合 AI 落地的方向——眼鏡品類不僅在全球有了小几十億的佩戴群體,更是唯一具備第一視角資訊、能近距離獲得使用者聲音資訊的裝置,更能幫助使用者記錄、記憶資訊。

近期,AI 眼鏡成為 AI 硬體行業的焦點,不少 AR 眼鏡公司、百度在內的大廠都在釋出對標 Meta Ray-ban 的新產品,不過基本集中在明年 Q2、Q3 量產。據此前報導,小米、三星的 AI 眼鏡產品將在明年釋出,OPPO、vivo、華為、騰訊、位元組也都在密集調研這一領域。(@ 智慧湧現)

3、推理模型 DeepSeek-R1-Lite 預覽版上線,號稱媲美 OpenAI o1-preview

DeepSeek 昨日(11 月 20 日)宣佈,全新研發的推理模型 DeepSeek-R1-Lite 預覽版正式上線。

官方表示,DeepSeek R1 系列模型使用強化學習訓練,推理過程包含大量反思和驗證,思維鏈長度可達數萬字。該系列模型在數學、程式碼以及各種複雜邏輯推理任務上,取得了媲美 OpenAI o1-preview 的推理效果,併為使用者展現了 o1 沒有公開的完整思考過程。

DeepSeek-R1-Lite 預覽版模型在美國數學競賽(AMC)中難度等級最高的 AIME 以及全球頂級程式設計競賽(codeforces)等評測中,超越了 GPT-4o 等知名模型。

據瞭解,DeepSeek-R1-Lite 目前仍處於迭代開發階段,僅支援網頁使用,暫不支援 API 呼叫。DeepSeek-R1-Lite 所使用的也是一個較小的基座模型,無法完全釋放長思維鏈的潛力。

官方稱正式版 DeepSeek-R1 模型將完全開源,並公開技術報告和部署 API 服務。(@IT 之家)

02 有亮點的產品

1、崑崙萬維推出「天工大模型 4.0」4o 版及實時語音助手 Skyo,號稱可克服大模型幻覺

昨日(11 月 20 日),崑崙萬維宣佈推出「天工大模型 4.0」4o 版(Skywork 4o)以及新產品「實時語音對話助手 Skyo」。

據官方介紹,Skyo 作為一個智慧語音互動產品,具備快速響應、多語言對話能力,它能夠主動發起對話、實時打斷,能夠克服大模型的「幻覺」問題,在對話中回覆真實內容。同時,Skyo 具備情感化反應和個性化聲音定製功能。

「天工大模型 4.0」4o 版具備如下特徵:高效響應速度,支援實時打斷,情感理解與個性化記憶,可定製的聲音風格,有能力支援多語言。

Skyo 則具備如下特徵:1 秒內回覆、聊天中可打斷,主動交流,持續長對話,情感反應,質感音色,風格切換,強大的記憶功能,回覆真實內容。此外,Skyo 將於 12 月份上線崑崙萬維旗下天工 App。(@IT 之家)

2、ChatGPT 開啟「眼睛」,實時攝像頭對話來了!

OpenAI 正在為 ChatGPT 的高階語音模式增加一項重磅新功能——「實時攝像頭」,這意味著它很快就能實時看到並理解我們的周圍環境了!

這個訊息來自最新的 ChatGPT v1.2024.317 測試版本,程式碼中已經出現了相關的蛛絲馬跡。

當 OpenAI 在 5 月份釋出 GPT-4o 時,其演示就足以令人驚歎:透過實時攝像頭,輕鬆識別出畫面中的狗狗,還能記住狗狗的名字。不僅如此,它還能看到玩具球,並自然而然地建議一場拋接遊戲!

這完全不是簡單的物體識別,而是真正理解了場景和上下文。

就像你在和一個超級聰明的朋友影片聊天,他不僅能看到你周圍的一切,還能給出恰到好處的互動建議。

一些幸運的使用者已經體驗到了這個功能的 alpha 版本。他們紛紛表示:這簡直就像在和一個博學多才的朋友視訊通話!

根據最新洩露的程式碼,這個功能將被正式命名為「Live camera」。使用方式出人意料的簡單:

只需輕點攝像頭圖示,ChatGPT 就能立即「看到」並討論你的周圍環境。

不過 OpenAI 也特別注重安全性,在程式碼中明確加入了警告提示,表明不要依賴這個功能進行實時導航,也不要用它做出可能影響健康和安全的決定。

雖然 OpenAI 還沒有公佈具體的釋出時間表,但從測試版的程式碼來看,這個功能即將進入 beta 測試階段。

業內普遍預測,它很可能會優先向 ChatGPT Plus 的付費使用者開放測試。( @AGI Hunt)

3、YouTube 推出影片問答功能 讓影片內容秒變互動百科

YouTube 在其平臺上推出了一項革命性的 AI 問答功能,讓影片觀看體驗邁入全新的互動時代。這項專為 Premium 會員打造的新功能,正在徹底改變使用者獲取影片資訊的方式。

只需輕點影片下方的「Ask」按鈕,使用者就能立即喚起 AI 助手,開啟與影片內容的實時對話。無論是畫面中出現的特定物品、背景音樂詳情,還是影片中的任何細節資訊,AI 助手都能快速給出準確答案。這項功能相當於為每個影片配備了一位全天候的智慧解說員,讓影片觀看從單向接收轉變為雙向互動體驗。

這一功能的推出意味著 YouTube 不再僅僅是一個影片播放平臺,而是轉變成了一個智慧化的影片互動平臺。使用者可以隨時暫停影片,向 AI 助手提問,獲取即時反饋,大大提升了影片內容的可理解性和可訪問性。

對創作者而言,這項功能也帶來了新的機遇。觀眾能夠更深入地瞭解影片內容,提高觀看粘性,同時創作者也可以透過觀眾的提問了解受眾關注點,最佳化未來的內容創作方向。(@AIbase 基地)

4、新開源「人生搜尋引擎」Pensieve,可記錄並回憶電腦螢幕內容

近日,一款名為 Pensieve(冥想盆)的開源軟體在 GitHub 熱榜上引起了廣泛關注。

這款軟體的設計靈感來源於《哈利波特》中提取和回憶記憶的神奇工具,它能夠自動記錄使用者在電腦上的所有活動,讓你隨時回憶起過去所見過的資訊。使用者只需輸入相關關鍵詞,Pensieve 就能快速找到相關記錄,極大地方便了日常生活和工作。

Pensieve 的開發者表示,該軟體具有隱私保護的特點,所有記錄均儲存在本地,使用者完全控制自己的資料。

與市面上其他類似軟體如收費的 Rewind 和微軟的 Windows Recall 相比,Pensieve 提供了一個免費、即時可用的選擇。使用者在使用過程中只需透過簡單的命令安裝軟體,並設定配置檔案和資料庫,即可輕鬆啟動並使用。

該軟體的核心功能包括自動記錄螢幕內容、智慧索引,以及提供方便的網頁介面以檢索歷史記錄。Pensieve 的設計特別關注隱私和安全性,所有資料都儲存在使用者本地,避免了資料傳輸到不可信的雲伺服器。同時,Pensieve 還支援多種語言模型,使用者可以根據需要選擇合適的嵌入模型進行使用。

在效能方面,Pensieve 每月生成的截圖約佔 8GB 的儲存空間,SQLite 資料庫大小則依賴於截圖數量。此外,該軟體在設計時考慮了硬體裝置的功耗,並採取了一系列最佳化措施,確保不會影響使用者的正常使用。

Pensieve 不僅功能強大,而且安裝過程簡單,適合各類使用者。開發者還提供了詳細的食用指南,幫助使用者選擇合適的模型和使用 Ollama 進行視覺搜尋。(@AIbase 基地)

03 有態度的觀點

1、馬斯克:AGI 最晚 2026 年實現

在最近一次採訪中,埃隆·馬斯克分享了他對人工智慧和未來技術的一系列預測和看法。

他重申了對人工通用智慧(AGI)的樂觀預期,認為最晚到 2026 年將實現 AGI,並強調了其潛在的風險可控性。

馬斯克還透露了特斯拉擎天柱機器人的重大升級計劃,包括多樣化的外觀選擇和多功能用途,如接送孩子、教育和安全保護,預計未來人形機器人的數量將超過人類,達到 100 億以上。

此外,他預測未來戰爭將主要涉及無人機,強調了人類與無人機戰鬥的不合理性。馬斯克還明確表示,特斯拉不會涉足手機市場,而是專注於汽車和機器人領域,同時,他預測未來所有汽車都將實現自動駕駛。

總的來說,馬斯克的預測描繪了一個由自動駕駛汽車和人形機器人主導的未來世界,其中人工智慧技術將在各個領域發揮核心作用。(@APPSO)

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章