AutoGLM:一句話控制手機電腦;英偉達新視覺壓縮工具:Cosmos Tokenizer 丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、AutoGLM:國產 Agent 一句話控制手機電腦,開啟了大模型 Act 時代
從 GPTs 到能夠自主行動的 computer use,再到最近 AI 初創公司 /dev/agents 憑藉 Agent 作業系統估值 5 億美元,廠商們都在尋找 AI 下一個明確的落地方向。
今天上午,智譜 Agent 宣佈升級,開放「百萬內測」申請,翻開了人機互動體驗的新一頁。
這是智譜第一個產品化的智慧體 Agent,可以做到讓 AI 透過語音直接操縱硬體裝置,還能跨不同 App 全域性操作。
在釋出會現場,智譜 CEO 張鵬展示了一番智慧體的能力。讓 Agent 與現場觀眾建面對面群聊,還發了一個總計兩萬塊錢的紅包。
智譜智慧體的手機版 AutoGLM 與電腦版 GLM-PC,內測階段覆蓋部分常用的 App 及應用。
***AutoGLM:* 移動端(暫時向 Android 開放),可自主執行超 50 步的長步驟操作,適用於比價、導航、超話打卡等複雜操作
AutoGLM 支援包括微信、抖音、小紅書、微博等社交平臺、美團、餓了麼、等美食平臺、淘寶、京東、拼多多等購物平臺、高德和百度地圖等出行平臺、以及 12306、去哪兒、攜程等旅遊訂票平臺。
使用者開啟 AutoGLM 後,只需要動動嘴(當然也支援文字輸入),就能讓智慧體接管自己的手機,並在上面這些 App 上自動執行任何指令任務,比如在微信上對某個公眾號的文章進行摘要總結、在高德地圖上為你規劃出行路線,等等。
AutoGLM-Web: 網頁端,支援百度搜尋、知乎、Github 等數十個網站的無人駕駛
AutoGLM 的自主執行能力還擴充套件到了網頁端。智譜在瀏覽器(Google Chrome 和 Microsoft Edge)的智譜清言外掛上提供了 AutoGLM-Web 功能。該功能適配了知乎、微博、X 和豆瓣等社媒網站,百度、谷歌和必應等搜尋引擎,百度學術、谷歌學術和 arXiv 等學術網站,以及 GitHub 程式碼託管網站和資訊類網站。
在這些網站上,智慧體遵循使用者指令,可以自動執行站內搜尋、內容總結、生成 arXiv 日報、搭建 GitHub 倉庫、在微博超話簽到等個性化功能,可玩性不錯。如下所示,我們可以讓它自動幫我們在微博分享新鮮事。
GLM-PC: PC 端(暫時向 Mac 系統開放),適用於解放打工人雙手的生產力工具,手機也能遠端操作電腦
在桌面端,智譜同樣推出了像人一樣操作計算機軟體的應用 GLM-PC,它基於通用視覺大模型 CogAgent 的理解與任務規劃能力,讓使用者透過簡單的一句話指令執行復雜任務。比如查詢並總結網頁上的資訊,並透過微信傳送給別人。
不僅如此,智譜還實現了 GLM-PC 與手機端的聯動。使用者現在可以在手機上遠端向 GLM-PC 發訊息,讓它自動進行電腦端操作。
最後,智譜在釋出會現場表示,要對十個億級 App 進行免費 Auto 升級。榮耀、華碩、小鵬汽車等大廠,高通、英特爾等硬體、晶片廠商也紛紛站臺,介紹了與智譜的合作。(@ 機器之心)
2、馬斯克 xAI 強勢出擊,Grok AI 有望下月推獨立 App
據 The Verge 報導,xAI 正計劃在 12 月為 Grok 推出一款獨立應用,在擴大規模的過程中與 OpenAI 的 ChatGPT 正面交鋒。
目前,付費使用者可以透過 X 的網頁或是 APP 來訪問 Grok,而推出獨立應用後,使用者可以直接使用 Grok 的功能。此外,xAI 還為馬斯克的另一家公司 SpaceX 旗下的 Starlink 提供客戶支援功能。OpenAI 的 ChatGPT、谷歌的 Gemini 和 Anthropic 的 Claude 都已經有了自己的應用程式和免費產品,這使得 Grok 成為同類產品中的異類。(@ 極客公園)
3、亞馬遜將推出新的 AI 影片模型
據 The Information 報導,亞馬遜正在開發一款新的生成式人工智慧,除了文字之外,還可以處理影像和影片內容,從而減少對人工智慧初創公司 Anthropic 的依賴。
這款代號為 Olympus 的新型大型語言模型將能夠理解影像和影片中的場景,並透過簡單的文字提示幫助客戶搜尋特定場景。
新人工智慧模型的開發將幫助亞馬遜減少對 Anthropic 的 Claude 聊天機器人的依賴,後者是亞馬遜網路服務(AWS)上的一款熱門產品。
據知情人士透露,亞馬遜可能最早於下週在 AWS 年度客戶大會上宣佈推出 Olympus。(@APPSO)
4、Kimi 聯合清華大學共建大模型推理架構
11 月 28 日,Kimi 官方公眾號發文,宣佈聯合清華大學等機構,開源共建大模型推理架構 Mooncake。
Kimi 官方表示,此次開源 Mooncake 架構,主要應對「如何應對高推理負載、降低推理成本、降低響應延遲」這一業界共同面臨的難題。
Kimi 官方介紹,Mooncake 開源專案從論文延伸,以超大規模 KVCache 快取池為中心,透過以存換算的創新理念大幅度減少算力開銷,顯著提升了推理吞吐量。本次開源將採用分階段的方式,逐步開源高效能 KVCache 多級快取 Mooncake Store 的實現,同時針對各類推理引擎和底層儲存/傳輸資源進行相容。
同時月之暗面 Kimi 工程副總裁許欣然表示:「Mooncake 不僅提升了 Kimi 的使用者體驗,降低了成本,還為處理長文字和高併發需求提供了有效的解決方案。」
2024 年 6 月,月之暗面 Kimi 和清華大學 MADSys 實驗室聯合釋出了 Kimi 底層的 Mooncake 推理系統設計方案。該系統基於以 KVCache 為中心的 PD 分離和以存換算架構,大幅度提升了推理吞吐,受到業界廣泛關注。(@APPSO)
5、英偉達釋出新的視覺壓縮工具:Cosmos Tokenizer
最近,英偉達釋出了新的視覺壓縮工具——Cosmos Tokenizer,它能幫助我們在保持影像和影片高質量效果的同時實現顯著的壓縮率。
Cosmos Tokenizer 是一套用於影像和影片的神經 Tokenizer,旨在推進視覺 token 的技術前沿。
該專案支援大規模、穩健和高效的自動迴歸 transformer(如大型語言模型)或擴散生成器的開發。
專案提供了不同 tokenizer 的推理程式碼和預訓練模型,能夠實現高達 2048 倍的總壓縮率,同時保持較高的影像質量,並比現有的最先進方法快 12 倍。
這款工具的特點在於它採用了統一的架構來處理影像和影片,而且支援連續型和離散型多種壓縮方式。與現有技術相比,它的處理速度上提升了 2-12 倍,同時還保持了更小的模型體積。
在實際測試中,Cosmos Tokenizer 能夠處理長達 8-10 秒的 1080p 高畫質影片,在各項基準測試中都優於現有方案。而且在影片質量評估上,它比現有技術提升了 4 分貝的峰值訊雜比(PSNR),可以生成更清晰的畫面效果。(@HsuDan)
02 有亮點的產品
1、Kimi 內測 AI 影片生成功能:每天免費 100 秒創作空間
人工智慧聊天工具 Kimi 正在內測創新功能「Kimi 創作空間」,這一 AI 影片生成服務引發業界廣泛關注。據報導,該功能目前處於灰度測試階段。
據內部人士透露,「Kimi 創作空間」將在 Kimi 官網首頁底部區域上線。使用者可以透過 12 種預設風格模板和自定義創作功能,製作個性化音樂影片。更值得注意的是,使用者每天將獲得免費生成 100 秒影片的許可權。
該功能不僅支援新增個性化音樂,還允許使用者詳細描述影片場景,為創意表達提供更多可能性。這一創新標誌著 AI 影片生成技術在個人創作領域的又一重大突破。(@AIbase 基地)
2、360 奈米搜尋顛覆傳統,支援一鍵生成脫口秀影片!
最近,360AI 搜尋神器「奈米搜尋」悄悄登陸 App Store 和應用寶,直接向百度、阿里夸克等老牌搜尋巨頭髮起正面挑戰。
為什麼叫奈米搜尋呢?據周鴻禕的說法,是希望做 AI 搜尋能夠從使用者的實際需求出發,從細微之處著手,就像奈米一樣,深入到每一個細節,真正幫使用者解決問題。
奈米搜尋並不是 360AI 搜尋的簡單升級版,它是一款全新的產品。它最大的特點在於對 AI 搜尋流程的全面革新,將 AI 搜尋與使用者創作需求緊密結合,以「搜 - 學-寫 - 創」四大功能模組,為使用者提供一站式內容創作體驗。
說的簡單一些,就是讓使用者用 AI 搜尋找到資訊後,不用自己費勁巴拉地再去加工整理,直接就能生成各種想要的內容,比如影片指令碼、脫口秀稿子等等。
在奈米搜尋,你可以文字、語音、拍照、影片,多種搜尋方式隨心切換。無論是識人、識物、解題,還是規劃旅遊攻略,奈米搜尋都能勝任。更驚人的是,它可以呼叫豆包、文心一言等 16 款大模型,並配備數十款智慧工具。
而且,奈米搜尋還支援將搜尋的結果一鍵生成口播稿並生成影片。(@AIbase 基地)
3、瞄準 toB Agent!法國 AI 獨角獸 H 推出首款產品 Runner H,專注企業自動化與定製化場景
去年夏天,法國 AI 初創公司 H 在尚未釋出任何產品的情況下,宣佈完成了驚人的 2.2 億美元種子輪融資,引發行業轟動。
近日,H 正式釋出首款產品 Runner H,以及用於構建自動化解決方案的 Studio 平臺,標誌著企業自動化和開發者工具的重大進步。
這款智慧體化的產品瞄準企業客戶和開發者,主打質量保障、流程自動化等場景,基於該公司自研的緊湊型大語言模型,擁有僅 20 億引數。
CEO Charles Kantor 表示,公司正在進行 A 輪融資,以支撐他所稱的「AI 第二階段」。與 OpenAI 等「第一階段」公司主攻通用模型不同,H 專注於特定任務和場景,提供定製化解決方案。
Runner H 專注三大應用場景
目前,H 已經悄悄與多個領域的客戶合作,包括電商、銀行、保險和外包服務,透過真實反饋不斷最佳化產品。
聚焦以下三個核心場景:
1)機器人流程自動化(RPA)
RPA 是一種成熟但尚未充分結合 AI 的技術,常用於自動化處理表單、勾選框以及檔案傳輸等重複性任務。Runner H 的優勢在於,即便處理的模板有所修改,其 AI 仍可執行無誤,支援更廣泛的資料來源。
2)質量保障(QA)
在質量保障方面,Runner H 擅長減輕網站測試等複雜任務的「維護負擔」,例如驗證頁面可用性、模擬真實使用者行為,以及確保支付方式的相容性,尤其是在網站被修改後。
3)業務流程外包(BPO)
BPO 涵蓋從改進賬單處理流程到加速資料訪問和使用的多種任務。Runner H 能夠提升企業操作效率,為客戶節省時間和成本。(@ 有新 Newin)
03 有態度的觀點
1、清華大學教授:AI 可能會出現自我意識的覺醒
近期,清華大學教授劉嘉接受了騰訊研究院的「AI&Society 百人百問」研討,並且表示「AI 可能會出現自我意識的覺醒」。
劉嘉教授認為,AI 可能會出現自我意識的覺醒。其中劉嘉教授提到「當大模型有意識或者有情感、有創造力的時候,它就不再是一個工具,它會是一個全新物種」,因此他認為「除了要繼續推動 AI 發展,還需要建立一套 AI 倫理學。甚至要放棄完全以人為中心的這種視角,去看未來的混合社會」。
劉嘉教授提到,「大模型從一開始來講,就是創造,要具有創造力,能夠產生新的事物。從這個角度來看,大模型它不是一種機械的基於統計的這種重複,而是開始有它自己獨立的思想,有它獨立的推理,它一定會有創造力。」
同時劉嘉教授表示,因為大模型的訓練語料來自對人類知識的預訓練,所以大模型要取代或者影響最大的行業一定是知識密集型行業。(@APPSO)
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 英偉達市值超越蘋果;ChatGPT、Perplexity、Claude 同時大崩潰丨 RTE 開發者日報 Vol.220蘋果ChatGPT開發者日報
- 創紀錄:英偉達市值一日增 2770 億美元;Xiaomi 14 Ultra 正式釋出丨 RTE 開發者日報 Vol.150開發者日報
- GTC 2024 開幕,英偉達釋出新一代 GPU 架構;Apple ID 或將淘汰丨 RTE 開發者日報 Vol.168GPU架構APP開發者日報
- 馬斯克的 xAI 融資 60 億美元;英偉達收購兩家 AI 創企丨 RTE 開發者日報 Vol.193馬斯克AI開發者日報
- 英偉達開源福利:影片生成、機器人都能用的SOTA tokenizer機器人
- 英偉達成全球市值第一公司;蘋果暫停下一代高階頭顯研發丨 RTE 開發者日報 Vol.227蘋果開發者日報
- 多家中國車企宣佈將搭載英偉達最新車載晶片;Altman 曝全新 GPT-5 細節丨 RTE 開發者日報 Vol.168晶片GPT開發者日報
- 位元組豆包釋出新模型,AI 一句話 P 圖;Google 正式推出 Vids,簡單提示即可生成影片演示丨 RTE 開發者日報模型AIGo開發者日報
- Neuralink 將啟動第二例人類腦機晶片植入;多項 Claude 3.5 Sonnet AI 工具釋出丨 RTE 開發者日報晶片AI開發者日報
- 微軟 Azure 推出文字到語音虛擬人;英偉達釋出 8B 小語言模型,可在 RTX 工作站部署丨 RTE 開發者日報微軟模型開發者日報
- 電腦端壓縮工具哪個好用
- 英偉達神秘影片基礎模型「Cosmos」曝光,資料全靠偷模型
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- 首位腦機患者直播用意念玩遊戲;快手自研大模型有信心半年內達 GPT4 水平丨 RTE 開發者日報 Vol.169遊戲大模型GPT開發者日報
- 英偉達開發者計劃全球副總裁:開發者是最重要的
- 語音生成公司 ElevenLabs 估值達 30 億美元;OpenAI Realtime API 很好也很貴丨 RTE 開發者日報OpenAIAPI開發者日報
- 阿里 Qwen2.5 開源釋出;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 開發者日報阿里Go模型開發者日報
- 微軟或開發新模型與 OpenAI 競爭;蘋果或將推出 Apple Pencil Pro 丨 RTE 開發者日報 Vol.198微軟模型OpenAI蘋果APP開發者日報
- 電腦控制安卓手機的工具神器 Scrcpy GUI安卓GUI
- SpaceX 星艦發射「成功一半」;首位具身 AI 機器人面世丨 RTE 開發者日報 Vol.166AI機器人開發者日報
- 有英偉達新卡的安裝
- 微軟開發者大會推出 60 個新發布;阿里雲和百度加入大模型「價格戰」丨 RTE 開發者日報 Vol.209微軟阿里大模型開發者日報
- 新 Chrome 外掛可檢測 AI 偽造聲音;Canary Speech 推出用於臨床對話的語音分析技術丨 RTE 開發者日報ChromeAI開發者日報
- 英偉達控制皮膚沒有顯示設定 英偉達顯示設定不可用
- 11Labs 支援打造對話 AI 智慧體;阿里推出大模型 Qwen2.5-Turbo 速度提升 4.3 倍丨 RTE 開發者日報AI智慧體阿里大模型開發者日報
- Mini-Omni:具有實時對話能力的多模態模型;狨猴會用名字稱呼彼此 丨 RTE 開發者日報模型開發者日報
- 摺疊 MacBook 價格或比肩 Vision Pro;必應全球當機波及 ChatGPT 丨 RTE 開發者日報 Vol.211MacChatGPT開發者日報
- ChatGPT 開啟「眼睛」,實時攝像頭對話來了;崑崙萬維推出實時語音助手 Skyo 丨 RTE 開發者日報ChatGPT開發者日報
- ChatGPT 開啟「眼睛」,實時攝像頭對話來了;崑崙萬維推出實時語音助手 Skyo丨 RTE 開發者日報ChatGPT開發者日報
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- 《阿凡達》導演卡梅隆加入 Stability AI 董事會;Molmo 橫空出世,開源多模態模型王座易位丨 RTE 開發者日報AI模型開發者日報
- 拿紗布、抓針頭,英偉達與多所高校合作,開發手術機器人機器人
- RTE 領域近期詞雲統計釋出;谷歌開始新一輪「瘦身」計劃;使用ChatGPT之後智力提高 50%丨RTE開發者日報 Vol.50谷歌ChatGPT開發者日報
- 英偉達財報:2020年英偉 達淨利潤23.74億美元 同比增長282%
- OpenAI 再發 Sora 新短片,傳 Sora 兩週內推出;李飛飛團隊出品空間智慧版 ImageNet 丨 RTE 開發者日報OpenAISora開發者日報
- 智譜清言 App 面向 C 端開放 AI 視訊通話服務;谷歌 GameNGen:神經網路驅動的實時遊戲引擎丨 RTE 開發者日報APPAI谷歌GAM神經網路遊戲引擎開發者日報
- 英偉達財報:2025財年Q3英偉達營收351億美元創新高營收
- 英偉達財報:2022年Q1英偉達收入82.9億美元 同比增長46%