AutoGLM:一句話控制手機電腦;英偉達新視覺壓縮工具:Cosmos Tokenizer 丨 RTE 開發者日報

RTE开发者社区發表於2024-11-29

開發者朋友們大家好:

這裡是 「RTE 開發者日報」,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

01 有話題的新聞

1、AutoGLM:國產 Agent 一句話控制手機電腦,開啟了大模型 Act 時代

從 GPTs 到能夠自主行動的 computer use,再到最近 AI 初創公司 /dev/agents 憑藉 Agent 作業系統估值 5 億美元,廠商們都在尋找 AI 下一個明確的落地方向。

今天上午,智譜 Agent 宣佈升級,開放「百萬內測」申請,翻開了人機互動體驗的新一頁。

這是智譜第一個產品化的智慧體 Agent,可以做到讓 AI 透過語音直接操縱硬體裝置,還能跨不同 App 全域性操作。

在釋出會現場,智譜 CEO 張鵬展示了一番智慧體的能力。讓 Agent 與現場觀眾建面對面群聊,還發了一個總計兩萬塊錢的紅包。

智譜智慧體的手機版 AutoGLM 與電腦版 GLM-PC,內測階段覆蓋部分常用的 App 及應用。

***AutoGLM:* 移動端(暫時向 Android 開放),可自主執行超 50 步的長步驟操作,適用於比價、導航、超話打卡等複雜操作

AutoGLM 支援包括微信、抖音、小紅書、微博等社交平臺、美團、餓了麼、等美食平臺、淘寶、京東、拼多多等購物平臺、高德和百度地圖等出行平臺、以及 12306、去哪兒、攜程等旅遊訂票平臺。

使用者開啟 AutoGLM 後,只需要動動嘴(當然也支援文字輸入),就能讓智慧體接管自己的手機,並在上面這些 App 上自動執行任何指令任務,比如在微信上對某個公眾號的文章進行摘要總結、在高德地圖上為你規劃出行路線,等等。

AutoGLM-Web: 網頁端,支援百度搜尋、知乎、Github 等數十個網站的無人駕駛

AutoGLM 的自主執行能力還擴充套件到了網頁端。智譜在瀏覽器(Google Chrome 和 Microsoft Edge)的智譜清言外掛上提供了 AutoGLM-Web 功能。該功能適配了知乎、微博、X 和豆瓣等社媒網站,百度、谷歌和必應等搜尋引擎,百度學術、谷歌學術和 arXiv 等學術網站,以及 GitHub 程式碼託管網站和資訊類網站。

在這些網站上,智慧體遵循使用者指令,可以自動執行站內搜尋、內容總結、生成 arXiv 日報、搭建 GitHub 倉庫、在微博超話簽到等個性化功能,可玩性不錯。如下所示,我們可以讓它自動幫我們在微博分享新鮮事。

GLM-PC: PC 端(暫時向 Mac 系統開放),適用於解放打工人雙手的生產力工具,手機也能遠端操作電腦

在桌面端,智譜同樣推出了像人一樣操作計算機軟體的應用 GLM-PC,它基於通用視覺大模型 CogAgent 的理解與任務規劃能力,讓使用者透過簡單的一句話指令執行復雜任務。比如查詢並總結網頁上的資訊,並透過微信傳送給別人。

不僅如此,智譜還實現了 GLM-PC 與手機端的聯動。使用者現在可以在手機上遠端向 GLM-PC 發訊息,讓它自動進行電腦端操作。

最後,智譜在釋出會現場表示,要對十個億級 App 進行免費 Auto 升級。榮耀、華碩、小鵬汽車等大廠,高通、英特爾等硬體、晶片廠商也紛紛站臺,介紹了與智譜的合作。(@ 機器之心)

2、馬斯克 xAI 強勢出擊,Grok AI 有望下月推獨立 App

據 The Verge 報導,xAI 正計劃在 12 月為 Grok 推出一款獨立應用,在擴大規模的過程中與 OpenAI 的 ChatGPT 正面交鋒。

目前,付費使用者可以透過 X 的網頁或是 APP 來訪問 Grok,而推出獨立應用後,使用者可以直接使用 Grok 的功能。此外,xAI 還為馬斯克的另一家公司 SpaceX 旗下的 Starlink 提供客戶支援功能。OpenAI 的 ChatGPT、谷歌的 Gemini 和 Anthropic 的 Claude 都已經有了自己的應用程式和免費產品,這使得 Grok 成為同類產品中的異類。(@ 極客公園)

3、亞馬遜將推出新的 AI 影片模型

據 The Information 報導,亞馬遜正在開發一款新的生成式人工智慧,除了文字之外,還可以處理影像和影片內容,從而減少對人工智慧初創公司 Anthropic 的依賴。

這款代號為 Olympus 的新型大型語言模型將能夠理解影像和影片中的場景,並透過簡單的文字提示幫助客戶搜尋特定場景。

新人工智慧模型的開發將幫助亞馬遜減少對 Anthropic 的 Claude 聊天機器人的依賴,後者是亞馬遜網路服務(AWS)上的一款熱門產品。

據知情人士透露,亞馬遜可能最早於下週在 AWS 年度客戶大會上宣佈推出 Olympus。(@APPSO)

4、Kimi 聯合清華大學共建大模型推理架構

11 月 28 日,Kimi 官方公眾號發文,宣佈聯合清華大學等機構,開源共建大模型推理架構 Mooncake。

Kimi 官方表示,此次開源 Mooncake 架構,主要應對「如何應對高推理負載、降低推理成本、降低響應延遲」這一業界共同面臨的難題。

Kimi 官方介紹,Mooncake 開源專案從論文延伸,以超大規模 KVCache 快取池為中心,透過以存換算的創新理念大幅度減少算力開銷,顯著提升了推理吞吐量。本次開源將採用分階段的方式,逐步開源高效能 KVCache 多級快取 Mooncake Store 的實現,同時針對各類推理引擎和底層儲存/傳輸資源進行相容。

同時月之暗面 Kimi 工程副總裁許欣然表示:「Mooncake 不僅提升了 Kimi 的使用者體驗,降低了成本,還為處理長文字和高併發需求提供了有效的解決方案。」

2024 年 6 月,月之暗面 Kimi 和清華大學 MADSys 實驗室聯合釋出了 Kimi 底層的 Mooncake 推理系統設計方案。該系統基於以 KVCache 為中心的 PD 分離和以存換算架構,大幅度提升了推理吞吐,受到業界廣泛關注。(@APPSO)

5、英偉達釋出新的視覺壓縮工具:Cosmos Tokenizer

最近,英偉達釋出了新的視覺壓縮工具——Cosmos Tokenizer,它能幫助我們在保持影像和影片高質量效果的同時實現顯著的壓縮率。

Cosmos Tokenizer 是一套用於影像和影片的神經 Tokenizer,旨在推進視覺 token 的技術前沿。

該專案支援大規模、穩健和高效的自動迴歸 transformer(如大型語言模型)或擴散生成器的開發。

專案提供了不同 tokenizer 的推理程式碼和預訓練模型,能夠實現高達 2048 倍的總壓縮率,同時保持較高的影像質量,並比現有的最先進方法快 12 倍。

這款工具的特點在於它採用了統一的架構來處理影像和影片,而且支援連續型和離散型多種壓縮方式。與現有技術相比,它的處理速度上提升了 2-12 倍,同時還保持了更小的模型體積。

在實際測試中,Cosmos Tokenizer 能夠處理長達 8-10 秒的 1080p 高畫質影片,在各項基準測試中都優於現有方案。而且在影片質量評估上,它比現有技術提升了 4 分貝的峰值訊雜比(PSNR),可以生成更清晰的畫面效果。(@HsuDan

02 有亮點的產品

1、Kimi 內測 AI 影片生成功能:每天免費 100 秒創作空間

人工智慧聊天工具 Kimi 正在內測創新功能「Kimi 創作空間」,這一 AI 影片生成服務引發業界廣泛關注。據報導,該功能目前處於灰度測試階段。

據內部人士透露,「Kimi 創作空間」將在 Kimi 官網首頁底部區域上線。使用者可以透過 12 種預設風格模板和自定義創作功能,製作個性化音樂影片。更值得注意的是,使用者每天將獲得免費生成 100 秒影片的許可權。

該功能不僅支援新增個性化音樂,還允許使用者詳細描述影片場景,為創意表達提供更多可能性。這一創新標誌著 AI 影片生成技術在個人創作領域的又一重大突破。(@AIbase 基地)

2、360 奈米搜尋顛覆傳統,支援一鍵生成脫口秀影片!

最近,360AI 搜尋神器「奈米搜尋」悄悄登陸 App Store 和應用寶,直接向百度、阿里夸克等老牌搜尋巨頭髮起正面挑戰。

為什麼叫奈米搜尋呢?據周鴻禕的說法,是希望做 AI 搜尋能夠從使用者的實際需求出發,從細微之處著手,就像奈米一樣,深入到每一個細節,真正幫使用者解決問題。

奈米搜尋並不是 360AI 搜尋的簡單升級版,它是一款全新的產品。它最大的特點在於對 AI 搜尋流程的全面革新,將 AI 搜尋與使用者創作需求緊密結合,以「搜 - 學-寫 - 創」四大功能模組,為使用者提供一站式內容創作體驗。

說的簡單一些,就是讓使用者用 AI 搜尋找到資訊後,不用自己費勁巴拉地再去加工整理,直接就能生成各種想要的內容,比如影片指令碼、脫口秀稿子等等。

在奈米搜尋,你可以文字、語音、拍照、影片,多種搜尋方式隨心切換。無論是識人、識物、解題,還是規劃旅遊攻略,奈米搜尋都能勝任。更驚人的是,它可以呼叫豆包、文心一言等 16 款大模型,並配備數十款智慧工具。

而且,奈米搜尋還支援將搜尋的結果一鍵生成口播稿並生成影片。(@AIbase 基地)

3、瞄準 toB Agent!法國 AI 獨角獸 H 推出首款產品 Runner H,專注企業自動化與定製化場景

去年夏天,法國 AI 初創公司 H 在尚未釋出任何產品的情況下,宣佈完成了驚人的 2.2 億美元種子輪融資,引發行業轟動。

近日,H 正式釋出首款產品 Runner H,以及用於構建自動化解決方案的 Studio 平臺,標誌著企業自動化和開發者工具的重大進步。

這款智慧體化的產品瞄準企業客戶和開發者,主打質量保障、流程自動化等場景,基於該公司自研的緊湊型大語言模型,擁有僅 20 億引數。

CEO Charles Kantor 表示,公司正在進行 A 輪融資,以支撐他所稱的「AI 第二階段」。與 OpenAI 等「第一階段」公司主攻通用模型不同,H 專注於特定任務和場景,提供定製化解決方案。

Runner H 專注三大應用場景

目前,H 已經悄悄與多個領域的客戶合作,包括電商、銀行、保險和外包服務,透過真實反饋不斷最佳化產品。

聚焦以下三個核心場景:

1)機器人流程自動化(RPA)
RPA 是一種成熟但尚未充分結合 AI 的技術,常用於自動化處理表單、勾選框以及檔案傳輸等重複性任務。Runner H 的優勢在於,即便處理的模板有所修改,其 AI 仍可執行無誤,支援更廣泛的資料來源。

2)質量保障(QA)
在質量保障方面,Runner H 擅長減輕網站測試等複雜任務的「維護負擔」,例如驗證頁面可用性、模擬真實使用者行為,以及確保支付方式的相容性,尤其是在網站被修改後。

3)業務流程外包(BPO)
BPO 涵蓋從改進賬單處理流程到加速資料訪問和使用的多種任務。Runner H 能夠提升企業操作效率,為客戶節省時間和成本。(@ 有新 Newin)

03 有態度的觀點

1、清華大學教授:AI 可能會出現自我意識的覺醒

近期,清華大學教授劉嘉接受了騰訊研究院的「AI&Society 百人百問」研討,並且表示「AI 可能會出現自我意識的覺醒」。

劉嘉教授認為,AI 可能會出現自我意識的覺醒。其中劉嘉教授提到「當大模型有意識或者有情感、有創造力的時候,它就不再是一個工具,它會是一個全新物種」,因此他認為「除了要繼續推動 AI 發展,還需要建立一套 AI 倫理學。甚至要放棄完全以人為中心的這種視角,去看未來的混合社會」。

劉嘉教授提到,「大模型從一開始來講,就是創造,要具有創造力,能夠產生新的事物。從這個角度來看,大模型它不是一種機械的基於統計的這種重複,而是開始有它自己獨立的思想,有它獨立的推理,它一定會有創造力。」

同時劉嘉教授表示,因為大模型的訓練語料來自對人類知識的預訓練,所以大模型要取代或者影響最大的行業一定是知識密集型行業。(@APPSO)

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章