谷歌 Gemini 2.0 支援音訊和影像輸出;吳恩達:當下最重要的技術是 Agentic AI,視覺 AI 是下個趨勢

RTE开发者社区發表於2024-12-12

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

01 有話題的新聞

1、谷歌釋出新一代大模型 Gemini 2.0,支援音訊和影像多模態輸出的 API

谷歌釋出了新一代大模型 Gemini 2.0,速度翻倍,能力更強,支援原生影像生成和音訊輸出的多模態輸出,以及原生使用 Google 搜尋和地圖等工具。

對開發者而言,谷歌推出了新的多模態實時 API,支援實時音訊、影片流輸入和多個組合工具的使用。這些功能將從本週開始透過谷歌 AI 工作室和 Vertex AI 向開發者開放,而完整版本將於明年 1 月推出。

這些更新,讓谷歌帶來的遠不止是一個升級版的語言模型,而是一個滿足了智慧體基本需求的統一底層模型。

Project Astra 是谷歌最早在今年 5 月 I/O 大會上展示的 AI 助手,剛釋出時看起來並不太驚豔。但現在搭載 Gemini 2.0 後獲得了顯著提升。

在演示中,你可以把它當成谷歌版的 Apple Intelligence 或者 Windows Copilot,它的定位是一個系統級的智慧體助手。

Astra 利用 Gemini 2.0 內建的代理框架,透過文字、語音、影像和影片回答問題並執行任務,在需要時呼叫現有的 Google 應用,如搜尋、地圖和 Lens。這使其在日常生活中的實用性大大提高。

在記憶能力方面,Project Astra 也有重要突破。系統現在擁有長達 10 分鐘的會話記憶,並能記住過去的對話歷史,甚至是多模態的歷史,比如在演示中,它甚至能記住你的門鎖密碼。這讓它能提供更加個性化的服務。

Project Astra 在多模態間絲滑切換和對工具的無礙結合,目前對 Copilot 還是 OpenAI 來講,都尚未實現。這都是 Gemini 2.0 原生能力帶來的強大加持。

難怪 MIT Technology review 的報導不吝讚美的認為 Astra 或將成為生成式 AI 的殺手級應用。

而且谷歌的野心並不止於手機。它已經開始擴大其可信測試者計劃,包括讓一小組使用者在原型 XR 眼鏡上測試 Project Astra。它正在探索將這項技術擴充套件到更多形態,包括 AR 眼鏡等可穿戴裝置。(@ 騰訊科技)

2、全球首個 AI Agent 程式設計師 Devin 全面開放使用,月費高達 500 美元

全球首個 AI 程式設計師 Devin 正式宣佈全面開放使用,並實現商業化。然而,其定價卻讓許多使用者感到震驚,月費高達 500 美元,成為目前最貴的生成式 AI 產品之一。

Devin 的高昂價格引發了廣泛討論,很多網友表示這是一個不合理的商業模式。雖然大型團隊可以承受這樣的費用,但對於小團隊和個人使用者來說,這樣的價格無疑是一筆不小的開支。

儘管價格昂貴,Devin 的功能卻相當強大。它具備自動化編碼的能力,開發者可以根據待辦事項列表分配任務,Devin 能夠根據指示生成初稿的 Pull Request(PR)。在程式碼重構方面,Devin 的 IDE 擴充套件支援 VSCode 及其分支,使得開發者能夠輕鬆編輯或升級程式碼。

此外,Devin 在團隊的整合、遷移和文件維護方面也表現出色。它能夠承擔低階、重複的程式碼任務,幫助開發者進行程式碼的自我檢查和測試。使用者可以在 Slack 中與 Devin 進行對話,分配小型任務和修復錯誤。任務完成後,Devin 會透過訊息通知使用者,以便他們在合適的時間審查 PR。

值得注意的是,Devin 並沒有使用者數量限制,無論團隊成員多少,均可無限制使用這一工具。因此,對於企業使用者來說,使用 Devin 將會非常划算。

對於個人使用者而言,使用 Devin 可能並不划算,然而對於公司而言,這個工具無疑能夠顯著提升工作效率,減輕開發者的負擔。開發者可以直接在 IDE 中將任務非同步交給 Devin,使用其擴充套件進行程式碼審查和檢查,進一步提高了工作效率。(@ AIbase 基地)

3、LG 釋出 EXAONE 3.5 開源 AI 模型:長文字處理利器、獨特技術有效降低「幻覺」

LG 人工智慧研究院本週釋出 EXAONE 3.5 開源 AI 模型,並同步推出面向 LG 員工的企業級 AI 智慧體服務 ChatEXAONE。

此次釋出的 EXAONE 3.5 距離 3.0 版本僅四個月,新模型提供三個版本:24 億引數的超輕量級裝置端模型、78 億引數的輕量級通用模型以及 320 億引數的高效能專用模型。

LG 宣稱,EXAONE 3.5 單次處理 100 頁文字,在 20 項基準測試中表現優異,尤其在實際可用性、長文字處理、編碼和數學方面領先其他開源 AI 模型。

EXAONE 3.5 的亮點在於採用獨特的檢索增強生成技術和多步推理能力,可以有效降低了「幻覺」現象,提高了答案准確性。

LG AI Research 計劃在 2025 年上半年將 EXAONE 3.5 的 tokens 上下文視窗從 32000 擴充套件到 128000,並將於同年釋出大型動作模型(LAM),進一步提升 AI 能力,持續引領 AI 領域創新。(@IT 之家)

4、谷歌推出 AI 程式碼助手 Jules,可幫助開發者修復程式碼錯誤

谷歌今日宣佈推出一款名為「Jules」的實驗性 AI 程式碼助手,旨在幫助開發者自動修復程式碼錯誤。該工具今日與 Gemini 2.0 一同釋出,其使用更新後的谷歌人工智慧模型來建立多步驟計劃,以解決問題、修改多個檔案,併為 GitHub 工作流中的 Python 和 Javascript 編碼任務準備拉取請求。

去年,微軟為其 GitHub Copilot 引入了類似的功能,可以識別和解釋程式碼,並提供修改建議和修復錯誤。Jules 將直接與微軟的產品展開競爭,也將與 Cursor 等工具以及 Claude 和 ChatGPT 競爭。谷歌推出專注於編碼的 AI 助手並不令人意外 —— 早在去年 10 月,谷歌執行長桑達爾・皮查伊就曾表示,該公司超過四分之一的新程式碼現在由 AI 生成。

谷歌在其部落格文章中表示:「Jules 可以修復錯誤和處理其他耗時的任務,讓開發者專注於真正想要構建的內容。」「這項工作是我們構建在所有領域(包括編碼)都有幫助的 AI 代理的長期目標的一部分。」

開發者可以完全控制審查和調整 Jules 建立的解決方案,然後再選擇將其生成的程式碼合併到他們的專案中。公告並未提及 Jules 能夠主動發現錯誤,所以大概需要將其指向已經確定的問題列表以便修復。谷歌還表示,Jules 仍處於早期開發階段,「可能會犯錯」,但內部測試表明它對提高開發人員的生產力以及提供實時更新以幫助跟蹤和管理任務很有幫助。

根據谷歌的說法,Jules 今天面向「部分受信任的測試人員」推出,並將於 2025 年初向其他開發者釋出,有關其可用性以及開發進展的更新將在 Google Labs 網站上提供。(@ IT 之家)

02 有亮點的產品

1、ChatGPT 全面接入蘋果全家桶

北京時間今天凌晨, OpenAI 舉辦釋出會,宣佈 ChatGPT 正式登陸 iOS 生態系統,全面支援 iPhone、iPad 和 Mac。

伴隨著今天推送給使用者的 iOS 18.2、iPadOS 18.2 和 macOS Sequoia 15.2 ,更多的智慧服務接入蘋果裝置,其中就包含用於建立自定義表情符號的 Genmoji、用於生成影像的 Image Playground 和 Image Wand,以及整合到 Siri 的 ChatGPT 等服務。

在更新至最新系統後,使用者可以透過 Siri 或寫作工具直接訪問 OpenAI 的 ChatGPT(GPT-4o 版本),同時還能完成一鍵識物、總結和複製文字、跨語言翻譯以及提取電話號碼等操作。

蘋果方面表示,明年將推出更多蘋果智慧的更新,其中就包含對 Siri 將迎來重大進化,尤其是在跨應用操作方面。

目前,蘋果智慧暫不支援中國大陸地區,主要面向特定英語地區使用者開放。(@ APPSO)

2、蘋果 2024 年度最佳 App 獲獎名單公佈

蘋果官宣了今年的 App Store Awards,這些 App Store Awards 獲獎者由 App Store 編輯從 45 款入圍作品中遴選而出,代表了使用者體驗、設計和創新的極高水準。

蘋果在新聞稿中表示,獲獎 app 和遊戲彰顯了 App Store 和 Apple 生態系統能夠帶給開發者的無窮機遇。Kino 透過電影風格濾鏡和先進控制選項為使用者展示了生活可以如電影般繽紛多彩;Lightroom 憑藉強大的照片編輯功能在 Mac 上脫穎而出;Lumy 依託 Apple Watch 幫助使用者跟蹤太陽執行,捕捉迷人光線。

在遊戲類別中,劍與遠征:啟程在 iPhone 上為玩家呈現了精彩的動作戰略冒險和豐富的劇情。

本年度首次頒發了 Apple Vision Pro 類別獎項,獲獎者透過沉浸式體驗和直觀操控突破了空間計算技術的極限。(@ APPSO)

03 有態度的觀點

1、吳恩達 BULIT2024 演講:當下最重要的技術是 Agentic AI;視覺 AI 正成為下一個重要趨勢

生成式 AI 極大加速了 AI 應用的開發流程,從過去需要數月的週期縮短到僅需數天。這種變化推動了快速原型設計和實驗的新模式,幫助開發者在短時間內嘗試多種方案並專注於有效的解決方案,同時倡導「快速行動並負責任」的開發理念。

Agentic AI 代表了新一代智慧體技術的發展,依託多種設計模式(如反思、推理、功能呼叫和多智慧體協作)提升複雜任務的完成質量。這些模式透過分步驟規劃、迭代式工作流和角色分工,使智慧體能夠以更高效和精準的方式解決問題。

在文字生成革命之後,視覺 AI 正成為下一個重要趨勢。藉助大型多模態模型(LMM)和新型 Agentic 工作流,企業將能夠從大量影像和影片等非結構化資料中提取價值。這種變革推動資料工程的重要性,也為應用開發開闢更廣闊的空間。(@ Z potentials)

更多 Voice Agent 學習筆記:

市場規模超 60 億美元,語音如何改變對話式 AI?

2024 語音模型前沿研究整理,Voice Agent 開發者必讀

從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?

人類級別語音 AI 路線圖丨 Voice Agent 學習筆記

語音 AI 革命:未來,消費者更可能傾向於與 AI 溝通,而非人工客服

語音 AI 迎來爆發期,也仍然隱藏著被低估的機會丨 RTE2024 音訊技術和 Voice AI 專場

下一代 AI 陪伴 | 平等關係、長久記憶與情境共享 | 播客《編碼人聲》

Voice-first,閉關做一款語音產品的思考|社群來稿

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章