當地時間本週二,谷歌在 Google’s Cloud Next 2024 上釋出了一系列 AI 相關的模型更新和產品,包括 Gemini 1.5 Pro 首次提供了本地音訊(語音)理解功能、程式碼生成新模型 CodeGemma、首款自研 Arm 處理器 Axion 等等。Gemini 1.5 Pro 是 Google 功能最強大的生成式 AI 模型,現已在 Google 以企業為中心的 AI 開發平臺 Vertex AI 上提供公共預覽版。這是谷歌面向企業的 AI 開發平臺。它能處理的上下文從 12.8 萬個 token 增加到 100 萬個 token。100 萬個 token 大約相當於 70 萬個單詞,或者大約 3 萬行程式碼。這大致是 Anthropic 的旗艦模型 Claude 3 能作為輸入處理的資料量的四倍,也大約是 OpenAI 的 GPT-4 Turbo 最大上下文量的八倍。官方原文連結:https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html該版本首次提供了本地音訊(語音)理解功能和全新的檔案 API,使檔案處理變得更加簡單。Gemini 1.5 Pro 的輸入模態正在擴充,包括在 Gemini API 和 Google AI Studio 中增加對音訊(語音)的理解。此外,Gemini 1.5 Pro 現在能夠對在 Google AI Studio 中上傳的影片的影像(幀)和音訊(語音)進行推理。可以上傳一個講座的錄音,比如這個由 Jeff Dean 進行的超過 117000 個 token 的講座,Gemini 1.5 Pro 可以將其轉換成一個帶有答案的測驗。(演示已加速)
谷歌在 Gemini API 方面也進行了改進,主要有以下三個內容:1. 系統指令:現在可以在 Google AI Studio 和 Gemini API 中使用系統指令來指導模型的響應。定義角色、格式、目標和規則,以針對您的特定用例指導模型的行為。 在 Google AI Studio 中輕鬆設定系統指令2.JSON 模式:指示模型僅輸出 JSON 物件。這種模式使從文字或影像中提取結構化資料成為可能。現在可以使用 cURL,Python SDK 支援即將推出。3. 對函式呼叫的改進:現在可以選擇模式來限制模型的輸出,提高可靠性。選擇文字、函式呼叫或僅函式本身。此外,谷歌將釋出下一代文字嵌入模型,其效能優於同類模型。從今天開始,開發者將能夠透過 Gemini API 訪問下一代文字嵌入模型。這個新模型,text-embedding-004(在 Vertex AI 中為 text-embedding-preview-0409),在 MTEB 基準測試中實現了更強的檢索效能,並且超越了具有可比維度的現有模型。 在 MTEB 基準測試中,使用 256 dims 輸出的 Text-embedding-004(又名 Gecko)優於所有較大的 768 dims 輸出模型不過,需要注意的是,Gemini 1.5 Pro 對於沒有訪問 Vertex AI 和 AI Studio 許可權的人來說是不可用的。目前,大多數人透過 Gemini 聊天機器人來接觸 Gemini 語言模型。Gemini Ultra 驅動了 Gemini Advanced 聊天機器人,雖然它功能強大,也能理解長命令,但它的速度不如 Gemini 1.5 Pro。在 2024 年的 Google Cloud Next 大會上,該公司推出多個開源工具,主要用於支援生成式 AI 專案和基礎設施。其一是 Max Diffusion,它是各種擴散模型參考實現的集合,可在 XLA(加速線性代數)裝置上執行。GitHub 地址:https://github.com/google/maxdiffusion其二是 Jetstream,一個執行生成式 AI 模型的新引擎。目前,JetStream 只支援 TPU,未來可能會相容 GPU。谷歌聲稱,JetStream 可為谷歌自己的 Gemma 7B 和 Meta 的 Llama 2 等模型提供高達 3 倍的價效比。GitHub 地址:https://github.com/google/JetStream第三個是 MaxTest,這是一個針對雲中的 TPUs 和 Nvidia GPUs 的文字生成 AI 模型的集合。MaxText 現在包括 Gemma 7B、OpenAI 的 GPT-3、Llama 2 和來自 AI 初創公司 Mistral 的模型,谷歌表示所有這些模型都可以根據開發人員的需求進行定製和微調。GitHub 地址:https://github.com/google/maxtext谷歌雲宣佈推出其首款自主研發的 Arm 處理器,名為 Axion。其基於 Arm 的 Neoverse 2,專為資料中心設計。谷歌表示其 Axion 例項的效能比其他競爭對手如 AWS 和微軟的基於 Arm 的例項高出 30%,與相應的基於 X86 的例項相比,效能提高了最多 50%,能效提高了 60%。谷歌在週二的釋出會上強調,由於 Axion 建立在一個開放的基礎上,谷歌雲的客戶將能夠將他們現有的 Arm 工作負載帶到谷歌雲,而無需任何修改。CodeGemma 以 Gemma 模型為基礎,為社群帶來了強大而輕量級的編碼功能。該模型可分為專門處理程式碼補全和程式碼生成任務的 7B 預訓練變體、用於程式碼聊天和指令跟隨的 7B 指令調優變體、以及在本地計算機上執行快速程式碼補全的 2B 預訓練變體。- 智慧程式碼補全和生成:補全行、函式,甚至生成整個程式碼塊,無論你是在本地還是雲上工作;
- 更高準確性:CodeGemma 主要使用來自網路文件、數學和程式碼的 5000 億 token 的英語語言資料進行訓練,生成的程式碼不僅語法更正確,語義也更有意義,有助於減少錯誤和 debug 時間;
- 多語言能力:支援 Python、JavaScript、Java 和其他流行程式語言;
- 簡化工作流程:將 CodeGemma 整合到你的開發環境中,以減少編寫的樣板程式碼,並更快地編寫重要、有趣且差異化的程式碼。
CodeGemma 與其他主流程式碼大模型的一些比較結果如下圖所示:CodeGemma 7B 模型與 Gemma 7B 模型在 GSM8K、MATH 等資料集上的比較結果。論文地址:https://storage.googleapis.com/deepmind-media/gemma/codegemma_report.pdfGoogle DeepMind 還發布了一系列開放權重語言模型 ——RecurrentGemma。RecurrentGemma 基於 Griffin 架構,透過將全域性注意力替換為區域性注意力和線性迴圈(linear recurrences)的混合,在生成長序列時實現快速推理。技術報告:https://storage.googleapis.com/deepmind-media/gemma/recurrentgemma-report.pdfRecurrentGemma-2B 在下游任務上實現了卓越的效能,可與 Gemma-2B(transformer 架構)媲美。同時,RecurrentGemma-2B 在推理過程中實現了更高的吞吐量,尤其是在長序列上。Google Vids 是一款 AI 影片建立工具,是 Google Workspace 中新增的新功能。谷歌表示,藉助 Google Vids,使用者可以與文件和表格等其他 Workspace 工具一起製作影片,並且可與同事實時協作。企業專用程式碼助手 ——Gemini Code AssistGemini Code Assist 是一款面向企業的 AI 程式碼完成和輔助工具, 對標 GitHub Copilot Enterprise。Code Assist 將透過 VS Code 和 JetBrains 等流行編輯器以外掛的形式提供。 圖源:https://techcrunch.com/2024/04/09/google-launches-code-assist-its-latest-challenger-to-githubs-copilot/Code Assist 由 Gemini 1.5 Pro 提供支援。Gemini 1.5 Pro 擁有百萬 token 的上下文視窗,這使得谷歌的工具能夠比競爭對手引入更多的上下文。谷歌表示,這意味著 Code Assist 能夠提供更準確的程式碼建議,並具備推理和更改大段程式碼的能力。谷歌表示:「Code Assist 使客戶能夠對整個程式碼庫進行大規模更改,從而實現以前不可能實現的人工智慧輔助程式碼轉換。」AI 智慧體是今年一個熱門的行業發展方向。谷歌現在宣佈推出一款幫助企業構建 AI 智慧體的新工具 ——Vertex AI Agent Builder。谷歌雲執行長 Thomas Kurian 表示:「Vertex AI Agent Builder 使人們能夠非常輕鬆、快速地構建和部署可用於生產的、由人工智慧驅動的生成式對話智慧體,並且能夠以指導人類的方式指導智慧體,以提高模型生成結果的質量和正確性。」https://techcrunch.com/2024/04/09/google-open-sources-tools-to-support-ai-model-development/https://developers.googleblog.com/2024/04/gemma-family-expands.html?utm_source=twitter&utm_medium=unpaidsoc&utm_campaign=fy24q2-googlecloudtech-blog-next_event-in_feed-no-brand-global&utm_content=-&utm_term=-&linkId=9603600