為 Hugging Face 使用者帶來無伺服器 GPU 推理服務

HuggingFace發表於2024-04-08

今天,我們非常興奮地宣佈 部署到 Cloudflare Workers AI 功能正式上線,這是 Hugging Face Hub 平臺上的一項新服務,它使得透過 Cloudflare 邊緣資料中心部署的先進 GPU、輕鬆使用開放模型作為無伺服器 API 成為可能。

從今天開始,我們將把 Hugging Face 上一些最受歡迎的開放模型整合到 Cloudflare Workers AI 中,這一切都得益於我們的生產環境部署的解決方案,例如 文字生成推理 (TGI)

透過 部署到 Cloudflare Workers AI 服務,開發者可以在無需管理 GPU 基礎架構和伺服器的情況下,以極低的運營成本構建強大的生成式 AI(Generative AI)應用,你只需 為實際計算消耗付費,無需為閒置資源支付費用

開發者的生成式 AI 工具

這項新服務基於我們去年與 Cloudfalre 共同宣佈的 戰略合作伙伴關係——簡化開放生成式 AI 模型的訪問與部署過程。開發者和機構們共同面臨著一個主要的問題——GPU 資源稀缺及部署伺服器的固定成本。

Cloudflare Workers AI 上的部署提供了一個簡便、低成本的解決方案,透過 按請求計費模式,為這些挑戰提出了一個無伺服器訪問、執行的 Hugging Face 模型的解決方案。

舉個具體例子,假設你開發了一個 RAG 應用,每天大約處理 1000 個請求,每個請求包含 1000 個 Token 輸入和 100 個 Token 輸出,使用的是 Meta Llama 2 7B 模型。這樣的 LLM 推理生產成本約為每天 1 美元。

Cloudflare 價格頁面

我們很高興能夠這麼快地實現這一整合。將 Cloudflare 全球網路中的無伺服器 GPU 能力,與 Hugging Face 上最流行的開源模型結合起來,將為我們全球社群帶來大量激動人心的創新。

John Graham-Cumming,Cloudflare 技術長

使用方法

在 Cloudflare Workers AI 上使用 Hugging Face 模型非常簡單。下面是一個如何在 Nous Research 最新模型 Mistral 7B 上使用 Hermes 2 Pro 的逐步指南。

你可以在 Cloudflare Collection 中找到所有可用的模型。

注意:你需要擁有 Cloudflare 賬戶API 令牌

你可以在所有支援的模型頁面上找到“部署到 Cloudflare”的選項,包括如 Llama、Gemma 或 Mistral 等模型。

model card

開啟“部署”選單,選擇“Cloudflare Workers AI”,這將開啟一個包含如何使用此模型和傳送請求指南的介面。

注意:如果你希望使用的模型沒有“Cloudflare Workers AI”選項,意味著它目前不支援。我們正與 Cloudflare 合作擴充套件模型的可用性。你可以透過 api-enterprise@huggingface.co 聯絡我們,提交你的請求。

推理程式碼

當前有兩種方式可以使用此整合:透過 Workers AI REST API 或直接在 Workers 中使用 Cloudflare AI SDK。選擇你偏好的方式並將程式碼複製到你的環境中。當使用 REST API 時,需要確保已定義 ACCOUNT_IDAPI_TOKEN 變數。

就這樣!現在你可以開始向託管在 Cloudflare Workers AI 上的 Hugging Face 模型傳送請求。請確保使用模型所期望的正確提示與模板。

我們的旅程剛剛開始

我們很高興能與 Cloudflare 合作,讓 AI 技術更加易於開發者訪問。我們將與 Cloudflare 團隊合作,為你帶來更多模型和體驗!

相關文章