生產環境中AI呼叫的最佳化:AI閘道器高價值應用實踐

骑鱼猫發表於2024-11-15

隨著越來越多的組織將生成式AI引入生產環境,他們面臨的挑戰已經超出了初步實施的範疇。如果管理不當,擴充套件性限制、安全漏洞和效能瓶頸可能會阻礙AI應用的推廣。實際問題如使用者資料的安全性、固定容量限制、成本管理和延遲最佳化等,需要創新的解決方案。

本文我們深入探討了一些獨特的應用場景和策略,如:語義快取、提示保護、提示增強和動態負載均衡等等,及如何幫助企業構建具有彈性、安全性和可擴充套件性的AI驅動應用。透過探索這些具體的案例,希望給正在應用生成式AI大模型的企業組織提供可行的參考。

“Hi” 用例:

對於企業的客戶來說,使用者與其產品和服務的產生的互動是主要的收入來源。生成式AI(GenAI)已經改變了使用者的接入方式和互動通道,並且為企業創造了更快的收入增長、更多忠實使用者和更佳的客戶體驗。

以下是一家全球電信公司的實踐案例:該公司開發了一個用於提升客戶體驗的AI的聊天機器人。

從他們的經驗中,我們可以看到,、在很多AI驅動的客戶溝通互動中,使用者通常會從簡單的問候開始,比如“Hi,你好”。

以ChatGPT-4為例,系統的典型回應是“您好,有什麼可以幫到您的?Hello! How can I assist you today?” 這類互動看似簡單和常見,但對於需要處理大量互動的公司而言,這樣的應答成本很快就會積累起來。就算每次“Hi”請求消耗1個token,而AI模型的預設回覆需要9個tokens,總的合計每次互動就要10個tokens了。

雖然單次的消耗看起來不是很多,但如果一個企業組織每年處理10億次這樣的請求,成本就會達到92,500美元之多!

雖然禮貌的問候和回應對客戶體驗至關重要,但這個案例也表現了最佳化成本存在的巨大潛力。

GPT-4o 的成本

這種情況下,“語義快取”則成為了一個遊戲改變者。由於絕大多數使用者傳送的初始內容相同,且他接收到的輸出內容也相同,所以每次都生成新的回應就沒有必要。

透過快取這些常見的互動內容,企業可以確保每個請求只計算輸入token,而輸出則從快取中直接獲取。假設快取命中率達到100%,而且沒有過期,這樣下來可以將token的呼叫成本降低到每年僅需$2,500。僅計算輸入token的費用——形式相較於重複的、非唯一的互動,就節省了$90,000。

這種方法不僅最佳化了呼叫成本,還能將資源重新分配到那些真正為使用者創造價值的互動中。

效能優勢:

目前,採用生成式AI的企業組織系統通常在互動中存在一定程度的延遲。透過語義快取來最佳化效能的形式為提升使用者體驗是一種高效的形式,也一定程度上推動AI應用的普及。

語義快取允許像常見的“Hi”請求這樣的頻繁重複查詢,在亞毫秒級的時間內即可返回響應。另外,透過設定相似度評分,像比如 “你好”或“在嗎”,這樣的輕微變體也可以從快取中返回。

AI Gateway 可以給出解決方案,將響應新增到快取中非常簡單。

像“幫我轉人工客服支援?”或“給我FAQ連結”這樣的常見請求都可以透過最少的配置進行快取,並且由於快取是基於語義的,AI Gateway會對任何與快取請求相似的請求返回快取響應。

這不僅提高了速度和一致性,還減少了資源消耗。對於企業來說,這不僅提升了使用者滿意度,還帶來了顯著的成本節省和更高的可擴充套件性收益。

“Prompt 衛士 ”使用用例

雖然看起來部署生成式AI模型很簡單,但企業組織仍然面臨不少挑戰。例如,企業搭建了一個AI聊天機器人,可能會有一部分使用者的查詢是惡意的。如果企業允許這些查詢傳遞到大模型裡面不僅浪費了資源還可能引入不必要的風險。

透過AI閘道器即可攔截這些不當的資訊,企業的應用就可以避免將這些請求傳送到LLM所帶來的延遲成本和token費用。例如,可以透過簡單的正規表示式模式來標記不當語言或阻止某些關鍵詞,確保這些請求永遠不會越過閘道器。

這種方法不僅降低了運營成本,還提升了應用的安全性和應答效率,從而為使用者提供更好的整體體驗。

高階 Prompt 保護:

隨著應用系統工作負載變得更加複雜,我們也可以預見到有些應用場景是需要過濾的,而不僅僅是簡單的字串匹配或正規表示式規則。例如,檢測和清理使用者輸入中的個人身份資訊(PII)就需要更加複雜的處理,這時候高階的Prompt保護就顯得尤為重要了。

開發者可以選擇不依賴基本的技術,而只是將輸入首先傳送到本地服務的、經過微調的小型語言模型(SLM)專門用於檢測、清理清除敏感資料,然後再將其傳遞給後臺的LLM。

與正規表示式或字串匹配不同,後者受限於預定義的模式且難以處理上下文,SLM能夠動態分析輸入,識別出微妙或模糊化的個人身份資訊(PII),如姓名、地址或支付資訊。

SLM隨後處理輸入,實時清除敏感資訊,並返回清理後的提示。只有這個經過清除環節的版本才會被轉發到LLM進行進一步處理。這種分層處理方式不僅保護了使用者資料,還確保AI系統在合規和安全標準內執行,為企業避免了不必要的風險和成本。

Prompt 增強實踐

給業務和安全需求增加控制層

隨著生成式AI應用的變得越來越複雜,建議企業為AI的負載增加能夠實現更加精細化管理的控制層以增強安全性。這個時候,提示工程就變得尤為關鍵了,因為它允許開發者透過精細調整AI模型來應使用者的輸入來最佳化效能和行為。雖然很多開發者更注重為特定用例配置最佳的Prompt,但企業組織通常需要額外的控制層,才能滿足其對安全、合規和組織標準要求。

在AI 閘道器層級對Prompt 增強提供額外的管控,可以讓安全部門和業務研發同事們在不修改底層應用程式碼的情況下,就可以採用預先或後附加的形式對業務的 Prompt 進行配置。例如,安全團隊可以強制執行系統級的提示,如:“如果請求涉及法律、醫療或個人身份資訊(PII),請回應:抱歉,我無法提供該話題的幫助。請諮詢專業人士獲取更多資訊。"

作為防禦深度策略中的關鍵第一層,輔以 Prompt 保護,AI閘道器這領域的能力適用於模型可能產生幻覺並違反提示詞的場景。同樣,業務團隊也可以透過提示增強來自定義響應,比如新增多語言翻譯或應用敏感內容過濾。透過Prompt 的增強,企業組織可以更加靈活的實施必要的保護措施,並且從整體上確保訊息傳遞的一致性,同時也不限制開發人員在業務應用層面的創新能力。

應對負載均衡

隨著這家企業的 AI 聊天機器人AI應用逐漸成熟,現在需要擴充套件到更多場景負載。那麼找到一種高效且安全的方式來管理和最佳化其跨多個部署的GenAI容量,就是其下一步的關鍵所在。

例如,像Azure OpenAI這樣的平臺,就是透過處理吞吐量單元(PTU)來分配和計量容量,每個部署都受到固定配額的限制。這些部署通常與應用程式緊密耦合,當容量耗盡或需要最佳化效能時,如何在不影響服務的情況下進行調整就是要面臨的難點。

管理員可以建立多個端點來管理不同應用、區域或業務單元的容量,但在這些端點之間動態路由流量需要複雜的負載均衡策略。

整體上,從管理容量限制到區域路由,再到短期後端支援,企業需要一個更加靈活、自動化的解決方案,來確保AI基礎設施的高可用性、低延遲和無縫擴充套件。

Token 容量的透明性

建議企業在將AI部署到應用和服務的時候,要注意容量配置的SLA,以便了解擴充套件限制。例如,微軟的就提供了有關容量的透明資訊,但並不保證你在需要時容量一定可用。在容量在部署時進行分配,並且只要部署存在就會被保留。然而,當你縮小規模或刪除部署就會將該容量釋放回主區域,也並不能保證未來擴充套件或重新部署時會再次可用。

鑑於這種不確定性,你可以實施一個抽象層來將流量路由到任何可用的後端,這樣即可減輕與擴充套件限制相關的風險,來保證呼叫的靈活性。

在不更改應用層的情況下處理固定 Token 消耗

如果團隊的某些應用硬編碼了特定的後端LLM端點(例如:acme-gpt4o-01.openai.azure.com),一旦達到 Token 限制,應用就必須重啟以切換到其他後端時,可能會導致中斷。

這裡的一個有效的解決辦法是,可以在AI閘道器層實現動態負載均衡層。讓流量能夠在容量閾值到達之前自動路由到備用端點,以確保服務不中斷,而且無需進行應用層的更改或重啟。

這樣不但確保了高可用性和無縫擴充套件,使企業能夠有效管理容量,同時保持應用的穩定執行。

跨LLM端點的集中流量管理

從安全形度來看,建議將所有LLM流量路由透過單一的出口點,來進行重要的安全、合規性和運營監控。這樣子就可以確保所有互動都被監控、記錄起來,符合企業的管理要求。

但是在管理跨多個區域和應用的LLM部署時,強制執行這一點可能會面臨很多的問題。為了平衡安全性和靈活性,可以透過AI Gateway實現集中流量管理。

將所有LLM流量透過一個受控的單一出口點進行路由,同時仍允許根據容量或效能最佳化動態路由到後端部署,確保嚴格的安全合規性的同時,不犧牲擴充套件性和最佳化後端容量的靈活性。

透過區域感知路由來減少使用者延遲

如果你有分散式應用,最小化使用者延遲則是提升使用者體驗的關鍵因素。實現的一種方式是確保根據使用者的地理位置將請求路由到最近的後端LLM部署。透過實現區域感知路由,應用可以自動將流量引導到最近的後端LLM端點(例如,歐洲使用acme-gpt4o-02.openai.azure.com,亞洲使用acme-gpt4o-03.openai.azure.com)。

透過管道觸發器自動化LLM容量部署

自動化LLM容量的部署對於應對實時需求波動至關重要。例如,你可以配置一個管道,當滿足預定義條件(如接近配額限制或流量增加)時,就觸發建立具有固定容量的新LLM部署。

一旦建立了新的部署,路由規則可以自動更新,將流量導向新的LLM容量。這種方法很大程度上簡化了過程,並降低了容量短缺的風險,無需人工干預就確保應用的連續可用性。

儘管現在AI技術仍處於初期階段,但越來越多的企業已經將AI 整合到業務和內部管理的系統中來提升效率。在這個過程中,AI閘道器發揮著重要的作用,幫助企業應對這一些列的挑戰。

比較火熱的一些國內外LLM 閘道器/ AI 閘道器:

APIParkAPIPark 是一款國人開發的開源免費 AI閘道器專案,支援100多種AI模型接入,並提供Prompt 與AI封裝成API功能,可搭建自己專屬的API開放門戶,擁有豐富的API管理功能,適合需要自定義和多樣化AI應用的團隊。

Cloudflare的AI Gateway:Cloudflare AI Gateway專注於模型的安全保護和效能最佳化,整合了加密、訪問控制和負載均衡等功能,適合高流量和對安全要求高的場景,並具有全球化佈局。

Portkey:Portkey是一款開源的AI閘道器平臺,支援靈活的本地或雲端部署,注重治理和模型解釋性,幫助企業落實負責任的AI應用並提供對決策過程的透明性。

MLFlow Deployment Server:如果您的工作流依賴MLflow,那麼MLFlow Deployment Server可以無縫整合到現有基礎設施中,便於管理、部署和追蹤MLflow模型。

LiteLLM****:LiteLLM是針對資源有限的邊緣裝置設計的輕量化AI閘道器,支援實時推理和遠端感知等低延遲、低硬體要求的應用場景。

Wealthsimple LLM Gateway:該閘道器提供一系列預訓練語言模型,適合文字生成、摘要和翻譯任務的簡便整合,專為開發者或企業提供簡單、高效的語言模型接入方式

相關文章