Faas在哈囉AI平臺的落地實踐
為什麼哈囉AI平臺需要Faas
AI平臺當前的痛點
一是運維複雜問題,AI平臺有多種不同語言的模型推理服務, 如python、C++(tf-serving)、Java等,各自管理上百個不同型別的模型;架構也很複雜,存在大型單體應用、多container應用、小型GPU應用等多種服務組織方式;同時,手動運維有餘,自動化工具不足。
二是穩定性問題,成百上千模型集中式部署,存在明顯熱點問題,在應對一些突發流量的時候,自動伸縮速度也存在問題。同時,模型cpu、gpu資源競爭問題也困擾了我們。
三是IDC成本問題,存在資源利用率低的問題,有很大的提升空間。
AI平臺對新架構的訴求
AI平臺分為線上服務域(決策、特徵)和模型訓練域(模型、訓練),模型平臺是模型訓練域的一個子域。
我們希望Al平臺在應對突發流量時,可以快速響應,保持穩定的服務;對於低頻的模型,可以實現縮容到0;對於快速迭代的模型,可以方便進行AB灰度。同時我們希望成本可控、易於運維、易於部署。
雲原生演進與Faas選型
從K8s到Faas
Faas能給我們帶來極致彈性,可縮容至0;運維成本更低,帶來更低的開發複雜度和更好的運維效率。這與AI平臺的特點也是分不開的。模型是無狀態的,生命週期短,冷啟動時間短,業務需求變動快,開發週期短,流量零散而難預測,突發流量多。
Faas技術選型
經過調研,最終花落Knative。Knative支援多元觸發,如Eventing/http/grpc觸發;同時帶來彈性擴縮容的能力,可以縮容到0;在AI平臺能帶來版本管理和流量分配的能力。
Faas在模型平臺的落地實踐
模型平臺Faas化
模型平臺Faas化具有很大的價值。一是是平臺能力升級,支援大模型、GPU模型及更多模型型別;二是穩定性收益,透過熱點模型隔離,避免多模型混布,來更好的應對突發流量;三是人效收益,GPU模型、大模型全程演算法自助釋出;四是IDC降本收益,降低模型線上服務成本。
模型Faas部署
我們的模型平臺是一個非常完備的平臺,無論是演算法同學還是工程同學,都可以模型平臺上方便的去上傳模型,管理模型的入參出參、模型的版本。我們要相容模型管理的能力,底層有很多異構,如python叢集、gpu叢集、pmml叢集和TF叢集等。針對這些異構,我們要用分叢集的方式把它變成faas同構的框架。上面有了模型的管理平臺,下面有了faas叢集,中間的核心是平臺路由的改造。當演算法和工程同學評估了模型的QPS,可以在平臺上勾選faas的一鍵部署,就能方便的部署到faas叢集裡,這樣就能降低運維成本。
模型自動壓測&規格標準化
Faas部署很大程度上依賴服務本身的資源設定&彈性伸縮設定,適當的設定將極大的減少啟動時間、平滑彈性伸縮、最大程度節省資源。我們與壓測平臺合作,打造自動壓測能力,評估模型Pod資源和規格標準化,再呼叫雲原生Faas介面進行Faas部署。
Faas冷啟動最佳化
Faas通用的痛點是冷啟動速度,我們在思考模型的啟動,能否有繼續提速的空間。於是就有了模型分發服務,它可以把一些模型資源預下載下來,從原來的150毫秒降低到10毫秒左右的單模型的啟動。
Faas模型優雅預熱
深度大模型存在預熱不充分導致RT突增問題,我們基於Knative的版本管理、流量分配、藍綠部署等能力,結合自研GraySDK提供了優雅解決方案。
案例:哈囉智慧排程Faas改造
智慧排程是是兩輪領域的核心場景之一。我們每次去做排程的時候,會進行排程收益的核算,用調入收益減去調出損失,再減去排程成本。業務的峰谷波動明顯,計算量大,並且每個城市用的模型不一樣,模型非常多,適合Faas的落地。這裡我們做了定時預測的Faas化,特徵能力的Faas化和模型能力的Faas化。透過效果回收,我們發現IDC成本下降了35%,整體效能上升了20%。
我們的排程業務透過無感切換到 Serverless,有效利用 Serverless 免運維、強隔離、按量計費的特性,既實現了得叢集不用再為定時任務預留機器資源,同時在高峰期可以迅速大量擴容,提高了系統計算能力,讓業務的穩定性也有了很大的提升。
Faas與AI平臺的未來展望
Faas在更多應用場景落地
一是特徵平臺Faas化,特徵的冷熱分佈十分不均勻,當熱點特徵高峰期時需要整個服務擴容,存在資源浪費、擴容速度慢、資源搶佔等風險。二是內部管理後臺,很多後臺每天只有個別時段會有運營使用者使用,但機器卻7*24小時提供服務,可以用Faas的按需分配、縮容到0來提高資源利用率。三是定時能力,定時預測能力在某些時間點存在突增流量,且QPS能打到非常高,如果服務維度部署下,存在空閒期資源的極大浪費。
Faas在更多業務領域落地
一是智慧客服——聊天機器,智慧客服業務存在很多突發流量,比如使用者進入客服問答的隨機性很大,當輿情來臨時的客服流量激增,也非常適合Faas解決方案。二是智慧營銷——大促等突發流量,網際網路業務的發展離不開智慧化營銷手段,以電商為例,往往半月一小促,一月一大促,需要更靈活的資源排程方式支援營銷業務發展。三是IoT感測器資訊處理——各種語音精靈,IOT互動裝置絕大部分時間都處於待喚醒狀態,結合Faas縮容到0且能快速擴容的能力可以大幅提高資源利用率。
來自 “ 哈囉技術 ”, 原文作者:哈囉AI平臺;原文連結:http://server.it168.com/a2023/0420/6799/000006799884.shtml,如有侵權,請聯絡管理員刪除。
相關文章
- 哈囉一站式AI平臺在多端智慧的探索AI
- Flutter 在哈囉出行 B 端創新業務的實踐Flutter
- 哈囉前端Web Components最佳實踐前端Web
- 優酷弱網平臺落地實踐
- RocketMQ 千錘百煉--哈囉在分散式訊息治理和微服務治理中的實踐MQ分散式微服務
- “哈囉叫車”入局網約車領域 平臺低佣金為司機增收
- 一文讀懂得物雲原生AI平臺--KubeAI的落地實踐過程AI
- FaaS的簡單實踐
- K8S容器雲CaaS平臺的落地實踐K8S
- 大伽「趣」說AI:在多個場景中的AI落地實踐AI
- 中原銀行 AI 平臺建設實踐AI
- 搶跑IPO,哈囉出行很著急
- 京東掃描平臺EOS—JS掃描落地與實踐JS
- vivo AI 計算平臺的 ACK 混合雲實踐AI
- 公有云在中國實踐落地
- 中國移動磐舟磐基平臺基於KubeEdge的落地實踐
- 實時數倉在滴滴的實踐和落地
- JuiceFS 在大搜車資料平臺的實踐UI
- Nydus 在約苗平臺的容器映象加速實踐
- 案例實踐|Apache Pulsar 在移動雲智慧運維平臺的實踐Apache運維
- 獨家!哈囉擬收購網路小貸牌照
- Kafka 負載均衡在 vivo 的落地實踐Kafka負載
- TDengine 在蔚來能源系統的落地實踐
- Flink 在米哈遊的落地實踐
- TDengine在TCL空調能源管理平臺的實踐
- 融雲 IM 在 Electron 平臺上的設計實踐
- Kubernetes在宜信落地實踐
- vivo 製品管理在 CICD 落地實踐
- 容器技術在企業落地的最佳實踐
- 愛奇藝在服務網格方向的落地實踐
- Kerberos 身份驗證在 ChunJun 中的落地實踐ROS
- Type Script 在流程設計器的落地實踐
- 全鏈路壓測平臺(Quake)在美團中的實踐
- 事件驅動架構在 vivo 內容平臺的實踐事件架構
- Redis 在 vivo 推送平臺的應用與優化實踐Redis優化
- 動態執行緒池在轉轉平臺的實踐執行緒
- TiDB 在醫療保障資訊平臺的應用實踐TiDB
- 淺談因果推斷與在內容平臺的實踐