Faas在哈囉AI平臺的落地實踐

陶然陶然發表於2023-04-20

  為什麼哈囉AI平臺需要Faas

  AI平臺當前的痛點  

  一是運維複雜問題,AI平臺有多種不同語言的模型推理服務, 如python、C++(tf-serving)、Java等,各自管理上百個不同型別的模型;架構也很複雜,存在大型單體應用、多container應用、小型GPU應用等多種服務組織方式;同時,手動運維有餘,自動化工具不足。

  二是穩定性問題,成百上千模型集中式部署,存在明顯熱點問題,在應對一些突發流量的時候,自動伸縮速度也存在問題。同時,模型cpu、gpu資源競爭問題也困擾了我們。

  三是IDC成本問題,存在資源利用率低的問題,有很大的提升空間。

  AI平臺對新架構的訴求

  AI平臺分為線上服務域(決策、特徵)和模型訓練域(模型、訓練),模型平臺是模型訓練域的一個子域。

  我們希望Al平臺在應對突發流量時,可以快速響應,保持穩定的服務;對於低頻的模型,可以實現縮容到0;對於快速迭代的模型,可以方便進行AB灰度。同時我們希望成本可控、易於運維、易於部署。

  雲原生演進與Faas選型

  從K8s到Faas  

  Faas能給我們帶來極致彈性,可縮容至0;運維成本更低,帶來更低的開發複雜度和更好的運維效率。這與AI平臺的特點也是分不開的。模型是無狀態的,生命週期短,冷啟動時間短,業務需求變動快,開發週期短,流量零散而難預測,突發流量多。

  Faas技術選型  

  經過調研,最終花落Knative。Knative支援多元觸發,如Eventing/http/grpc觸發;同時帶來彈性擴縮容的能力,可以縮容到0;在AI平臺能帶來版本管理和流量分配的能力。

  Faas在模型平臺的落地實踐

  模型平臺Faas化

  模型平臺Faas化具有很大的價值。一是是平臺能力升級,支援大模型、GPU模型及更多模型型別;二是穩定性收益,透過熱點模型隔離,避免多模型混布,來更好的應對突發流量;三是人效收益,GPU模型、大模型全程演算法自助釋出;四是IDC降本收益,降低模型線上服務成本。

  模型Faas部署  

  我們的模型平臺是一個非常完備的平臺,無論是演算法同學還是工程同學,都可以模型平臺上方便的去上傳模型,管理模型的入參出參、模型的版本。我們要相容模型管理的能力,底層有很多異構,如python叢集、gpu叢集、pmml叢集和TF叢集等。針對這些異構,我們要用分叢集的方式把它變成faas同構的框架。上面有了模型的管理平臺,下面有了faas叢集,中間的核心是平臺路由的改造。當演算法和工程同學評估了模型的QPS,可以在平臺上勾選faas的一鍵部署,就能方便的部署到faas叢集裡,這樣就能降低運維成本。

  模型自動壓測&規格標準化  

  Faas部署很大程度上依賴服務本身的資源設定&彈性伸縮設定,適當的設定將極大的減少啟動時間、平滑彈性伸縮、最大程度節省資源。我們與壓測平臺合作,打造自動壓測能力,評估模型Pod資源和規格標準化,再呼叫雲原生Faas介面進行Faas部署。

  Faas冷啟動最佳化  

  Faas通用的痛點是冷啟動速度,我們在思考模型的啟動,能否有繼續提速的空間。於是就有了模型分發服務,它可以把一些模型資源預下載下來,從原來的150毫秒降低到10毫秒左右的單模型的啟動。

  Faas模型優雅預熱  

  深度大模型存在預熱不充分導致RT突增問題,我們基於Knative的版本管理、流量分配、藍綠部署等能力,結合自研GraySDK提供了優雅解決方案。

  案例:哈囉智慧排程Faas改造  

  智慧排程是是兩輪領域的核心場景之一。我們每次去做排程的時候,會進行排程收益的核算,用調入收益減去調出損失,再減去排程成本。業務的峰谷波動明顯,計算量大,並且每個城市用的模型不一樣,模型非常多,適合Faas的落地。這裡我們做了定時預測的Faas化,特徵能力的Faas化和模型能力的Faas化。透過效果回收,我們發現IDC成本下降了35%,整體效能上升了20%。

  我們的排程業務透過無感切換到 Serverless,有效利用 Serverless 免運維、強隔離、按量計費的特性,既實現了得叢集不用再為定時任務預留機器資源,同時在高峰期可以迅速大量擴容,提高了系統計算能力,讓業務的穩定性也有了很大的提升。

  Faas與AI平臺的未來展望

  Faas在更多應用場景落地

  一是特徵平臺Faas化,特徵的冷熱分佈十分不均勻,當熱點特徵高峰期時需要整個服務擴容,存在資源浪費、擴容速度慢、資源搶佔等風險。二是內部管理後臺,很多後臺每天只有個別時段會有運營使用者使用,但機器卻7*24小時提供服務,可以用Faas的按需分配、縮容到0來提高資源利用率。三是定時能力,定時預測能力在某些時間點存在突增流量,且QPS能打到非常高,如果服務維度部署下,存在空閒期資源的極大浪費。

  Faas在更多業務領域落地

  一是智慧客服——聊天機器,智慧客服業務存在很多突發流量,比如使用者進入客服問答的隨機性很大,當輿情來臨時的客服流量激增,也非常適合Faas解決方案。二是智慧營銷——大促等突發流量,網際網路業務的發展離不開智慧化營銷手段,以電商為例,往往半月一小促,一月一大促,需要更靈活的資源排程方式支援營銷業務發展。三是IoT感測器資訊處理——各種語音精靈,IOT互動裝置絕大部分時間都處於待喚醒狀態,結合Faas縮容到0且能快速擴容的能力可以大幅提高資源利用率。

來自 “ 哈囉技術 ”, 原文作者:哈囉AI平臺;原文連結:http://server.it168.com/a2023/0420/6799/000006799884.shtml,如有侵權,請聯絡管理員刪除。

相關文章