數字化時代,如何做好使用者體驗與應用效能管理

雲智慧技術社群發表於2022-11-24
雲智慧 AIOps 社群是由雲智慧發起,針對運維業務場景,提供演算法、算力、資料集整體的服務體系及智慧運維業務場景的解決方案交流社群。該社群致力於傳播 AIOps 技術,旨在與各行業客戶、使用者、研究者和開發者們共同解決智慧運維行業技術難題,推動 AIOps 技術在企業中落地,建設健康共贏的AIOps 開發者生態。

引言

隨著數字化時代的到來,各個行業的應用系統從傳統私有化部署逐漸轉向公有云、行業雲、微服務,這種變遷給運維部門和應用部門均帶來了較大的挑戰。基於當前企業 IT 運維均為多部門負責,且使用多種運維工具,因此,當業務出現問題時很難快速定位故障根源。而隨著業務上雲,雲平臺運維和應用運維的責任歸屬不同,業務方(租戶)只負責雲平臺之上運維,若是要對業務體驗全鏈路負責,就會導致有責任沒手段。同時,容器微服務架構應用後的業務之間的訪問關係更加複雜,也會產生應用出現故障後分析困難等問題。基於以上的背景,企業數字化時代應用的健康診斷變得至關重要。

問題及挑戰

如下圖,當程式碼量的增長達到100倍,故障被企業 IT 部門察覺前已由使用者申報達到80%時,作為企業會非常被動。使用者對服務超時非常敏感,當5秒打不開應用時便會直接選擇放棄。同時,使用者對故障解決時效要求也比較高,75%的使用者希望在5分鐘內解決業務故障,而業務系統需要超過24小時才能解決的故障佔比在25%左右。

應用是一個端到端的多技術棧複雜整合環境,使用者端包括移動端、瀏覽器、小程式,網路層包括路由器、防火牆和負載均衡等,後臺支撐應用包括中介軟體、資料庫、主機、MQ等。所以如何去高效精細化的實現整個應用端到端的全鏈路效能問題洞察和診斷、快速找到故障的邊界、以及特別是VIP使用者出現效能問題如何快速追蹤。這些應用的複雜度是企業運維部門和業務部門都需要考慮的問題。

傳統的監控工具早已無法滿足當前企業面臨的問題。因為一個應用會涉及到資料庫、第三方的API 呼叫、應用伺服器、中介軟體、Web、網路層等多個鏈路,因此,當系統慢是無法快速定位就是是拿個環節、元件以及指標導致。日常企業去判斷上述問題時,會需要網路團隊、開發團隊、資料庫團隊、基礎設施團隊等多方協助排查,且排查效率較低。

解決方案與功能場景介紹

基於以上問題與挑戰,雲智慧提供了全新一代架構的應用效能管理解決方案。以提升數字化使用者體驗,幫助企業實現數字化轉型賦能為目標,提供了web使用者、移動使用者、主動撥測、壓力測試前端側效能監控,同時貫穿網路層到後端各個元件的全棧一體化效能監控方案,包含Web伺服器支援IIS、Nginx等。此外,應用後端支援市面上主流的開發語言以及微服務容器架構,基於Smart Agent的探針技術,部署在容器宿主機上就可以自動發現容器內部應用拓撲關聯關係,實現整體的業務關聯快速分析和根因快速診斷。

產品技術架構

下圖為產品整體的技術架構,主要是分三層:

  • 資料採集層:APM產品支援市面上比較主流的開發語言,如Java、PHP、Python等。APP端支援 android 和 iOS 等各種版本。依賴主動撥測,基於全球IDC實現Monitor資料監測。
  • 資料儲存層:採集到的資料統一放到產品的資料儲存層進行資料儲存。雲智慧產品基於列式儲存的技術,在各行業專案上經過大量資料實踐,可以實現秒級查詢和展示。
  • 資料分析與展示層:該層主要提供了具體產品的相關功能。包括拓撲展示,請求分析、使用者追蹤,程式碼堆疊詳情分析,網頁效能分析,頁面響應時間分析、可用率分析等相關功能。

整個平臺提供告警通知功能及標準API介面,方便使用者其他業務系統呼叫資料進行應用。接下來,我們主要圍繞APM和撥測兩款產品的應用場景進行整體闡述。

監控寶:7*24小時主動IT效能監控

雲智慧撥測產品監控寶提供7*24小時主動IT效能監控;產品在全球範圍內大概有 300 家的 IDC 節點,提供 800 家的伺服器,IDC數量決定了資料反饋的全面性,可以有效保障業務在全球的使用者體驗;國內節點覆蓋30多個省份和100多個城市和地區,更能精準的定位問題所在區域。此外,也較為全面的覆蓋了多個運營商,包括移動、聯通、電信、教育四大運營商。以上三個維度,可以看出雲智慧監控寶產品可以為各行業企業提供業務保駕護航的能力。

監控寶平臺支援的協議包括http/https、ping、DNS、ftp、traceroute等,支援協議型別種類豐富,滿足企業多方面使用需求。功能包括網頁效能診斷、CDN評估效果、網路質量探測、網站訪問速度、介面服務可用率等。同時,整個產品支援多頁面指令碼錄製,方便企業在大型網站上提供多頁面監控能力,以及能夠快速發現深層次的頁面效能問題。

透視寶:端到端全鏈路應用效能診斷

雲智慧APM透視寶產品提供端到端全鏈路的應用效能診斷。使用者體驗端包括APP、瀏覽器、小程式的全棧效能分析和效能探測。後端支援應用拓撲的發現和程式碼質量的追蹤,真正做到端到端一體化,實時掌握前端、透視後端,實現全業務鏈環節問題監控與分析。

下圖為透視寶產品的技術實現原理, APP 端透過嵌入 SDK 實現使用者行為和 APP 崩潰卡頓資料的抓取;瀏覽器透過頁面嵌入 JS 方式實現頁面詳情的分析;主機作業系統透過部署 agent 實現 cpu、記憶體、網路、io等指標監測;應用後端根據不同開發語言部署不同的探針,在中介軟體啟動指令碼里注入引數,重啟應用後就可以實現資料的採集,小程式透過mini agent抓取相關資料。

應用場景介紹

  • 業務服務持續監測與告警

業務服務的持續監測和告警在一些網際網路企業當中經常會遇見。比如北京區域網站訪問是健康的,但其他區域網站訪問異常時,也會收到的其他區域使用者投訴。針對上述問題,由於目前各行業網站頁面載入時序元素複雜,外加整個頁面會有一些動畫圖片效果的呈現,所以需要能夠實時探測網站在中國區域到地市級別和區級別的監控的主動撥測產品。監控寶可監測不同運營商鏈路訪問網站速度、404相關錯誤,以及可透過IDC節點主動收集資料,幫助企業及時分析並主動探測業務問題。該場景主要應用於網際網路企業,電商企業,還有企業官網、線上教育等行業。

  • 內外網及網路專線質量監測與告警

企業內外網業務服務於全國。運營商網路不穩定的使用者投訴,分公司專線或 VPN 經常出現的各種問題,均會導致業務運營受到較大影響。 外網網路質量監測依託於雲智慧在全球 IDC 節點提供主動的 ping、MTR、traceroute網路探測,60秒的探測頻率可以讓問題被及時發現。針對內網專線的監測,雲智慧提供魔盒產品。類似機頂盒的小盒子,使用壽命長、無風扇設計、節能環保,直接部署在分公司資料中心機房中即可使用。該場景主要應用於醫療行業、電商、金融、政府軍工等集團企業。

  • 網頁使用者體驗分析與持續最佳化

隨著網站內容更加複雜化,大量元素載入耗時變長,首屏響應時間變得更加重要。如:當使用者點選二級頁面時會出現404錯誤或響應慢等現象,企業雖然做了 CDN 加速,在此情況下也很難確定加速的質量的好壞。然而在網際網路時代下,使用者對網頁的載入速度提出更高要求,出現網頁響應過慢或無法訪問則會導致使用者失去耐心而流失,以此便會給企業業務收入以及品牌均會帶來損失。基於上述問題,監控寶產品提供了多頁面指令碼錄製功能,可以模擬人點選操作所有頁面各個環節的效能診斷,及時發現元素效能問題。此外,基於企業同時使用多家 CDN 廠商導致具體加速質量難以判斷的現象,監控寶也提供了 CDN 整體效能評估功能,方便使用者做 CDN 廠商效能體驗對比。該場景主要應用在網站有豐富的大型logo/圖片/輪播要展示的企業,如汽車類、廣告展示類以及大量使用 CDN 服務商的企業。

  • 業務流程監測與最佳化

業務流程監測與最佳化主要解決業務呼叫第三方 API 介面效能問題。由於業務流程現狀複雜性,完整的網際網路或內部業務訪問需要經歷多重使用者認證,以及多個內部環節處理才能最終完成。任何一個環節出現問題都可能導致業務不能正常進行,以及使用者體驗不佳、滿意度下降,甚至出現使用者流失。所以需要監控寶幫助企業從業務視角準確感知整體業務的效能和質量狀況。該場景主要應用在使用第三方 API 服務的網際網路企業、關注使用者業務訪問過程及體驗的企業。

  • 應用拓撲自動發現與監控

全自動發現應用所有技術棧及其關聯關係可以幫助企業從宏觀視角把握一個應用及其關聯應用的整體狀態以及請求數、響應時間、錯誤等變化趨勢,以此快速定位各層級問題。

隨著企業應用上雲和容器微服務化,應用之間呼叫關係愈來愈複雜。全域性拓撲自動發現與監控是透過將複雜的請求呼叫關係拓撲圖化來幫助運維人員和業務開發人員快速定位效能問題。產品可以直觀的透過顏色變化分辨出是緩慢問題還是錯誤問題。同時拓撲上能發現各個元件的呼叫情況以及自身應用訪問的元件,資料庫、MQ、Nosql 和 API 介面情況。此外,透過拓撲可以直觀的判斷是自身應用問題還是其他應用效能導致的間接問題。此外,產品提供類似時光機的回溯功能,選擇一定時間範圍可以統計請求次數,緩慢次數、非常緩慢次數和錯誤次數。

  • 應用效能問題及故障快速診斷

隨著雲端計算、大資料、容器、微服務等技術在企業的廣泛採用,企業業務系統數量不斷增加,執行環境也愈加複雜,需要不斷根據市場環境和客戶需求的變化進行快速響應和迭代,不斷推出新的業務,減少業務故障風險,推動業務營收的增加;

第二個場景是應用效能問題及故障快速診斷,使用人員透過拓撲發現問題後需要第一時間定位問題,產品提供簡單直觀的操作介面,在拓撲圖上點選應用例項就可以快速跳轉到詳細問題分析介面,比如上面截圖的內容,可以看到後臺程式碼堆疊追蹤,慢SQL語句、外部介面詳情、自身耗時、請求引數等詳細分析問題的指標,效能問題一目瞭解,問題定位運籌帷幄。

  • 端到端全鏈路效能問題追蹤

目前企業業務都是透過APP、小程式或瀏覽器訪問,因此在使用 APM 產品排查分析前端各種崩潰、卡頓、網路等問題後還是不能解決業務慢的問題。然而此時更多的是支撐業務後端的應用產生了效能故障,企業該如何去快速判斷,精準的定位呢?雲智慧產品提供了前端頁面一鍵跳轉後端的串聯功能。如下方圖片所示,當業務在登陸時已經能看到體驗非常差,此時,在點選請求效能分析介面的檢視按鈕,便可以直接跳轉到後端程式碼分析詳情頁面。該操作的前提條件是監測應用已經注入探針,不然是無法實現的。該場景可以有效的把前端和後端打通,串聯追蹤。

案例分享

某銀行部署了 APM 整套產品,實現了應用後端整體效能監控,探針數量115個、接入應用數量225個、日均業務請求量1500tps、日均應用請求的落盤資料量150G左右。截止到現在平臺穩定7*24小時執行、探針對業務系統資源佔用率控制在3%以內。在大量請求併發的情況下,雲智慧基於列式儲存的技術架構,也能實現頁面妙級查詢和妙級響應。

寫在最後

近年來,在AIOps領域快速發展的背景下,IT工具、平臺能力、解決方案、AI場景及可用資料集的迫切需求在各行業迸發。基於此,雲智慧在2021年8月釋出了AIOps社群, 旨在樹起一面開源旗幟,為各行業客戶、使用者、研究者和開發者們構建活躍的使用者及開發者社群,共同貢獻及解決行業難題、促進該領域技術發展。

社群先後 開源 了資料視覺化編排平臺-FlyFish、運維管理平臺 OMP 、雲服務管理平臺-摩爾平臺、 Hours 演算法等產品。

視覺化編排平臺-FlyFish:

專案介紹:https://www.cloudwise.ai/flyF...

Github地址: https://github.com/CloudWise-...

Gitee地址: https://gitee.com/CloudWise/f...

行業案例:https://www.bilibili.com/vide...

部分大屏案例:

請您透過上方連結瞭解我們,新增小助手(xiaoyuerwie)備註:飛魚。加入開發者交流群,可與業內大咖進行1V1交流!

也可透過小助手獲取雲智慧AIOps資訊,瞭解雲智慧FlyFish最新進展!

相關文章