前端監控穩定性資料分析實踐 | 得物技術
1
背景
2
監控的原理
3
監控的實踐
3.1 頁面PV&UV監控場景
新功能上線效果分析:透過分析頁面業務功能模組PV相關資料,可以分析對應上新功能的使用情況。若發現部分功能客戶觸達率較低,就可以與業務溝通確認是功能設計問題還是上線功能布達問題,快速做出運營策略調整; 下線無用模組:透過頁面使用情況分析,對系統中訪問量比較少的頁面做了彙總分析,同產品運營確定之後,對線上客服管理系統和工單管理系統中的9個頁面做了下線處理,減少了頁面的維護成本; 支撐技術改造優先順序策略:在技術棧遷移的過程中,可以優先對訪問量比較高的頁面進行遷移,一般頁面訪問量高的對應的需求迭代也比較頻繁,透過頁面訪問排序,按優先順序去做遷移可以提升整體投入的ROI; 助力系統體驗最佳化:透過分析較高PV頁面使用者訪問鏈路,將取消訂單、建立賠付單等需要高頻但需要開啟其他頁面操作的功能整合到客服聊天頁座席助手模組,提升客服的工作效率。
3.2 JS錯誤率監控
提升系統穩定性: 總計處理41個JS指令碼異常治理,過程中發現異常業務場景並進行專項治理,很大程度上提升系統的穩定性。 發現隱藏問題:透過監控發現JS錯誤數增加,排查發現數量正在上升,實時聯絡一個正在觸發報錯的客服遠端,發現是接入的三方SDK釋出新版版本,在特殊情況會出現報錯,及時同步對應的三方同學進行改正,有效避免因外部依賴釋出帶來的隱藏問題。
3.3 API請求最佳化
下線不必要呼叫:排查過程中發現部分埋點呼叫頻次很高,但是實際報表資料並未運用起來,與業務溝通後發現為歷史遺留邏輯,目前已無用,所以進行下架。減少不必要的介面呼叫,釋放更多的瀏覽器請求資源。 減少冗餘呼叫:共治理介面高頻呼叫治理呼叫 5 個,透過分析發現部分非核心功能的介面呼叫量較大,程式碼走讀發現此部分介面為實時性要求不高列舉列表的介面,可以透過前端快取的方式減少介面呼叫次數,從而提高使用者切換會話效率和減少伺服器的呼叫壓力。 最佳化技術方案:客服一站式工作臺存在長鏈和短鏈呼叫結合的情況,在我們日常監控分析中發現部分短連結口呼叫量大。經過程式碼走查和呼叫鏈路分析發現由於業務功能需要,只要客服切換會話,就會拉取當前會話最近五條訊息發起短鏈請求,造成切換會話會有卡頓感,同時很容易出現由於短鏈併發較多,頻繁切換回話後會出現串線的情況。所以與後端溝通後,將原先技術方案內的短鏈呼叫改為長鏈訊息推送,很大程度上減少介面呼叫和訊息不實時的情況,提升使用者體驗和系統穩定性。
3.4 靜態資源載入異常最佳化
圖片資源載入異常:隨著一站式工作臺的業務擴充,陸續支援等其他租戶的客戶進線。業務上線後,我們透過監控發現資源錯誤數量出現上漲,排查後確認由於商品圖片等資源都是配置的CDN地址,需要BPO職場開通網路白名單客服才可以看到指定的圖片資源。透過監控快速定位對應的職場,同步對應的職場IT負責人進行處理。 運營配置錯誤地址修正:透過監控資料分析,發現不少報錯的靜態資源地址中有飛書內網地址和竹間遷移遺留資源的情況,內網地址外網是無法開啟的,會給客服帶來不少困擾。經確認為運營遷移過程中存在遺漏造成,聯絡對應的運營同學進行專項治理,及時減少問題影響面。
3.5 頁面載入效能最佳化
e_product_finish【總耗時ms】: 商品詳情頁面開啟到所有資源均載入完成(包含圖片與請求)耗時 e_product_loadImg【載入圖片耗時ms】:介面請求回來到所有圖片載入完成耗時 e_product_loadAndfetch【請求耗時ms】:商品詳情頁面載入靜態資源&&發起請求耗時
4
監控的成效
4.1 線上TS問題的減少
4.2 潛在問題的發現
4.3 推進客服職場工作臺執行環境的穩定
4.4 核心效能指標的監控
近7天工單詳情頁面渲染趨勢:
近7天訂單詳情頁面渲染趨勢:
我們也對訊息接收與傳送耗時核心鏈路做了重構,目前也沒有反饋訊息接收和傳送耗時帶來的延遲卡頓問題。
對於接收訊息的告警我們只會對超過700毫秒的時候做告警,因為大部分的訊息接收和傳送都在100毫秒以內,客服是無感知的。
5
總結
客服各系統自接入監控至今也有半年多的時間,監控是我們系統釋出上線的定心丸,同時透過監控資料也能夠幫助我們看出不少系統存在的問題,為我們的系統穩定性提升以及系統體驗最佳化做出不少貢獻。好訊息是我們得物自研監控平臺也正逐步建設完善中,目前前端平臺、穩定性監控平臺和效率工程一起協作開發的前端監控產品初版已經完成,客服前端這邊也逐步將應用遷移至自研的監控平臺,相信隨著自研監控能力的的不斷完善,我們能夠在前端監控這一塊取得更好的成績。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70024924/viewspace-2937815/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 前端監控穩定性資料分析實踐|得物技術前端
- 下單穩定性治理 | 得物技術
- 得物技術 NOC—SLA C 端業務監控實踐
- 從0到1,億級訊息推送的穩定性保障|得物技術
- 從0到1,億級訊息推送的穩定性保障 | 得物技術
- 貨拉拉技術穩定性體系1.0建設實踐
- 得物技術多興趣召回模型實踐模型
- 前端異常監控實踐前端
- 得物技術時間切片的實踐與應用
- 大資料技術 - 監控預警大資料
- 資料分層:打造資料資產管家|得物技術
- 得物技術網路優化-CDN資源請求優化實踐優化
- 前端監控 SDK 的一些技術要點原理分析前端
- 商家視覺化埋點探索和實踐|得物技術視覺化
- 搜尋引擎分散式系統思考實踐 |得物技術分散式
- 訂單流量錄製與回放探索實踐|得物技術
- Java效能測試利器:JMH入門與實踐|得物技術Java
- SpEL應用實戰|得物技術
- GMTC 大前端時代前端監控的最佳實踐前端
- 前端資料監控到底在監控什麼?前端
- 得物直播低延遲探索 | 得物技術
- 微前端在得物客服域的技術實踐/ 那麼多微前端框架,為啥我們選Qiankun + MF前端框架
- 前端監控進階篇 — Sentry 監控 Next.js 專案實踐前端JS
- 得物App ANR監控平臺設計APP
- 前端監控(效能/資料/異常)前端
- 前端技術演進(六):前端專案與技術實踐前端
- 得物技術埋點自動化驗證的探索和最佳實踐
- Kubernetes監控實踐
- 得物App資料模擬平臺的探索和實踐APP
- 騰訊資料治理技術實踐
- 深入理解Sora技術原理|得物技術Sora
- 一文搞懂得物前端監控前端
- 虛擬執行緒原理及效能分析|得物技術執行緒
- R8疑難雜症分析實戰 - 類反射篇|得物技術反射
- 得物前端喚端業務場景和技術精講前端
- 宜信智慧監控平臺建設實踐|宜信技術沙龍
- iOS應用效能監控與分析技術深度解析iOS
- DartVM GC 深度剖析|得物技術DartGC