7年沉澱之作--滴滴Logi日誌服務套件
01 日誌服務面臨的挑戰
-
日誌採集能力:服務端、客戶端、Web、資料庫的日誌蒐集工作;
-
日誌ETL能力:日誌實時ETL、ETL鏈路監控,ETL鏈路質量度量;
-
日誌檢索能力:全文搜尋能力、日誌上下文還原能力;
-
日誌分析能力:Adhoc的日誌OLAP能力。
隨著日誌流量、日誌任務持續增加,使得“日誌時效性、運維友好性、服務穩定性、資料安全性”問題變得非常棘手,如:
-
需要支援物理機、虛擬機器、容器化場景,以服務粒度進行日誌採集;支援彈性動態擴縮容;
-
需要支援海量、數十萬Agent監控、運維、多版本管理;
-
需要支援共享多租戶分級保障模型;
-
需要針對任務級別提供豐富的指標,故障診斷和自愈能力。
2)日誌ETL階段面臨的挑戰
-
ETL語義表達要簡單清晰可運維,同時與底層基礎設施解耦,對SQL表達方式是強需求;
-
ETL鏈路涉及多個環節,各自有自己的指標體系,口徑不統一,問題定位與排查成本很高;
-
ETL鏈路涉及日誌儲存與計算,在Quota內端到端彈性擴縮能力充滿了技術挑戰。
3)日誌儲存面臨的挑戰
-
Kafka磁碟IO熱點導致的叢集生產消費雪崩;
-
Topic資源隔離差,流量突增、回溯消費,影響叢集穩定性;
-
Kafka有大量的叢集和topic的操作需要平臺來承接社群Kafka-Manager能力缺失。
4)日誌檢索麵臨的挑戰
-
ElasticSearch受制於元資訊瓶頸,叢集Shard數無法突破數十萬級,需要解決擴充套件性問題;
-
ElasticSearch叢集資源多租戶與查詢隔離體系的缺失,是穩定性的最大殺手;
-
ElasticSearch端到端立體化監控體系缺失,運維保障能力不足,需要解決運維友好性問題。
5)日誌分析面臨的挑戰
-
億級明細資料級的Adhoc查詢分析能力;
-
億級基數維度列高精去重場景能力的支撐;
-
端到端立體化監控體系的缺失,運維保障能力不足,需要解決運維友好性問題。
02 滴滴Logi日誌服務套件
-
服務保障的需要:全鏈路追蹤是穩定性保障的重要抓手;
-
業務運營的需要:A/B TEST、活動運營分析、端上使用者行為分析、精準營銷,對百MB/S日誌的秒級收容能力,TB級日誌的秒級搜尋能力強烈訴求;
-
業務安全的需要:識別攻擊源進行資產止損,安全審計與溯源,TB級別日誌Adhoc分析能力。
滴滴Logi日誌服務套件在滴滴內部經過7年多的沉澱打磨,針對日誌採集、日誌儲存、日誌計算、日誌檢索、日誌分析各個環節,在元件能力上PAAS化建設、在引擎穩定性與擴充套件性上進行針對性的最佳化,架構如下:
-
開源自主可控:Logi-Agent、Logi-LogX、Logi-KafkaManager、 Logi-ElasticSearchManager 各PAAS套件計劃全開源;
-
引擎穩定可靠:Agent 40MB/S的單任務採集效能,可控資源的隔離能力;LogX採集任務的實時ETL秒級延遲、計算效能的極致最佳化;滴滴kafka百GB/S的實時流量;滴滴ElasticSearch數十PB的索引儲存叢集穩定性99.95%;
-
服務運營沉澱:數十萬日誌服務任務端到端全鏈路保障日誌資料的及時性、完整性、可觀察性、運維友好性;資源的彈性排程與分級保障能力的產品化沉澱;
-
平臺專業易用:分鐘級完成日誌全鏈路的端到端自助接入;SQL模板+UDF的個性化清洗能力支援;百TB級資料秒級的檢索體驗。
》Logi-Agent介紹
》Logi-Kafka介紹
滴滴Kafka叢集規模500+,60GB/S的流量,共享多租戶大叢集場景的歷練(CPU利用率峰值30%,磁碟50%),SLA承諾99.95%,引擎基於2.5版本進行了40+特性增強,磁碟過載保護,分割槽動態遷移,業務執行緒隔離是滴滴特色功能,穩定性的重要抓手!
》Logi-LogX介紹
滴滴20000+StreamingSQL ETL 任務,單任務最大流量500MB/S,端到端ETL延遲90分位小於2Min,具備分鐘級動態擴縮容能力。
》Logi-ElasticSearch介紹
滴滴ElasticSearch叢集規模3500+,8PB儲存,共享多租戶大叢集(1000+例項,60W Shard,CPU利用率峰值45%,磁碟60% )場景的歷練。
03 滴滴Logi應用案例
滴滴Logi在滴滴內部服務的場景非常豐富,在故障定位、日誌分析、日誌服務、業務運營、安全審計、日誌資產、日誌大屏等場景都有深度實踐。
》LogInsight
LogInsight基於滴滴Logi的能力,主打雲端日誌儲存解決方案,針對雲化和容器化後面臨的日誌儲存與分析的訴求,提供了日誌冷備、資源管理、日誌檢索等能力。
-
顯著降低日誌使用、儲存成本全託管、彈性伸縮,免運維 冷備儲存,約0.02元/GB/月,顯著降低儲存開銷,支援1-365天自定義儲存時間;
-
快速發現、定位問題,提高業務穩定基於大資料流式計算實現介面效能與錯誤日誌的統計分析,提供介面呼叫關係、拓撲關係、上下游流量分析、服務錯誤定位、錯誤聚類等功能;
-
安全可靠可用性不低於99.9%,每天可處理上百TB日誌量 資料實時採集,分鐘級落盤,日誌儲存不丟失滿足日誌審計需求。
》魔鏡
-
場景化分析模型使用者留存分析,使用者軌跡分析,使用者畫像分析;
-
基礎服務能力核心指標可實時查當日資料,實時計算,秒級產生資料,大盤支援整合報表;
-
資料分析能力非研發人員可自建指標,支援多型別視覺化報表,支援資料匯出隨心分析,支援omega資料上報資料;
-
多產品滿意度調研支援多組織多產品結構,支援線上自動化配置,支援抽獎,提高參與度。
基於滴滴Logi日誌服務套件,滴滴Logi不僅能夠更好的滿足日誌場景企業普遍的運維可觀察性、應用可觀察性訴求,也能夠更好的滿足業務運營、安全審計、日誌分析、日誌挖掘等不同場景全方位的需求。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69992332/viewspace-2751076/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 日誌服務CLIETL-擴充套件UDF套件
- 日誌服務
- 基於業務沉澱元件 manage-table元件
- 基於業務沉澱元件 => manage-table元件
- 沉澱自己(此文無價)
- 出海休閒思考與沉澱
- 日誌服務之使用Nginx模式採集日誌Nginx模式
- Linux日誌服務初識Linux
- 日誌服務 HarmonyOS NEXT 日誌採集最佳實踐
- 日誌服務資料匯入
- 十年沉澱,重啟開發之路
- 清華辦 AI:除了洞見,更有沉澱AI
- 2018 沉澱 | 年終總結 | 掘金年度徵文
- DevOps雲翼日誌服務實踐dev
- 搭建node服務(1):日誌處理
- 日誌服務之告警接入與管理
- 『學了就忘』Linux日誌管理 — 91、日誌服務rsyslogd說明Linux
- 7 Redo Transport Services 日誌傳輸服務
- 使用Seq搭建免費的日誌服務
- 雲端日誌服務——UPLOG的實現
- logback接入到阿里雲sls日誌服務阿里
- IT小白也能輕鬆get日誌服務---使用Nginx模式採集日誌Nginx模式
- 幾類歷史資料沉澱的方案過渡
- asp.net core使用serilog將日誌推送到騰訊雲日誌服務ASP.NET
- 防火牆入侵於檢測————7、日誌服務防火牆
- Linux nohup 啟動服務且不輸出日誌Linux
- 使用 Nginx 構建前端日誌統計服務Nginx前端
- 日誌服務之資料清洗與入湖
- Linux-本地日誌服務管理(rsyslog基礎)Linux
- 阿里雲Kubernetes容器服務Istio實踐之整合日誌服務Log Service阿里
- 知識沉澱 | 遊戲互動設計經驗分享遊戲
- 批量匯入歷史檔案到日誌服務
- Windows服務使用log4net記錄日誌Windows
- 高效能、分散式、實時日誌服務 - TLog分散式
- 【ElasticSearch】 使用AWS雲ES服務來分析程式日誌Elasticsearch
- 泡沫過後,沉澱下來的AI晶片將落在何處?AI晶片
- 重新整理 .net core 實踐篇—————日誌系統之服務與日誌之間[十六]
- MySQL 事務日誌MySql