7年沉澱之作--滴滴Logi日誌服務套件

Obsuite發表於2021-01-19
7年沉澱之作--滴滴Logi日誌服務套件

01 日誌服務面臨的挑戰

隨著中美摩擦的升級,國內開源文化的興起,各大網際網路公司以及各行業頭部企業,紛紛走向開源、安全、自主、可控的發展路線。基於開源引擎 Kafka/ElasticSearch,構建了日誌基礎設施的基礎架構共識:

7年沉澱之作--滴滴Logi日誌服務套件


  • 日誌採集能力:服務端、客戶端、Web、資料庫的日誌蒐集工作;
  • 日誌ETL能力:日誌實時ETL、ETL鏈路監控,ETL鏈路質量度量;
  • 日誌檢索能力:全文搜尋能力、日誌上下文還原能力;
  • 日誌分析能力:Adhoc的日誌OLAP能力。


隨著日誌流量、日誌任務持續增加,使得“日誌時效性、運維友好性、服務穩定性、資料安全性”問題變得非常棘手,如:

1)日誌採集階段面臨的挑戰
  • 需要支援物理機、虛擬機器、容器化場景,以服務粒度進行日誌採集;支援彈性動態擴縮容;
  • 需要支援海量、數十萬Agent監控、運維、多版本管理;
  • 需要支援共享多租戶分級保障模型;
  • 需要針對任務級別提供豐富的指標,故障診斷和自愈能力。


2)日誌ETL階段面臨的挑戰

  • ETL語義表達要簡單清晰可運維,同時與底層基礎設施解耦,對SQL表達方式是強需求;
  • ETL鏈路涉及多個環節,各自有自己的指標體系,口徑不統一,問題定位與排查成本很高;
  • ETL鏈路涉及日誌儲存與計算,在Quota內端到端彈性擴縮能力充滿了技術挑戰。


3)日誌儲存面臨的挑戰

  • Kafka磁碟IO熱點導致的叢集生產消費雪崩;
  • Topic資源隔離差,流量突增、回溯消費,影響叢集穩定性;
  • Kafka有大量的叢集和topic的操作需要平臺來承接社群Kafka-Manager能力缺失。


4)日誌檢索麵臨的挑戰

  • ElasticSearch受制於元資訊瓶頸,叢集Shard數無法突破數十萬級,需要解決擴充套件性問題;
  • ElasticSearch叢集資源多租戶與查詢隔離體系的缺失,是穩定性的最大殺手;
  • ElasticSearch端到端立體化監控體系缺失,運維保障能力不足,需要解決運維友好性問題。


5)日誌分析面臨的挑戰

  • 億級明細資料級的Adhoc查詢分析能力;
  • 億級基數維度列高精去重場景能力的支撐;
  • 端到端立體化監控體系的缺失,運維保障能力不足,需要解決運維友好性問題。

02 滴滴Logi日誌服務套件

伴隨著企業數字化轉型、業務全面上雲的程式,微服務、容器化等技術的快速發展,業務對穩定、易用的日誌基礎設施提出了三大迫切需求:
  • 服務保障的需要:全鏈路追蹤是穩定性保障的重要抓手;
  • 業務運營的需要:A/B TEST、活動運營分析、端上使用者行為分析、精準營銷,對百MB/S日誌的秒級收容能力,TB級日誌的秒級搜尋能力強烈訴求;
  • 業務安全的需要:識別攻擊源進行資產止損,安全審計與溯源,TB級別日誌Adhoc分析能力。


滴滴Logi日誌服務套件在滴滴內部經過7年多的沉澱打磨,針對日誌採集、日誌儲存、日誌計算、日誌檢索、日誌分析各個環節,在元件能力上PAAS化建設、在引擎穩定性與擴充套件性上進行針對性的最佳化,架構如下:

7年沉澱之作--滴滴Logi日誌服務套件
具有如下優勢:
  • 開源自主可控:Logi-Agent、Logi-LogX、Logi-KafkaManager、 Logi-ElasticSearchManager 各PAAS套件計劃全開源;


  • 引擎穩定可靠:Agent 40MB/S的單任務採集效能,可控資源的隔離能力;LogX採集任務的實時ETL秒級延遲、計算效能的極致最佳化;滴滴kafka百GB/S的實時流量;滴滴ElasticSearch數十PB的索引儲存叢集穩定性99.95%;


  • 服務運營沉澱:數十萬日誌服務任務端到端全鏈路保障日誌資料的及時性、完整性、可觀察性、運維友好性;資源的彈性排程與分級保障能力的產品化沉澱;


  • 平臺專業易用:分鐘級完成日誌全鏈路的端到端自助接入;SQL模板+UDF的個性化清洗能力支援;百TB級資料秒級的檢索體驗。

》Logi-Agent介紹

Logi-Agent致力於打造企業級的資料採集平臺,負責公司多端、多型資料的採集,架構如下:
7年沉澱之作--滴滴Logi日誌服務套件
滴滴Logi-Agent線上規模10W部署節點,130GB/s的日誌採集量,20000+日誌採集任務,單任務最大采集能力40MB/S。

》Logi-Kafka介紹

基於使用者、研發、運維不同視角的高頻場景PAAS化,提升運維友好性、引擎可觀察性、使用者便利性,已開源 500+免費使用者。
7年沉澱之作--滴滴Logi日誌服務套件


滴滴Kafka叢集規模500+,60GB/S的流量,共享多租戶大叢集場景的歷練(CPU利用率峰值30%,磁碟50%),SLA承諾99.95%,引擎基於2.5版本進行了40+特性增強,磁碟過載保護,分割槽動態遷移,業務執行緒隔離是滴滴特色功能,穩定性的重要抓手!

》Logi-LogX介紹

LogX面向服務以MB/S作為Quota的單位,以SreamingSQL+UDF作為ETL表達載體,支援以Quota為單位的動態擴、縮容能力,以任務為單位,構建通道端到端效能、及時性、完整性指標體系。
7年沉澱之作--滴滴Logi日誌服務套件


滴滴20000+StreamingSQL ETL 任務,單任務最大流量500MB/S,端到端ETL延遲90分位小於2Min,具備分鐘級動態擴縮容能力。

》Logi-ElasticSearch介紹

業界最專業的ElasticSearch-Manager,基於使用者、研發、運維不同視角的高頻場景PAAS化,沉澱了全託管特色的索引服務。
提供了基於索引模板的容量規劃特性,叢集磁碟利用率30%→65%,開源準備中。
自研ElasticSearch-GateWay,提供跨叢集訪問,多版本相容,租戶定義與安全,DSL稽核與分析等重大擴充實用特性,支撐了滴滴50億次/天的資料讀取,1200W/S的資料寫入,是ES引擎平滑升級2.3.3->6.6.1->7.6.1的基石元件。
7年沉澱之作--滴滴Logi日誌服務套件


滴滴ElasticSearch叢集規模3500+,8PB儲存,共享多租戶大叢集(1000+例項,60W Shard,CPU利用率峰值45%,磁碟60% )場景的歷練。

SLA承諾99.95%,引擎基於7.6.1版本進行了150+特性增強,寫入效能是社群版本2倍。
FastIndex 50TB索引1小時完成構建,已開源。
自研DCDR,提供了叢集間索引高可用的能力,為線上50+主搜場景提供了異地多活的能力,累積向ES社群貢獻 30+PR。

03 滴滴Logi應用案例

7年沉澱之作--滴滴Logi日誌服務套件


滴滴Logi在滴滴內部服務的場景非常豐富,在故障定位、日誌分析、日誌服務、業務運營、安全審計、日誌資產、日誌大屏等場景都有深度實踐。

限於篇幅接下來會圍繞著日誌服務LogInsight和業務運營魔鏡這兩個方面詳細展開,分析基於滴滴Logi能夠產生的業務價值。

》LogInsight

7年沉澱之作--滴滴Logi日誌服務套件


LogInsight基於滴滴Logi的能力,主打雲端日誌儲存解決方案,針對雲化和容器化後面臨的日誌儲存與分析的訴求,提供了日誌冷備、資源管理、日誌檢索等能力。

  • 顯著降低日誌使用、儲存成本
    全託管、彈性伸縮,免運維 冷備儲存,約0.02元/GB/月,顯著降低儲存開銷,支援1-365天自定義儲存時間;


  • 快速發現、定位問題,提高業務穩定
    基於大資料流式計算實現介面效能與錯誤日誌的統計分析,提供介面呼叫關係、拓撲關係、上下游流量分析、服務錯誤定位、錯誤聚類等功能;


  • 安全可靠
    可用性不低於99.9%,每天可處理上百TB日誌量 資料實時採集,分鐘級落盤,日誌儲存不丟失滿足日誌審計需求。

》魔鏡

7年沉澱之作--滴滴Logi日誌服務套件
魔鏡是專業的場景化使用者行為智慧分析平臺,提供從資料採集、儲存、計算、分析到運營推廣的全流程解決方案。
  • 場景化分析模型
    使用者留存分析,使用者軌跡分析,使用者畫像分析;


  • 基礎服務能力
    核心指標可實時查當日資料,實時計算,秒級產生資料,大盤支援整合報表;


  • 資料分析能力
    非研發人員可自建指標,支援多型別視覺化報表,支援資料匯出隨心分析,支援omega資料上報資料;


  • 多產品滿意度調研
    支援多組織多產品結構,支援線上自動化配置,支援抽獎,提高參與度。


基於滴滴Logi日誌服務套件,滴滴Logi不僅能夠更好的滿足日誌場景企業普遍的運維可觀察性、應用可觀察性訴求,也能夠更好的滿足業務運營、安全審計、日誌分析、日誌挖掘等不同場景全方位的需求。

滴滴Logi的整體開源計劃如下,歡迎大家關注。

7年沉澱之作--滴滴Logi日誌服務套件




來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69992332/viewspace-2751076/,如需轉載,請註明出處,否則將追究法律責任。

相關文章