海量資料監控如何選擇儲存方案? 看轉轉、得物這些企業是怎麼做的

TDengine發表於2023-03-31

對於網際網路業務而言,為保證服務的穩定執行,就要時刻關注伺服器、服務呼叫、網路狀況等各項指標,單是監控資料就存在非常大的量級。為了應對這種挑戰,結合監控資料的特點,許多企業開始選擇符合業務需求的 ( ),以便更好地支援運維監控。

轉轉 x TDengine

“使用 TDengine 完成改造後,線上的監控狀態達到預期,滿足當前業務需求,目前執行非常穩定。且配合 Grafana後,每個域名的流量、連線數、響應時間等資訊都能夠實時監控到。無論是在成本、效能層面,還是在使用的便利性上,TDengine 都具有非常大的優勢,在我們的實踐中也得到了證明,尤其是成本管控上效果非常顯著。”

業務背景

轉轉的業務使用了 Nginx 作為反向代理,為保證代理層可用性,需要對 Nginx 進行實時狀態監控。在伺服器的基礎監控的選擇上,其將 OpenFalcon 逐步替換為夜鶯,對 Nginx 的 reqstat 監控最初也使用了這兩種。但是這兩大監控都有一個共同缺點,即在展示時有條數限制,導致域名數量和機器數量相乘後資料量增多的情況下,無法滿足需求。這種情況下,轉轉考慮對現有監控模組進行升級改造,重新進行資料庫選型,最終在對比 InfluxDB 及 TDengine 之後做出了選擇。

架構圖

海量資料監控如何選擇儲存方案? 看轉轉、得物這些企業是怎麼做的 - TDengine Database 時序資料庫


同程旅行 x TDengine

“聚焦到實際效果上,TDengine 資料寫入效能很強。原本我們的單套儲存系統需要 10 多臺高配機器,IO 平均 30% 最高 百分之百  的情況下才能寫完資料;現在只需要 7 臺機器,並且 CPU 消耗在 10% 左右、磁碟 IO 消耗在 1% 左右,這點非常的棒。同時,其資料讀取接入過程也很順利。使用 RESTful 介面後,結合 TDengine 自帶的強大聚合函式功能,很容易就能計算出想要的結果。”

業務背景

同程旅行有一套自研的基礎監控系統“夜鷹監控”。目前夜鷹監控使用情況為百萬級別 endpoint、億級 metric、每秒 200 萬併發寫入以及 2 萬併發查詢。其儲存元件基於 RRD 儲存,RRD 儲存雖然擁有很好的效能,卻也存在著一些問題——基於記憶體快取定期寫入 RRD,在機器重啟後會丟失部分資料。針對此問題,夜鷹監控做了很多高可用設計,但還是很難滿足業務需求。

隨著基礎監控系統接入指標的增長,目前 2 套儲存系統在資源消耗方面一直在增長,同時業務對監控也提出了更多的聚合計算功能要求。基於此,同程旅行需要從 InfluxDB、TDengine、Prometheus 等多款時序資料庫中尋找一個新的來代替現有的儲存系統,以減少運維成本。

架構圖

海量資料監控如何選擇儲存方案? 看轉轉、得物這些企業是怎麼做的 - TDengine Database 時序資料庫

得物 x TDengine

“目前 TDengine 承載了數百億資料,在生產環境執行平穩, CPU 使用率日常不到 1 % ,記憶體使用率穩定在 25 % 以下。大批次的寫入,耗時基本也能保持在 10 ms,屬於比較理想的範圍;不管是大資料量範圍的聚合查詢,還是指定查詢某一小區間內的全部資料,查詢效率都非常優異;在儲存上,我們的全量資料分散在三臺機器中,根據計算得知 TDengine 對於監控資料的壓縮率達 10 %,相當可觀。”

業務背景

作為一家網際網路電商公司,得物有許多系統和場景都需要做流量的監控和防護,一天就能夠產生數億資料,寫入速度達到萬 TPS ,該資料量級無法用傳統的關係型資料庫處理,亟需一款能夠承載大量的流量監控資料、並能對資料進行儲存和高效查詢的資料庫。在對比了 InfluxDB 、OpenTSDB 、Cassandra 等時序資料庫的效能後,其最終選擇 TDengine 。

架構圖

海量資料監控如何選擇儲存方案? 看轉轉、得物這些企業是怎麼做的 - TDengine Database 時序資料庫


浙商銀行 x TDengine

“我們儲存於 TDengine 中的資料主要為時序類資料,如CPU、記憶體使用率等系統執行資料,微服務呼叫、分散式鎖、資料庫操作處理時間,業務執行緒池、連線池等各類指標資料。目前微服務視覺化服務治理平臺對併發要求較高,但是 TDengine 可以很好地滿足需求,插入/查詢平均耗時均在 10ms 以內。”

業務背景

浙商銀行微服務視覺化治理平臺是基於 Java 體系自研的微服務治理監控平臺,為行內基於統一的微服務框架開發的應用提供全面、實時的微服務治理監控功能。在這樣的業務場景中,資料量大、監控指標繁雜成了主要挑戰,浙商銀行需要一款能高效處理時序資料的工具。在明確了核心訴求之後,其調研了包括 Apache Druid、InfluxDB 和 TDengine 在內的幾款典型時序資料庫,在對比後決定嘗試 TDengine。

架構圖

海量資料監控如何選擇儲存方案? 看轉轉、得物這些企業是怎麼做的 - TDengine Database 時序資料庫


結語

從上述企業的具體資料架構改造實踐中我們能夠看到,在應對海量時序資料的 IT 運維監控需求時,時序資料庫明顯要更加專業,在效能和成本管控上都上升了一個維度。而這些行業的頭部企業在眾多時序資料庫產品中都選擇了 TDengine,箇中原因從改造效果中也可見一斑,有同樣需求的小夥伴也可以透過閱讀具體的案例細節瞭解更多。TDengine 目前已經運營了幾十個使用者交流群,如果你有要進群溝通了解的需求,可以新增 小T微信:tdengine1。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70014783/viewspace-2942887/,如需轉載,請註明出處,否則將追究法律責任。

相關文章