技術基礎 | 重要指標和告警

DataStax發表於2020-12-12

原文網址 : https://www.cnblogs.com/datastax/p/14126599.html

本文節選自DataStax Cassandra文件，點選這裡檢視更多相關資訊。

監控Apache Cassandra®和DataStax Enterprise（DSE）叢集是一項非常重要的工作，它幫助您識別叢集中的問題並及時地應對並緩解問題。

Apache Cassandra和DSE都公開了用於觀察和分析的指標。Cassandra通過使用Java管理擴充套件（Java Management Extensions，即JMX）公開了各種指標、允許臨時的配置更改（如更改壓實操作的吞吐量），並支援操作的執行（如觸發壓實操作）。nodetool和其他Cassandra工具也使用JMX。Cassandra文件中描述了不同型別的公開指標。

注意：JMX是Java中的一項技術，它提供了用於管理和監控應用程式的工具。

您可以使用以下工具來收集指標以進行分析：

使用JMX的一次性分析工具，包括JConsole、jmxterm和nodetool sjk，我們會在下面介紹。
DSE OpsCenter使用JMX收集指標並將其儲存在DSE中，並將這些指標用於視覺化和告警。指標收集功能要求DataStax Agent已經在DSE節點上執行。
DSE Metrics Collector通過collectd從DSE和其他實體（例如CPU和磁碟）收集指標。
DSE Metrics Collector還通過collectd外掛與不同的監控系統整合。例如，您可以將指標資料暴露給Prometheus並通過Grafana使用預定義的監控圖表(predefined dashboard)視覺化。由於指標資料是直接暴露的，您不需要在節點上執行OpsCenter的DataStax Agent。
用於Apache Cassandra的Metrics Collector（即MCAC）與Prometheus和Grafana（也包含預定義的監控圖表）提供與DSE Metrics Collector相同的功能。
如果需要使用跟像是Prometheus這樣的監控系統整合的外部工具（比如JMX Exporter for Prometheus）或其他監控工具，可能需要進行其他調整或需要自行建立監控圖表。

使用以上的任何一種方法，您都會獲得很多資訊。每個鍵空間(keyspace)大約有40個監控資料，每個資料庫表有60至70個監控資料，另外不同的子系統還擁有更多的監控資料。本文旨在提供這方面的指導，幫助大家理解其中最重要的一些指標。

您需要監視什麼？

需要監控的重要指標可以分為幾組：

與客戶請求相關的指標：從客戶端程式的角度來看，系統的效能如何。
- 協調節點(Coordinator)層級上的讀寫操作延遲，尤其要關注P95和P99個百分位。
- 客戶端連線數。
與處理資料並執行不同任務的執行緒池相關的監測資料：比如壓實和資料的flush。
- 多少個執行緒處於阻塞(blocked)狀態。例如：memtable flush writer、memtable池分配等。
- 多少個執行緒處於棄用(aborted)狀態，例如棄用的壓實。
- 有多少個執行緒處於待發生(pending)狀態，例如待發生的壓實和待發生的flush。
與Thread-per-Core（即TPC）相關的指標。

僅適用於DSE 6.0及更高版本。

與各個表相關的指標：跟蹤最重要的表的這些指標非常有用，這樣就可以確保滿足SLA的要求，並避免出現問題。
- 分割槽大小。
- SSTable的整體數量。
- 每個請求讀取的SSTable數。
- 讀取請求掃描的墓碑數。
- 協調節點層級上的讀寫延遲。
與叢集間通訊有關的指標：這些指標提供關於叢集中的資料交換的資訊——資料複製(Replication)、Hinted Handoff等：
- 丟失的資料變更和其他訊息的數量。
- 超時的總次數和每個主機的超時次數。
- 跨資料中心延遲。
- 磁碟上的hints數量。
- hints重傳（失敗和超時的hint資訊的數量）。
與Java虛擬機器（JVM）相關的指標：
- 記憶體的使用量。
- 垃圾回收引起的暫停時長。
與作業系統和硬體有關的指標：
- 節點的CPU使用率。
- 可用的磁碟空間。