在k8s中快速搭建基於Prometheus監控系統

架構成長指南發表於2023-12-29

公眾號「架構成長指南」,專注於生產實踐、雲原生、分散式系統、大資料技術分享

前言

K8s本身不包含內建的監控工具,所以市場上有不少這樣監控工具來填補這一空白,但是沒有一個監控工具有prometheus全家桶使用率高,因為它由 CNCF維護,已經成為了監控 k8s 叢集的事實上的行業標準,下面介紹一下如何在K8s快速部署一個kube-prometheus專案,來實現對k8s 相關資源監控與告警

kube-prometheus介紹

kube-prometheus是一個完整的監控解決方案,可以輕鬆地將其部署到 Kubernetes 叢集中,它包括以下內容

  1. Prometheus 用於度量收集

  2. Alertmanager 用於指標警報和通知

  3. Grafana 用於圖形使用者介面

  4. 一組特定於K8s的exporters,用作指標收集代理

  5. 使用 Prometheus Operator 來簡化和自動化該堆疊的設定

快速安裝

在將 kube-prometheus部署到 k8s 叢集之前,先確認與你的 k8s匹配的是版本,然後在下載

下載

執行kubectl version 檢視k8s 版本,下載對應版本

由於本人的 k8s 版本為 v1.25.13,所以下載kube-prometheus-0.12.0

wget https://github.com/prometheus-operator/kube-prometheus/archive/refs/tags/v0.12.0.zip

解壓

tar -zxvf kube-prometheus-0.12.0.zip & cd kube-prometheus-0.12.0

修改映象地址

由於網路原因,kube-state-metrics和prometheus-adapter映象地址,在國內無法下載,因此需要修改以下地址

vi manifests/kubeStateMetrics-deployment.yaml

image: bitnami/kube-state-metrics:2.7.0

vi manifests/prometheusAdapter-deployment.yaml

image: cloveropen/prometheus-adapter:v0.10.0

訪問配置

為了可以從外部訪問 PrometheusGrafanaAlertmanager,需要修改 service 型別為 NodePort 型別。

修改 Prometheus 的 service

vi manifests/prometheus-service.yaml

# 設定對外訪問埠,增加如下兩行
type: NodePort
nodePort: 31922

修改 Grafana 的 service

vi manifests/grafana-service.yaml

# 設定對外訪問埠,增加如下兩行
type: NodePort
nodePort: 30300

修改 Alertmanager 的 service

vi manifests/alertmanager-service.yaml

# 設定對外訪問埠,增加如下兩行
type: NodePort
nodePort: 30200

安裝

在kube-prometheus-0.12.0目錄下執行以下命令進行安裝

kubectl apply --server-side -f manifests/setup
kubectl apply -f manifests/

執行完成以後,訪問monitoring 空間,檢視部署狀態,可以看到啟動成功,並且都是高可用部署

kubectl get pods -n monitoring

驗證

Prometheus驗證

選一臺 node 節點ip+31922,即可訪問prometheus的 Web UI

Alertmanager驗證

選一臺 node 節點ip+30200,即可訪問alertmanager的 Web UI,可以看到有一些報警,由於alertmanager的報警配置比較複雜同時對國內的通訊工具支援有限,因此可以使用PrometheusAlert進行告警配置

Grafana驗證

選一臺 node 節點ip+30300,即可訪問grafana的 Web UI,預設使用者名稱密碼:admin/admin,登入會提示更改密碼,登入以後,可以看到已經內建了不少監控大盤

叢集資源監控

節點資源監控,可以看到當前節點部署了哪些 pod,以及對應的負載是多少

解除安裝

執行以下命令即可解除安裝相關元件

kubectl delete --ignore-not-found=true -f manifests/ -f manifests/setup

存在的問題

持久儲存

以上我們安裝未使用持久化儲存,所以如果Prometheus或者Grafana重啟,那麼採集的資料和自定義的儀表盤等資料會丟失,因此如果考慮在生產環境使用,需要把資料使用儲存卷掛載至檔案系統。

Grafana顯示時間問題

由於grafana預設時區是UTC,比中國時間慢了8小時,很不便於日常監控檢視,需要進行修改,如下圖

因此需要調整成中國時間,utc+8,替換grafana-dashboardDefinitions.yaml

sed -i '' 's/utc/utc+8/g' grafana-dashboardDefinitions.yaml
sed -i '' 's/UTC/UTC+8/g' grafana-dashboardDefinitions.yaml
grep -i timezone grafana-dashboardDefinitions.yaml

總結

以上我們介紹了什麼是kube-prometheus以及如何在k8s中快速部署kube-prometheus,後續會深入講解相關使用,同時在操作過程中如果有疑問,也歡迎關注我的公眾號進行技術交流,如果本篇文章對您有所幫助,麻煩幫忙一鍵三連(點贊、轉發、收藏)~

掃描下面的二維碼關注我們的微信公眾帳號,在微信公眾帳號中回覆◉加群◉即可加入到我們的技術討論群裡面共同學習。

相關文章