部署Prometheus Operator完整流程及踩坑解決思路

王又又的锅發表於2024-05-13

原文網址 : https://www.cnblogs.com/wxwbblog/p/18185045

環境資訊

軟體	版本號
Linux	Centos7.9
k8s	v1.26.9
Docker	25.0.4
kube-prometheus	v0.13.0
nginx-ingress-controller	v1.10.1

K8S叢集資訊(提前安裝好自己的叢集，本文不再講解叢集的安裝)

主機名	IP
k8s-master	192.168.2.11
k8s-node01	192.168.2.12
k8s-node02	192.168.2.13

一、安裝Prometheus Operator

版本選擇-複製下載地址下載到本地
wget https://github.com/prometheus-operator/kube-prometheus/archive/refs/tags/v0.13.0.tar.gz

github下載比較慢，可以用代理的加速地址,我這邊用的 wget https://mirror.ghproxy.com/https://github.com/prometheus-operator/kube-prometheus/archive/refs/tags/v0.13.0.tar.gz

可自行選擇版本,版本對照如圖：https://github.com/prometheus-operator/kube-prometheus/releases

1.解壓進入目錄：

tar -zxvf v0.13.0.tar.gz && cd kube-prometheus-0.13.0/manifests

第一個坑：國內無法訪問registry.k8s.io，需替換資源清單內帶使用倉庫映象的地址。

網上有說用bitnami倉庫也有用registry.aliyuncs.com/google_containers的，從這兩個倉庫我都pull失敗了，最用docker search找到了說是從官方sync的映象，測試環境也就不管了直接使用

2.替換映象地址

替換映象地址

sed -i 's#registry.k8s.io/kube-state-metrics#jerrymei#' kubeStateMetrics-deployment.yaml
sed -i 's#registry.k8s.io/prometheus-adapter#jerrymei#' prometheusAdapter-deployment.yaml

3.部署prometheeus

部署prometheeus

kubectl apply --server-side -f ./setup
kubectl create -f ./

也可以先下載下來重打tag，那樣需要把映象的下載模式imagePullPolicy從Always改成IfNotPresent（預設好像是用的Always，我沒看到配置檔案中存在imagePullPolicy的配置資訊，可以在部署後使用命令修改 kubectl -n monitoring get deploy 找到相應deploy在使用kubectl -n monitoring edit deploy <YOUR DEPLOY NAME>）

4.使用ingress提供外部訪問

k8s需要安裝ingress controller,我這裡選擇的是ingress-nginx controller
已安全裝，或者選擇其他ingress controller可跳過或參考官方文件：https://v1-26.docs.kubernetes.io/zh-cn/docs/concepts/services-networking/ingress-controllers/

1.安裝ingress-nginx controller，也可透過helm部署具體可參考官方文件

kubectl apply -f https://raw.githubusercontent.com/kubernetes/ingress-nginx/controller-v1.10.1/deploy/static/provider/cloud/deploy.yaml

###ingress控制器pod可能出現image下載失敗，可先下載該yaml檔案，修改image為 registry.cn-hangzhou.aliyuncs.com/google_containers/nginx-ingress-controller:v1.10.1 版本可根據實際情況更換

2.部署一個ingerss

kubectl apply -f ingress-prometheus.yaml

ingress-prometheus.yaml

apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  namespace: monitoring
  name: ingress-monitoring
spec:
  ingressClassName: nginx
  rules:
  - host: "www.prometheus.com"
    http:
      paths:
      - pathType: Prefix
        path: "/"
        backend:
          service:
            name: prometheus-k8s
            port:
              number: 9090
  - host: "www.grafana.com"
    http:
      paths:
      - pathType: Prefix
        path: "/"
        backend:
          service:
            name: grafana
            port:
              number: 3000
  - host: "www.alertmanager.com"
    http:
      paths:
      - pathType: Prefix
        path: "/"
        backend:
          service:
            name: alertmanager-main
            port:
              number: 9093

二.本機測試訪問（防火牆和selinux處於關閉狀態）

kubectl get ingress -n monitoring

內網測試域名，需要將host修改為服務實際配置的host

curl -H "host: www.prometheus.com" 10.99.98.214
curl -H "host: www.grafana.com" 10.99.98.214
curl -H "host: www.alertmanager.com" 10.99.98.214

全部提示：504 Gateway Time-out

第二個坑，直接curl ingres的ClusterIP報504，以下為排查思路

kubectl get pods -n monitoring -owide
kubectl get svc -n monitoring

1.排查ipvs負載規則，svc到pod規則正常
ipvsadm -L -n | egrep "3000\s"

2.進入pod，curl服務正常，任意pod中互相訪問正常，prometheus、grafana、altermanerge服務正常

kubectl -n monitoring exec -it grafana-79f47474f7-hxjh9 /bin/bash

2.直接訪問svc和後端服務pod的ClusterIP，都無響應無響應

3.透過port-forward將本地埠分別轉發到svc和pod，均訪問正常。

kubectl port-forward --address=0.0.0.0 svc/grafana 3000 -nmonitoring

kubectl port-forward --address=0.0.0.0 pod/grafana-79f47474f7-hxjh9 3000 -nmonitoring

4，最後還是透過一個帖子（https://zhuanlan.zhihu.com/p/624478715）發現問題：

解決方法：Prometheus Operator 預設設定了 NetworkPolicy，需要手動刪除後才能訪問

kubectl delete -f manifests/prometheus-networkPolicy.yaml
kubectl delete -f manifests/grafana-networkPolicy.yaml
kubectl delete -f manifests/alertmanager-networkPolicy.yaml

思考：如果是因為networkPolicy的ingress規則導致的無法訪問，很好奇透過port-forward轉發到svc可以訪問，透過svc的ClusterIP卻無法訪問，這裡對k8s的網路理解的還不夠啊。

既然是networkPolicy的規則導致的，這裡檢視了三個服務的networkPolicy檔案，如果不打算解除安裝networkPolicy，應該也也可以在ingress-nginx contronaller的yaml檔案中新增networkPolicy允許透過的lable(未進行測試)

或者也可以透過修改三個服務的networkPolicy規則，為其新增ingerss-contronller已存在的labels（已測試成功）
app.kubernetes.io/name: ingress-nginx

根據推測嘗試修改grafana的networkPolicy

kubectl get networkPolicy -n monitoring
kubectl edit networkPolicy -n monitoring grafana

curl -H "host: www.grafana.com" 10.99.98.214

參考文件:

kubernetes官網ingress:
https://v1-26.docs.kubernetes.io/zh-cn/docs/concepts/services-networking/ingress/
kube-prometheus github地址：
https://github.com/prometheus-operator/kube-prometheus
ingress-nginx 官方地址：
https://kubernetes.github.io/ingress-nginx/deploy/

其他：
https://zhuanlan.zhihu.com/p/624478715
https://cloud.tencent.com/developer/article/2327634

Prometheus-Operator使用ServiceMonitor監控配置時遇坑與解決總結
2023-05-05
Prometheus
Redis 叢集部署及踩過的坑
2018-03-13
Redis
vue npm 搭建專案流程及備忘及不踩坑
2018-05-11
VueNPM
golang定時任務踩坑及終極解決方案
2019-10-05
Golang
Sentry 部署踩坑記
2019-04-02
Python之列表的append()方法最容易踩的坑及解決
2023-03-28
PythonAPP
puppetter安裝就踩坑-解決篇
2018-09-13
容器雲平臺監控告警體系（三）—— 使用Prometheus Operator部署並管理Prometheus Server
2023-03-31
PrometheusServer
Quay v3.5.1 部署踩坑
2022-01-12
Prometheus-operator新增basic auth
2024-07-19
Prometheus
Spring Boot 容器化踩坑與解決方案（1）
2019-04-18
Spring Boot
使用 Prometheus-Operator 監控 Calico
2020-06-29
Prometheus
Prometheus Operator自定義監控項
2020-11-30
Prometheus
vue+iframe使用及踩坑
2024-05-29
Vue
iOS自動化打包部署踩坑記
2019-04-06
iOS
踩坑指南：入門OpenTenBase之部署篇
2024-04-10
ONNX模型轉Openvino部署踩坑記錄
2020-11-08
模型
Solr 部署與使用踩坑全記錄
2019-06-21
Solr
django專案部署到centos，踩的坑
2021-07-11
DjangoCentOS
伺服器重新部署踩坑記
2020-11-29
伺服器
Prometheus Operator 教程：根據服務維度對 Prometheus 分片
2020-08-10
Prometheus
electron實現靜默列印（各種踩坑解決）
2024-03-18
Android開發踩坑及最佳實踐（工作踩坑記錄持續更新...）
2018-11-16
Android
Tars | Win10下Docker部署TarsJava(SpringBoot)全過程及踩坑記錄
2021-07-12
Win10DockerJavaSpring Boot
spring security 6.0.8（boot 3.0.13）自定義 filter 踩坑-已解決
2024-04-03
SpringbootFilter
二手房購買流程及注意事項，建議收藏！避免踩坑！
2020-12-09
小紅書分享踩坑和解決
2024-08-22
瀑布流程式碼實現及思路
2019-10-09
Laravel Envoy 安裝到部署完整流程
2022-08-29
Laravel
webpack入門及踩坑應對指南
2018-04-15
Web
k8s中使用prometheus operator監控外部伺服器部署的windows exporter
2023-02-20
K8SPrometheus伺服器WindowsExport
記一次docker上部署nuxt踩的坑
2020-08-23
DockerUX
手把手教你部署驗證freeswitch（避免踩坑）
2021-05-19
內購支付踩過的坑以及自己的解決途徑
2018-04-03
helm 部署Prometheus
2020-12-19
Prometheus
JavaScript 中精度問題及解決思路彙總
2021-06-03
JavaScript
PHP 引用詳解 - 踩坑與妙用
2019-06-20
PHP
Prometheus Operator自定義監控物件 -- Ingress-Nginx
2024-11-26
Prometheus物件Nginx