Istio 升級後踩的坑

crossoverJie發表於2023-02-20

原文網址 : https://segmentfault.com/a/1190000043443237

背景

前段時間我們將 istio 版本升級到 1.12 後導致現有的應用監控有部分資料丟失（頁面上顯示不出來）。

一個是應用基礎資訊丟失。
再一個是應用 JVM 資料丟失。
介面維度的監控資料丟失。

修復

基礎資訊

首先是第一個基礎資訊丟失的問題，頁面上其實顯示的是我們的一個聚合指標istio_requests_total:source:rate1m。

聚合後可以將多個指標合併為一個，減少系統壓力

具體可以參考 Istio 的最佳實踐 Observability Best Practices 有詳細說明。

spec:
  groups:
    - interval: 30s
      name: istio.service.source.istio_requests_total
      rules:
        - expr: |
            sum(irate(istio_requests_total{reporter="source"}[1m]))
            by (
              destination_app,
              source_workload_namespace,
              response_code,
              source_app
            )
          record: istio_requests_total:source:rate1m

本質上是透過以上四個維度進行統計 istio_requests_total；但在升級之後檢視原始資料發現丟失了 destination_app, source_app 這兩個 tag。

至於為啥丟失，查了許久，最後在升級後的資原始檔 stats-filter-1.12.yaml 中找到了答案:

升級後新增了 tags_to_remove 標記，將我們所需要的兩個 tag 直接刪掉了。

後續在當前 namespace 下重新建一個 EnvoyFilter 資源覆蓋掉預設的便能恢復這兩個 tag，修復後監控頁面也顯示正常了。

EnvoyFilter 是實時生效的，並不需要重建應用 Pod。

JVM 監控

JVM 資料丟失的這個應用，直接進入 Pod 檢視暴露出的 metric，發現資料都有，一切正常。

jvm_memory_pool_bytes_used{pool="Code Cache",} 1.32126784E8
jvm_memory_pool_bytes_used{pool="Metaspace",} 2.74250552E8
jvm_memory_pool_bytes_used{pool="Compressed Class Space",} 3.1766024E7
jvm_memory_pool_bytes_used{pool="G1 Eden Space",} 1.409286144E9
jvm_memory_pool_bytes_used{pool="G1 Survivor Space",} 2.01326592E8
jvm_memory_pool_bytes_used{pool="G1 Old Gen",} 2.583691248E9

說明不是資料來源的問題，那就可能是資料採集節點的問題了。

進入VictoriaMetrics 的 target 頁面發現應用確實已經下線，原來是採集的埠不通導致的。

我們使用 VictoriaMetrics 代替了 Prometheus。

而這個埠 15020 之前並未使用，我們使用的是另外一個自定義埠和端點來採集資料。

經過查閱發現 15020 是 istio 預設的埠：

原來在預設情況下 Istio 會為所有的資料面 Pod 加上：

metadata:
  annotations:
    prometheus.io/path: /stats/prometheus
    prometheus.io/port: "15020"

這個註解用於採集資料，由於我們是自定義的端點，所以需要修改預設行為：

在控制面將 --set meshConfig.enablePrometheusMerge=false 設定為 false，其實官方文件已經說明，如果不是使用的標準 prometheus.io 註解，需要將這個設定為 false。

修改後需要重建應用 Pod 方能生效。

有了 url 這個 tag 後，介面監控頁也恢復了正常。

介面維度

介面維度的資料丟失和基本資料丟失的原因類似，本質上也是原始資料中缺少了 url 這個 tag，因為我們所聚合的指標使用了 url：

    - interval: 30s
      name: istio.service.source.url.istio_requests_total
      rules:
        - expr: |
            sum(irate(istio_requests_total{reporter="source"}[1m]))
            by (
              destination_app,
              source_workload_namespace,
              response_code,
              source_app,
              url
            )

最終參考了 MetricConfig 自定義了 URL 的tag.

{
"dimensions": {
  "url": "request.url_path"
},

但這也有個大前提，當我們 tag 的指標沒有在預設 tag 列表中時，需要在 Deployment 或者是 Istio 控制面中全域性加入我們自定義的 tag 宣告。

比如這裡新增了 url 的 tag，那麼就需要在控制面中加入：

meshConfig:
  defaultConfig:
    extraStatTags:
     - url

修改了控制面後需要重新構建 Pod 後才會生效。

EnvoyFilter的問題

檢視MetricConfig的配置後發現是可以直接去掉指標以及去掉指標中的 tag ，這個很有用，能夠大大減低指標採集系統 VictoriaMetrics 的系統負載。

於是參考了官方的示例，去掉了一些 tag，同時還去掉了指標：istio_request_messages_total。

{
      "tags_to_remove": [
        "source_principal",
        "source_version",
        "destination_principal",
        "destination_version",
        "source_workload",
        "source_cluster",
      ]
},
{
	"name": "istio_request_messages_total",
	"drop": true
}

但並沒有生效，於是換成了在 v1.12 中新增的 Telemetry API。

使用 Telemetry API

apiVersion: telemetry.istio.io/v1alpha1
kind: Telemetry
metadata:
  name: mesh-istio-test
  namespace: istio-test
spec:
  # no selector specified, applies to all workloads
  metrics:
    - overrides:
        - match:
            metric: GRPC_REQUEST_MESSAGES
            mode: CLIENT_AND_SERVER
          disabled: true

但是參考了官方文件後發現依然不能生效，GRPC_REQUEST_MESSAGES 所對應的 istio_request_messages_total 指標依然存在。

接著在我領導檢視 Istio 原始碼以及相關 issue 後發現 Telemetry API 和 EnvoyFilter 是不能同時存在的，也就是說會優先使用 EnvoyFilter；這也就是為什麼我之前配置沒有生效的原因。

後初始化 EnvoyFilter

正如這個 issue 中所說，需要刪掉現在所有的 EnvoyFilter；刪除後果然就生效了。

新的 Telemetry API 不但語義更加清晰，功能也一樣沒少，藉助他我們依然可以自定義、刪除指標、tag 等。

apiVersion: telemetry.istio.io/v1alpha1
kind: Telemetry
metadata:
  name: mesh-istio-telemetry-test
  namespace: test
spec:
  metrics:
    - overrides:
        - match:
            metric: GRPC_RESPONSE_MESSAGES
            mode: CLIENT_AND_SERVER
          disabled: true
        - tagOverrides:
            url:
              value: "request.url_path"
        - match:
            metric: ALL_METRICS
          tagOverrides:
            source_workload:
              operation: REMOVE

比如以上配置便可以刪除掉 GRPC_RESPONSE_MESSAGES 指標，新增一個 url 的指標，同時在所有指標中刪除了 source_workload 這個 tag。

藉助於這一個宣告檔案便能滿足我們多個需求。

裁剪指標

後續根據我們實際需求借助於 Telemetry API 裁剪掉了許多指標和 tag，使得指標系統負載下降了一半左右。

效果相當明顯。

總結

本次定位修復 Istio 升級後帶來的指標系統問題收穫巨大，之前對 Istio 一直只停留在理論階段，只知道他可以實現傳統微服務中對介面粒度的控制，完美彌補了 k8s 只有服務層級的粗粒度控制；

這兩週下來對一個現代雲原生監控系統也有了系統的認識，從 App->Pod->sidecar->VictoriaMetrics(Prometheus)->Grafana 這一套流程中每個環節都可能會出錯；

所以學無止境吧，幸好藉助公司業務場景後續還有更多機會參與實踐。

踩過的坑（一）——web容器升級
2024-08-19
Web
Hexo6 升級踩坑指南
2024-03-21
Hexo
async語法升級踩坑小記
2018-09-28
# Laravel 5.5 升級到 6.0 踩坑記錄
2019-10-13
Laravel
babel 升級 7.X 踩坑記錄
2019-01-29
Babel
jdk1.6升級jdk1.8踩出的神坑
2020-12-04
JDK
升級Spring Cloud到Finchley後的一點坑
2018-05-10
SpringCloud
oAuth2 升級Spring Cloud Finchley.RELEASE踩坑分享
2018-06-23
OAuthSpringCloud
MySQL5.5升級到MySQL5.7踩坑日記
2024-08-15
MySql
jenkins 升級踩坑，主要是403 CSRF報錯問題
2024-06-28
Jenkins
將自己的站點升級成HTTPS的（瘋狂踩坑）過程
2019-03-05
HTTP
ReadWriteLock讀寫鎖升級的踩坑：Kotlin作弊，最好使用StampedLock - javaspecialists
2020-05-29
KotlinJava
Vue1.0+Webpack1+Gulp專案升級構建方案的踩坑路
2019-04-04
VueWeb
Flutter 入門與實戰（五十二）：升級踩坑，聊聊 Dart 的 null safety
2021-08-15
FlutterDartNull
AndroidStudio升級3.x之後太坑了
2019-03-03
Android
【Vue】Vue1.0+Webpack1+Gulp專案升級構建方案的踩坑路
2019-04-04
VueWeb
Apache DolphinScheduler 1.3.4升級至3.1.2版本過程中的踩坑記錄
2024-08-02
Apache
vue2專案升級至vue3方案步驟踩坑
2024-11-22
Vue
golang的踩坑
2018-08-14
Golang
antd 3.x升4.x踩坑之路～
2023-01-31
webpack4升級採坑
2018-08-01
Web
springboot升級過程中踩坑定位分析記錄 | 京東雲技術團隊
2023-04-28
Spring Boot
記一次版本升級遇到的坑
2018-03-29
GeoServer 踩過的坑
2018-03-13
Server
踩坑：6年後為何不用GraphQL了？
2024-05-31
vue踩坑
2018-11-20
Vue
相容踩坑
2019-04-11
THEOS踩坑。。。
2018-06-28
Flutter 踩坑
2019-08-26
Flutter
angular踩坑
2020-04-04
Angular
protodep踩坑
2024-11-19
CDH踩坑
2020-11-27
公司ES升級帶來的坑怎麼填？
2018-11-26
小程式踩坑填坑
2018-07-25
Jenkins踩坑之旅：nohup後臺執行shell命令
2019-07-10
Jenkins
改bug時踩的坑
2019-04-04
JasperReport 中踩過的坑
2018-08-13
MUI的踩坑筆記
2018-08-07
UI筆記