ElasticSearch- 單節點 unassigned_shards 故障排查

IT胖發表於2021-01-12

原文網址 : https://www.cnblogs.com/FLY_DREAM/p/14269859.html

故障現象

kibana

在部署ELK的單機環境，當連線Kibana時候提示下面錯誤，即使重啟整個服務也是提示Kibana server is not ready.

{"message":"all shards failed: [search_phase_execution_exception] all shards failed","statusCode":503,"error":"Service Unavailable"}

排查過程

前段時間ELK服務還是正常的，進入容器去ping ip 也都沒問題，服務也都是Up 狀態； ElasticSearch 服務也可以通過http://localhost:9200/ 訪問到，但是就是kibana 不能連線ElasticSearch

ELK

再檢視 kibana 日誌發現如下資訊, 其中包含了no_shard_available_action_exception, 看起來是分片 的問題。

{
    "type": "error",
    "@timestamp": "2020-09-15T00:41:09Z",
    "tags": [
        "warning",
        "stats-collection"
    ],
    "pid": 1,
    "level": "error",
    "error": {
        "message": "[no_shard_available_action_exception] No shard available for [get [.kibana][doc][config:6.8.11]: routing [null]]",
        "name": "Error",
        "stack": "[no_shard_available_action_exception] No shard available for [get [.kibana][doc][config:6.8.11]: routing [null]] :: {\"path\":\"/.kibana/doc/config%3A6.8.11\",\"query\":{},\"statusCode\":503,\"response\":\"{\\\"error\\\":{\\\"root_cause\\\":[{\\\"type\\\":\\\"no_shard_available_action_exception\\\",\\\"reason\\\":\\\"No shard available for [get [.kibana][doc][config:6.8.11]: routing [null]]\\\"}],routing [null]]"
    }

通過 ES視覺化工具-cerebro 檢視

cerebro

實際當時情況是"紅色"的，而不是目前看到的 "黃色"， heap/disk/cup/load 基本都是紅色的, 可能因為當時手動刪除了幾個index原因

黃色雖然kibana可以訪問ES了，但是黃色代表ES仍然是不健康的

檢視單節點Elasticsearch健康狀態

curl -XGET http://localhost:9200/_cluster/health\?pretty

{
  "cluster_name" : "elasticsearch",
  "status" : "red",
  "timed_out" : false,
  "number_of_nodes" : 1,
  "number_of_data_nodes" : 1,
  "active_primary_shards" : 677,
  "active_shards" : 677,
  "relocating_shards" : 0,
  "initializing_shards" : 4,
  "unassigned_shards" : 948,
  "delayed_unassigned_shards" : 0,
  "number_of_pending_tasks" : 5,
  "number_of_in_flight_fetch" : 0,
  "task_max_waiting_in_queue_millis" : 599,
  "active_shards_percent_as_number" : 41.559238796807854
}

從上面的 unassigned_shards 可以存在大量分片沒有被分配，當時看到的實際有1000多個。

查詢 UNASSIGNED 型別的索引名字

curl -XGET http://localhost:9200/_cat/shards

UNASSIGNED

故障原因大概確定了，應該就是unassigned_shards導致的下面就看如何解決

解決方案

如果是叢集環境，可以考慮使用 POST /_cluster/reroute 強制把問題分片分配到其中一個節點上了
但是對於目前的單機環境，從上面截圖可以看出存在5個 unassigned 的分片，新建索引時候，分片數為5，副本數為1，新建之後叢集狀態成為yellow，其根本原因是因為叢集存在沒有啟用的副本分片。

解決辦法就是，在單節點的elasticsearch叢集，刪除存在副本分片的索引，新建索引的副本都設為0。然後再檢視叢集狀態

通過如果下命令，設定number_of_replicas=0,將副本調整為0. 如下圖所示，es變成了“綠色”
```
curl -XPUT 'http://localhost:9200/_settings' -H 'content-Type:application/json' -d'
{
"number_of_replicas": 0
}'
```

知識點

副本分片 主要目的就是為了故障轉移，如果持有主分片的節點掛掉了，一個副本分片就會晉升為主分片的角色。

所以副本分片和主分片是不能放到一個節點上面的，可是在只有一個節點的叢集裡，副本分片沒有辦法分配到其他的節點上，所以出現所有副本分片都unassigned得情況。因為只有一個節點，如果存在主分片節點掛掉了，那麼整個叢集理應就掛掉了，不存在副本分片升為主分片的情況。

參考

vertica單節點故障恢復 Startup Failed, ASR Required
2019-07-09
AIUI
故障排查工具-strace,tcpdump的簡單使用
2020-08-17
TCP
聊聊分散式資料庫中單節點故障的影響
2023-02-27
分散式資料庫
rsync 故障排查整理
2018-12-09
應用故障排查
2020-12-24
【故障公告】Kubernetes 叢集節點當機造成部落格站點故障
2023-03-03
以太坊公鏈節點連線節點超時問題排查
2020-12-08
光纖故障診斷和故障排查
2020-02-25
MogDB openGauss故障排查流程
2024-03-14
線上故障的排查清單，運維拿走不謝！
2024-02-28
運維
第十三課 SOLIDITY語法難點解析及故障排查
2018-11-15
Solid
consul 多節點/單節點叢集搭建
2021-07-12
3節點RAC資料庫夯故障分析
2024-01-22
資料庫
mongodb叢集節點故障的切換方法
2019-06-20
MongoDB
kubernets叢集節點NotReady故障分析報告
2021-11-10
11.2.0.4 RAC生產環境刪除故障節點與增加新服務節點
2021-01-03
004.OpenShift命令及故障排查
2020-06-20
linux出現故障字符集亂碼故障排查思路
2021-11-19
Linux
greenplum單節點安裝
2021-03-25
Sqlserver 2014 alwayson故障轉移群集節點被踢出群集
2018-09-26
SQLServer
記IPSec VPN對接故障的排查
2019-12-25
伺服器網路故障如何排查
2022-03-03
伺服器
HAC叢集更改IP（單節點更改、全部節點更改）
2022-05-27
CentOS7 單節點和多節點 HPL測試
2022-05-22
CentOS
K8S線上叢集排查，實測排查Node節點NotReady異常狀態
2021-02-19
K8S
Hadoop中Namenode單點故障的解決方案
2018-04-15
Hadoop
vertica單節點安裝教程
2018-12-10
unix cm單節點啟動
2018-04-12
Networker備份oracle單節點
2021-12-03
Oracle
ElasticSearch（單節點）環境配置
2020-12-21
Elasticsearch
阿里雲香港節點全面故障給我們的啟示
2022-12-21
阿里
ADAMoracle採用連線多節點計算並驗證報價的方式實現避免了單點故障
2021-12-16
Oracle
伺服器的路由故障怎麼排查
2022-02-22
伺服器路由
rac二節點例項redo故障無法啟動修復
2024-02-05
redis cluster 故障後，主從位於不同節點的修復。
2022-12-03
Redis
mongo資料庫單節點搭建
2018-12-18
Go資料庫
MongoDB單節點部署與基本操作
2024-09-05
MongoDB
kubernetes環境部署單節點redis
2021-01-15
Redis