本地ES叢集資料通過_reindex方式遷移到騰訊雲伺服器（親測有效）

有夢可有為發表於2020-07-24

原文網址 : https://www.cnblogs.com/shenlei-blog/p/13371172.html

本地ES叢集資料通過_reindex方式遷移到騰訊雲伺服器（親測有效）

隨著業務量的增加，本地的ES叢集伺服器效能和磁碟空間有點不夠使用，專案組考慮使用騰訊雲伺服器，以下是我測試的使用_reindex方式遷移ES資料的具體步驟。

1.在騰訊雲的ES上建立新索引

可根據業務需求，自行刪減mappings無用的欄位，更改欄位型別和settings的設定，重新設定新索引。

PUT /test1
{
    "mappings" : {
      "properties" : {
        "num" : {
          "type" : "text",
          "analyzer": "my_analyzer"
        },
        "name" : {
          "type" : "text",
          "fields" : {
            "keyword" : {
              "type" : "keyword",
              "ignore_above" : 256
            }
          },
          "analyzer": "my_analyzer"
        },
         "englishName" : {
          "type" : "text",
          "fields" : {
            "keyword" : {
              "type" : "keyword",
              "ignore_above" : 256
            }
          },
          "analyzer": "my_analyzer"
        },
         "msg" : {
          "type" : "text",
            "fields" : {
            "keyword" : {
              "type" : "keyword",
              "ignore_above" : 256
            }
          },
          "analyzer": "my_analyzer"
        }
      }
    },
    "settings": {
    "index": {
      "analysis": {
        "analyzer": {
          "my_analyzer": {
            "type": "custom",
            "tokenizer": "my_tokenizer"
          }
        },
        "tokenizer": {
          "my_tokenizer": {
            "type": "ngram",
            "min_gram": "1",
            "max_gram": "2"
          }
        }
      }
    }
  }
}

2.設定白名單

在騰訊雲ES的elasticsearch.yml配置檔案中新增本地的ES叢集IP白名單.

注意：如果本地使用的是內網，需要開通外網訪問地址和埠，這裡白名單的ip和埠也要換成外網的

#reindex.remote.whitelist: ["ip:9200","ip2:9201"]  遷移資料白名單
reindex.remote.whitelist: ["localhost:9200"]

#跨域問題
http.cors.enabled: true
http.cors.allow-origin: "*"

3.準備_reindex的設定

可根據個人業務需求，自行選擇下面需要的配置選項和設定
更多_reindex引數相關配置可參考官網 https://www.elastic.co/guide/en/elasticsearch/reference/6.2/docs-reindex.html

"scroll": 每次複製5M的資料，一般設定為5-15 M效能較佳，根據伺服器效能自行選擇
"wait_for_completion": false 設定不用前臺等待返回結果，後臺自動執行
"max_docs": 定義只同步100個文件
"conflicts","op_type":這兩個一般一起使用，op_type to create將導致_reindex僅在目標索引中建立缺少的文件，但是會報導致版本衝突中止_reindex操作，可以設定 "conflicts": "proceed"，_reindex程式將繼續發生版本衝突並返回遇到的版本衝突計數。（不建議使用，ES會自動處理ID相同的資料覆蓋刪除）
"source": 本地要遷移的ES索引設定
"remote"：本地ES的對外地址，超時時間設定
"index": 本地要遷移的ES索引名稱
"_source": 可設定保留只需要遷移的索引欄位
"query": 可設定篩選條件
"size": 每次傳輸文件的資料量，預設值為1000，可設定為5000-20000
"dest": "index" 騰訊雲要接受資料的索引，第一步建立的那個

POST  /_reindex?scroll=5m&wait_for_completion=false
{ 
  "max_docs": 100,
  "conflicts": "proceed",
  "source": {
    "remote": {
      "host": "http://:9200",
      "socket_timeout": "5m",
      "connect_timeout": "300s"
    },
    "index": "test1",
    "_source": ["name", "msg",],
    "query": {
          "match": {
            "name": "小明"
          }
        }
     "size": 5000
  },
  "dest": {
    "index": "test1"，
    "op_type": "create"
  }
}

4.執行命令，遷移資料

以下都在騰訊雲的kibana中執行的

設定不重新整理和副本數為0

PUT /test1/_settings
{
   "refresh_interval": -1,
   "number_of_replicas": 0
}

執行第三步建立的_reindex

POST  /_reindex?scroll=5m&wait_for_completion=false
{ 
  "max_docs": 100,
  "conflicts": "proceed",
  "source": {
    "remote": {
      "host": "http://:9200",
      "socket_timeout": "5m",
      "connect_timeout": "300s"
    },
    "index": "test1",
    "_source": ["name", "msg",],
    "query": {
          "match": {
            "name": "小明"
          }
        }
     "size": 5000
  },
  "dest": {
    "index": "test1"，
    "op_type": "create"
  }
}

等待資料執行，使用 GET _cat/indices 命令檢視資料執行結果量
使用 GET _tasks?detailed=true&actions=*reindex可以檢視正在執行的_reindex狀態

GET _cat/indices

GET _tasks?detailed=true&actions=*reindex

資料全部執行完後，恢復原本要設定的重新整理間隔和副本數.

擴充套件：關於副本數數量設定，可參考我另一篇引用文章中ES的叢集原理中二、ES叢集核心原理分析:

PUT /index_paytrade_v1/_settings
{
   "refresh_interval": "30s",
   "number_of_replicas": 1
}

好了，至此就大功搞定了，可以進行查詢資料測試了。

關於ES資料遷移騰訊雲還有其他3種方式

elasticsearch-dump
snapshot
logstash

具體可參考騰訊雲的官方文件地址： https://cloud.tencent.com/document/product/845/35568

ES叢集構建（本人親測有效）
2020-12-17
騰訊雲伺服器遷移到Vultr
2018-06-21
伺服器
管理 ES 叢集：叢集與外部間的安全通訊
2020-02-16
管理 ES 叢集：叢集內部間的安全通訊
2020-02-16
騰訊雲雲資料庫遷移
2020-03-14
資料庫
容器化｜自建 MySQL 叢集遷移到 Kubernetes
2023-02-09
MySql
mysql通過kafka實現資料實時同步（三）——es叢集配置
2020-11-13
MySqlKafka
從本地MySQL遷移到雲資料庫，為什麼是Amazon Aurora？
2018-11-13
MySql資料庫
在騰訊雲 TKE 上部署 EMQX MQTT 伺服器叢集
2022-11-21
MQQT伺服器
恆訊科技分享：伺服器資料遷移到新的伺服器方法
2021-09-29
伺服器
管理 ES 叢集：集常見的叢集部署方式
2020-02-18
最快方式搭建docker大資料測試叢集
2024-06-20
Docker大資料
騰訊雲輕量伺服器通過Docker搭建外網可訪問連線的redis5.x叢集
2022-01-23
伺服器DockerRedis
騰訊雲TStack通過等保2.0四級資質測評
2019-05-20
redis叢集資料遷移方案
2024-04-06
Redis
elasticsearch跨叢集資料遷移
2020-09-13
Elasticsearch
通過memberlist庫實現gossip管理叢集以及叢集資料互動
2022-07-12
Go
如何在騰訊雲上開啟ES叢集的跨進群複製功能（CCR）
2020-12-02
你的資料庫真的需要遷移到雲嗎？
2022-11-02
資料庫
在阿里雲和騰訊雲的輕量應用伺服器上搭建Hadoop叢集
2023-09-20
阿里伺服器Hadoop
ES叢集
2020-10-22
傳統堡壘機資料可以遷移到雲堡壘機上嗎？方式有哪些？
2022-08-19
MySQL資料庫遷移到Postgres
2024-08-09
MySql資料庫
記一次MySQL資料遷移到SQLServer全過程
2022-04-24
MySqlServer
impala 資料表在叢集間遷移方案
2022-11-01
郵件伺服器遷移到 amazon aws 雲主機
2024-07-06
伺服器
大資料叢集遷移的那一夜是怎麼過的
2020-09-21
大資料
恆訊科技分析：業務遷移到雲伺服器之前的關鍵步驟
2021-10-15
伺服器
Oracle資料庫從Linux x86單機遷移到Solaries雙節點RAC叢集經驗分享-測試環境驗證
2018-11-08
Oracle資料庫Linux
騰訊雲Elasticsearch叢集規劃及效能優化實踐
2020-09-30
Elasticsearch優化
資料遷移（1）——通過資料泵表結構批量遷移
2018-10-30
輕鬆上雲系列之一：本地資料遷移上雲
2018-12-18
使用青雲搭建大資料叢集
2018-10-11
大資料
TKE qGPU 通過 CRD 管理叢集 GPU 卡資源
2022-05-26
GPU
使用 Velero 跨雲平臺遷移叢集資源到 TKE
2021-03-29
通過本地直接連線linux伺服器的mysql資料庫
2018-10-26
Linux伺服器MySql資料庫
【親測可用】阿里雲簡訊
2024-10-18
阿里
叢集通訊：從心跳說起
2021-04-01

本地ES叢集資料通過_reindex方式遷移到騰訊雲伺服器（親測有效）

本地ES叢集資料通過_reindex方式遷移到騰訊雲伺服器（親測有效）

1.在騰訊雲的ES上建立新索引

2.設定白名單

3.準備_reindex的設定

4.執行命令，遷移資料

相關文章