Elasticsearch 如何保證寫入過程中不丟失資料的

蓝胖子的编程梦發表於2024-03-12

原文網址 : https://www.cnblogs.com/hobbybear/p/18068975

丟失資料的本質

在本文開始前，首先明白一個點，平時我們說的元件資料不丟失究竟是在指什麼，如果你往ES寫入資料，ES返回給你寫入錯誤，這個不算資料丟失。如果你往ES寫入資料，ES返回給你成功，但是後續因為ES節點重啟或當機導致寫入的資料不見了，這個才叫資料丟失。

簡而言之，丟失資料的本質是ES本身搞丟了返回結果是成功寫入的資料。

資料寫入流程

1，寫入時，ES會首先往一塊記憶體快取中寫入資料，這快記憶體快取在ES中叫index buffer，此時資料是不可見的，只有經過refresh操作後，資料才能變得可見。

index buffer的大小設定可以透過下面的請求去進行設定，如下，設定了index buffer的大小為總記憶體的30%

PUT /_cluster/settings
{
   "persistent" : {
       "indices.memory.index_buffer_size" : "30%"  
   }
}

2，在寫入index buffer成功後，會寫translog 記錄寫入的資料。此時資料依然不可見。由於作業系統對檔案寫入，並不會立即落盤。所以ES提供了關於刷盤的配置，index.translog.durability兩個選項值，如下，

request 會在每次建立segment寫入資料後就對translog進行刷盤操作。
async 則會定時對translog進行刷盤操作。定時重新整理到磁碟的週期是透過index.translog.sync_interval 引數去進行控制，預設是5s。

3，refresh 操作可以主動觸發也可以定時觸發，預設是1s會進行一次，該操作會建立一個lucece的segment段用於儲存新寫入到index buffer中的資料，注意這裡即使寫入到了segment裡，資料還是在os Cache系統檔案系統快取中，並沒有落入磁碟，只有在lucece將資料 commit 到磁碟後，資料才能落盤。

4, 在檔案系統快取中的segment總歸還是要寫入磁碟，預設每30分鐘，或者當translog的日誌量達到某個量級時，segment會進行落盤，同時刪掉translog日誌。這個量級由index.translog.flush_threshold_size 去進行控制，預設是512mb。

在瞭解了ES的寫入資料的過程後，我們可以發現，如果將index.translog.durability 設定為request ，這樣便能讓每次請求返回客戶端成功時，保證一定會有translog日誌儲存到磁碟上，後續如果在系統快取中的segment因為系統當機而沒有落盤依然能夠透過translog去進行恢復。

而如果index.translog.durability 設定為 async 則有可能會丟失5s的資料。

Elasticsearch如何保證資料不丟失？
2021-01-31
Elasticsearch
Oracle Goldengate是如何保證資料有序和確保資料不丟失的？
2019-07-11
OracleGo
Redis能保證資料不丟失嗎？
2024-02-23
Redis
Redis 中如何保證資料的不丟失，Redis 中的持久化是如何進行的
2022-02-09
Redis持久化
RabbitMQ-如何保證訊息不丟失
2024-06-12
MQ
服務重啟了，如何保證執行緒池中的資料不丟失？
2024-08-30
執行緒
kafka 如何保證不重複消費又不丟失資料？
2024-06-20
Kafka
面試官：請談談寫入訊息中介軟體的資料，如何保證不丟失？【石杉的架構筆記】
2019-03-06
面試架構筆記
RabbitMQ使用教程（四）如何通過持久化保證訊息99.99%不丟失？
2019-05-30
MQ持久化
Spark Streaming使用Kafka保證資料零丟失
2018-10-04
SparkKafka
優步是如何用Kafka構建可靠的重試處理保證資料不丟失
2018-03-18
Kafka
RabbitMq如何確保訊息不丟失
2020-09-29
MQ
BigDecimal為什麼能保證精度不丟失?
2024-06-08
Decimal
關於MQ的幾件小事（四）如何保證訊息不丟失
2019-05-22
MQ
伺服器xfs資料丟失的資料恢復過程
2018-04-02
伺服器資料恢復
伺服器raid資訊丟失的資料恢復過程
2019-10-21
伺服器AI資料恢復
資料庫併發寫入問題-丟失更新與寫入偏差
2020-12-29
資料庫
訊息推送平臺有沒有保證資料不丟？
2023-05-15
在 Flink 運算元中使用多執行緒如何保證不丟資料？
2019-12-30
執行緒
Kafka如何保證訊息不丟之無訊息丟失配置
2020-11-26
Kafka
MySQL的寫入資料儲存過程
2022-06-10
MySql儲存過程
虛擬機器資料丟失恢復過程記錄
2018-11-06
虛擬機
RabbitMQ-如何保證訊息在99.99%的情況下不丟失
2021-09-12
MQ
伺服器在使用過程中如何保護資料
2023-02-07
伺服器
MySQL資料寫入過程介紹
2022-12-01
MySql
【資料庫資料恢復】Sql Server資料庫檔案丟失的資料恢復過程
2023-04-06
資料庫資料恢復SQLServer
如何找回分割槽丟失的資料
2022-12-24
EMC儲存重灌系統丟失分割槽的資料恢復過程
2019-04-09
資料恢復
SAN LUN Mapping出錯導致的資料丟失恢復全過程
2020-02-27
APP
硬碟資料丟失如何恢復？
2020-08-04
硬碟
【專案實踐】商業計算怎樣才能保證精度不丟失
2021-01-27
虛擬化還原快照導致資料丟失恢復過程
2021-04-23
Elasticsearch 資料寫入原理分析
2019-09-06
Elasticsearch
伺服器斷電資料丟失恢復原理和圖文過程
2019-08-26
伺服器
3DMAX模型匯出到Unity之中如何確保材質不丟失
2018-12-07
3D模型Unity
網際網路面試必殺：如何保證訊息中介軟體全鏈路資料100%不丟失（2）【石杉的架構筆記】
2019-01-11
面試架構筆記
網際網路面試必殺：如何保證訊息中介軟體全鏈路資料100%不丟失（1）【石杉的架構筆記】
2019-01-10
面試架構筆記
Elasticsearch Lucene是怎樣資料寫入的
2020-08-27
Elasticsearch

Elasticsearch 如何保證寫入過程中不丟失資料的

丟失資料的本質

資料寫入流程

相關文章