ES寫入效能優化

caimingjian發表於2019-02-25

原文網址 : https://juejin.im/post/5c73d8ea518825622d74c138

背景: 有1億多的使用者畫像中數倉需要匯入ES。大多數字段都是sql統計資料，無法區分哪些發生了變化，所以不能增量更新。只能每天全量刷資料。在刷資料的過程中出現了更新緩慢、記憶體問題。於是做了一些寫入優化。

解決方案：

1. 讀資料

首先要從數倉讀取出資料到記憶體。然後再組裝物件去ES刷資料欄位比較多而且都需要查詢。嘗試了一下，即使limit 10，也需要耗時2分鐘。所以第一步導資料不能直接查詢。採用的是數倉到分散式檔案系統分片儲存。這一步已經有現成工具。1億資料匯入到分片耗時3分鐘左右

2.組裝資料

將分片的資料讀到java記憶體中。再構造請求引數刷ES

`問題：1.刷資料ES報413錯誤。ES建議每次bulk5~15M資料，這裡我每次批量提交5000條，bulk的時候發生的413 requets too large錯誤，google了一下，說是索引的時候段合併記憶體不夠。於是調整indices.breaker.fielddata.limit為60%，增大堆記憶體，結果沒什麼用；也有說要調整 client_max_body_size 的，但是我們的es是雲服務，沒法改配置引數最終加大es的記憶體為16G,不再報這個錯誤。

2.之前寫業務程式碼資料量一般不是很大，採用的是一次性把資料讀取到記憶體中。再做業務處理。但是這次在資料塞到一半的資料，先是系統響應變慢了，後來測試環境的系統掛了。通過過命令排查，發現List物件佔用了很多空間。於是複查程式碼。發現是for迴圈一直往list填物件導致的記憶體洩露。於是限制了單個檔案大小為20M,一個檔案一個檔案地處理。 `

3.提高es索引效率

剛開始刷資料預計需要20個小時。今天的資料如果明天才更新完，意義不大。於是想辦法提高索引效率。網上都說"refresh_interval": "-1"；調整number_of_replicas=0。我調整了結果沒什麼變化。於是採用多執行緒刷資料

問題：1.一開始使用size為20的無界佇列，導致耗盡資源，任務執行緒佔用的記憶體佔用了80+%的記憶體，其他任務可能被拖垮。後來執行緒的核心執行緒數和最大執行緒數統一設定為10。並採用future模式，一個任務完成後再去新增其他任務。解決了執行緒耗盡資源和記憶體的問題。

用htop檢視刷資料機器的效能

可以看到開啟的10個執行緒佔用42%記憶體。主執行緒cpu偶爾接近100%，這不是io密集型嗎？怎麼會耗cpu。cpu變高可能是複雜的技術或者死迴圈。這裡迴圈每次讀取量有50000條，並且組裝物件的邏輯。而且有10個執行緒，猜想可能是這個原因。

ES的索引速率

成果

最後原來需要20小時才能完成的刷資料任務，只耗時約100分鐘。當然中間遇到的坑不止這些

HybridDBforPostgreSQL,Greenplum寫入效能優化實踐
2018-10-05
SQL優化
叢集寫效能優化
2020-03-04
優化
vue簡訊驗證效能優化寫入localstorage中
2018-04-24
Vue優化
Android 效能優化（十二）之我為什麼寫效能優化
2019-03-04
Android優化
tableView入門到效能優化
2018-07-13
View優化
iOS效能優化 - 網路圖片載入優化
2018-07-31
iOS優化
【前端效能優化】vue效能優化
2019-04-30
前端優化Vue
前端效能優化 --- 懶載入&預載入
2018-08-29
前端優化
React 16 載入效能優化指南
2018-07-19
React優化
效能提升 48 倍! python redis 批量寫入大量資料優化過程
2020-09-14
PythonRedis優化
MySQL效能優化之簡單sql改寫
2019-11-12
MySql優化
頁面載入效能之優化LCP
2020-08-10
優化
高手過招「效能優化/純手寫SpringMVC框架/MySql優化/微服務」
2018-12-05
優化SpringMVC框架MySql微服務
【效能優化實踐】優化打包策略提升頁面載入速度
2018-05-05
優化
效能優化
2019-02-16
優化
高頻寫入redis場景優化
2018-12-07
Redis優化
iOS效能優化之頁面載入速率
2018-09-02
iOS優化
JVM效能優化（一）JVM技術入門
2021-11-28
JVM優化
效能優化 (五) 長圖優化，仿微博載入長圖方式
2019-05-25
優化
關於 es 資料同步的一次效能優化實踐
2020-09-07
優化
ES的優化筆記
2021-07-25
優化筆記
前端效能優化——延遲載入和非同步載入
2018-08-23
前端優化非同步
前端效能優化（JS/CSS優化，SEO優化）
2018-03-04
前端優化JSCSS
Android效能優化——效能優化的難題總結
2021-08-12
Android優化
[效能優化]DateFormatter深度優化探索
2018-12-20
優化ORM
前端效能優化 --- 圖片優化
2018-08-29
前端優化
效能優化｜Tomcat 服務優化
2018-09-11
優化Tomcat
Android 效能優化 ---- 啟動優化
2020-07-13
Android優化
Android效能優化----卡頓優化
2020-07-28
Android優化
Javascript 效能優化
2019-02-16
JavaScript優化
java效能優化
2019-01-12
Java優化
react效能優化
2019-03-08
React優化
Canvas效能優化
2018-09-21
Canvas優化
UI效能優化
2018-04-08
UI優化
mongodb效能優化
2018-08-23
MongoDB優化
Android效能優化
2018-07-20
Android優化
EF效能優化
2018-06-08
優化
TableView效能優化
2018-08-31
View優化