乾貨 | BAT等一線大廠 Elasticsearch面試題解讀

銘毅天下發表於2019-02-21

原文網址 : https://juejin.im/post/5c6ea29be51d45346b3132c6

題記

git上發現了網友總結的Elasticsearch BAT大廠面試題。只有題目，部分有答案，但不全。正好抽出一些時間一起梳理一下。

既然是面試題，每個人都會有自己的結合業務場景的答案，沒有非常標準的答案。歡迎大家留言拍磚指正。

1、elasticsearch瞭解多少，說說你們公司es的叢集架構，索引資料大小，分片有多少，以及一些調優手段。

面試官：想了解應聘者之前公司接觸的ES使用場景、規模，有沒有做過比較大規模的索引設計、規劃、調優。 解答：如實結合自己的實踐場景回答即可。比如：ES叢集架構13個節點，索引根據通道不同共20+索引，根據日期，每日遞增20+，索引：10分片，每日遞增1億+資料，每個通道每天索引大小控制：150GB之內。

僅索引層面調優手段：

1.1、設計階段調優

1）根據業務增量需求，採取基於日期模板建立索引，通過roll over API滾動索引；
2）使用別名進行索引管理；
3）每天凌晨定時對索引做force_merge操作，以釋放空間；
4）採取冷熱分離機制，熱資料儲存到SSD，提高檢索效率；冷資料定期進行shrink操作，以縮減儲存；
5）採取curator進行索引的生命週期管理；
6）僅針對需要分詞的欄位，合理的設定分詞器；
7）Mapping階段充分結合各個欄位的屬性，是否需要檢索、是否需要儲存等。 ........

1.2、寫入調優

1）寫入前副本數設定為0；
2）寫入前關閉refresh_interval設定為-1，禁用重新整理機制；
3）寫入過程中：採取bulk批量寫入；
4）寫入後恢復副本數和重新整理間隔；
5）儘量使用自動生成的id。

1.3、查詢調優

1）禁用wildcard；
2）禁用批量terms（成百上千的場景）；
3）充分利用倒排索引機制，能keyword型別儘量keyword；
4）資料量大時候，可以先基於時間敲定索引再檢索；
5）設定合理的路由機制。

1.4、其他調優

部署調優，業務調優等。

上面的提及一部分，面試者就基本對你之前的實踐或者運維經驗有所評估了。

2、elasticsearch的倒排索引是什麼？

面試官：想了解你對基礎概念的認知。 解答：通俗解釋一下就可以。

傳統的我們的檢索是通過文章，逐個遍歷找到對應關鍵詞的位置。而倒排索引，是通過分詞策略，形成了詞和文章的對映關係表，這種詞典+對映表即為倒排索引。有了倒排索引，就能實現o（1）時間複雜度的效率檢索文章了，極大的提高了檢索效率。

學術的解答方式：

倒排索引，相反於一篇文章包含了哪些詞，它從詞出發，記載了這個詞在哪些文件中出現過，由兩部分組成——詞典和倒排表。

加分項：倒排索引的底層實現是基於：FST（Finite State Transducer）資料結構。 lucene從4+版本後開始大量使用的資料結構是FST。FST有兩個優點：

1）空間佔用小。通過對詞典中單詞字首和字尾的重複利用，壓縮了儲存空間；
2）查詢速度快。O(len(str))的查詢時間複雜度。

3、elasticsearch 索引資料多了怎麼辦，如何調優，部署？

面試官：想了解大資料量的運維能力。 解答：索引資料的規劃，應在前期做好規劃，正所謂“設計先行，編碼在後”，這樣才能有效的避免突如其來的資料激增導致叢集處理能力不足引發的線上客戶檢索或者其他業務受到影響。如何調優，正如問題1所說，這裡細化一下：

3.1 動態索引層面

基於模板+時間+rollover api滾動建立索引，舉例：設計階段定義：blog索引的模板格式為：blog_index_時間戳的形式，每天遞增資料。

這樣做的好處：不至於資料量激增導致單個索引資料量非常大，接近於上線2的32次冪-1，索引儲存達到了TB+甚至更大。

一旦單個索引很大，儲存等各種風險也隨之而來，所以要提前考慮+及早避免。

3.2 儲存層面

冷熱資料分離儲存，熱資料（比如最近3天或者一週的資料），其餘為冷資料。對於冷資料不會再寫入新資料，可以考慮定期force_merge加shrink壓縮操作，節省儲存空間和檢索效率。

3.3 部署層面

一旦之前沒有規劃，這裡就屬於應急策略。結合ES自身的支援動態擴充套件的特點，動態新增機器的方式可以緩解叢集壓力，注意：如果之前主節點等規劃合理，不需要重啟叢集也能完成動態新增的。

4、elasticsearch是如何實現master選舉的？

面試官：想了解ES叢集的底層原理，不再只關注業務層面了。 解答：前置前提：

1）只有候選主節點（master：true）的節點才能成為主節點。
2）最小主節點數（min_master_nodes）的目的是防止腦裂。

這個我看了各種網上分析的版本和原始碼分析的書籍，雲裡霧裡。核對了一下程式碼，核心入口為findMaster，選擇主節點成功返回對應Master，否則返回null。選舉流程大致描述如下：

第一步：確認候選主節點數達標，elasticsearch.yml設定的值discovery.zen.minimum_master_nodes；
第二步：比較：先判定是否具備master資格，具備候選主節點資格的優先返回；若兩節點都為候選主節點，則id小的值會主節點。注意這裡的id為string型別。

題外話：獲取節點id的方法。

GET /_cat/nodes?v&h=ip,port,heapPercent,heapMax,id,name
ip        port heapPercent heapMax id   name
127.0.0.1 9300          39   1.9gb Hk9w Hk9wFwU
複製程式碼

5、詳細描述一下Elasticsearch索引文件的過程？

面試官：想了解ES的底層原理，不再只關注業務層面了。 解答：這裡的索引文件應該理解為文件寫入ES，建立索引的過程。文件寫入包含：單文件寫入和批量bulk寫入，這裡只解釋一下：單文件寫入流程。

記住官方文件中的這個圖。

第一步：客戶寫叢集某節點寫入資料，傳送請求。（如果沒有指定路由/協調節點，請求的節點扮演路由節點的角色。）

第二步：節點1接受到請求後，使用文件_id來確定文件屬於分片0。請求會被轉到另外的節點，假定節點3。因此分片0的主分片分配到節點3上。

第三步：節點3在主分片上執行寫操作，如果成功，則將請求並行轉發到節點1和節點2的副本分片上，等待結果返回。所有的副本分片都報告成功，節點3將向協調節點（節點1）報告成功，節點1向請求客戶端報告寫入成功。

如果面試官再問：第二步中的文件獲取分片的過程？回答：藉助路由演算法獲取，路由演算法就是根據路由和文件id計算目標的分片id的過程。

shard = hash(_routing) % (num_of_primary_shards)
複製程式碼

6、詳細描述一下Elasticsearch搜尋的過程？

面試官：想了解ES搜尋的底層原理，不再只關注業務層面了。 解答：搜尋拆解為“query then fetch” 兩個階段。 query階段的目的：定位到位置，但不取。步驟拆解如下：

1）假設一個索引資料有5主+1副本共10分片，一次請求會命中（主或者副本分片中）的一個。
2）每個分片在本地進行查詢，結果返回到本地有序的優先佇列中。
3）第2）步驟的結果傳送到協調節點，協調節點產生一個全域性的排序列表。

fetch階段的目的：取資料。路由節點獲取所有文件，返回給客戶端。

7、Elasticsearch在部署時，對Linux的設定有哪些優化方法？

面試官：想了解對ES叢集的運維能力。 解答：

1）關閉快取swap;
2）堆記憶體設定為：Min（節點記憶體/2, 32GB）;
3)設定最大檔案控制程式碼數；
4）執行緒池+佇列大小根據業務需要做調整；
5）磁碟儲存raid方式——儲存有條件使用RAID10，增加單節點效能以及避免單節點儲存故障。

8、lucence內部結構是什麼？

面試官：想了解你的知識面的廣度和深度。 解答：

Lucene是有索引和搜尋的兩個過程，包含索引建立，索引，搜尋三個要點。可以基於這個脈絡展開一些。

#小結看到題目後，感覺熟悉又陌生。真正要在面試的時候講出來，需要下一番功夫深入理解。為了求證回答的相對準確性，我翻看了原始碼、官方文件和部分有深度的博文。 Elasticsearch路還很長，別無他法，唯有死磕！

題目來源： github.com/randian666/… www.cnblogs.com/luckcs/arti…

核心參考： 1、www.cnblogs.com/LBSer/p/411… 2、blog.csdn.net/njpjsoftdev… 3、elasticsearch.cn/book/elasti… 4、www.cnblogs.com/forfuture19… 5、《Elasticsearch原始碼解析和優化實踐》

銘毅天下——Elasticsearch基礎、進階、實戰第一公眾號

【乾貨】BAT面試經驗分享
2018-03-24
BAT面試
2019年Android崗位BAT等大廠面試題知識點小結
2019-01-02
AndroidBAT面試題
分享一下最近的面試題，都是大廠（BAT TMD）
2021-12-10
面試題BAT
上乾貨！大廠面試走心經驗分享！
2021-02-09
面試
刷完500道BAT面試題，我能去面試大廠了嗎？
2019-11-08
BAT面試題
史上最詳細的一線大廠Mysql面試題詳解
2019-03-30
MySql面試題
網際網路大廠內推+面試乾貨合集
2018-04-01
面試
[面試專題]一線網際網路大廠面試總結
2019-02-16
面試
Java秋招面經大合集（含BAT等大廠面經，均已拿offer）
2019-10-16
JavaBAT
一線大廠在機器學習方向的面試題（一）
2021-04-12
機器學習面試題
一線網際網路大廠MySQL索引面試真題
2022-01-28
MySql索引面試
[純乾貨，非廣告]這套無價的 BAT Java面試題免費送！
2019-03-07
BATJava面試題
乾貨分享：18道Spring面試題
2019-11-04
Spring面試題
拿到BAT等大廠offer以後，我總結了這些技術面試技巧
2019-03-12
BAT面試
Java大廠面試題
2021-12-24
Java面試題
大資料面試SQL每日一題系列：最高峰同時線上主播人數。位元組，快手等大廠高頻面試題
2024-05-06
大資料SQL每日一題面試題
BAT大廠Android面試知識點，請客官拿好~~
2019-02-22
BATAndroid面試
一線大廠在機器學習方向的面試題（二）
2021-04-13
機器學習面試題
一線大廠在機器學習方向的面試題（三）
2021-04-14
機器學習面試題
2019最新 BAT、TMD等公司技術面試題及其答案
2020-04-06
BAT面試題
Github最值一讀開源好書及BAT面試題庫
2018-05-07
GithubBAT面試題
【乾貨】Java崗面試考點大合集
2018-03-07
Java面試
斬獲BAT-offer大神的兩萬字面試乾貨分享
2019-03-04
BAT面試
技術乾貨：RabbitMQ面試題及答案
2020-01-17
MQ面試題
技術乾貨：ActiveMQ面試題及答案
2020-01-19
MQ面試題
技術乾貨：Hadoop面試題及答案
2020-01-20
Hadoop面試題
Java面試題-基礎篇三（乾貨）
2019-07-27
Java面試題
膜拜大牛！3年Android開發工程師面試經驗分享，最全的BAT大廠面試題整理
2020-12-19
Android工程師BAT面試題
2019年一線大廠春招：Spring面試題和答案合集（上篇）
2019-03-31
Spring面試題
搶先看！美團、京東、360等大廠面試題解析，技術面試必備。
2024-04-24
面試題
我的2019校招面經大全（包含BAT頭條網易等大廠面經）
2019-03-13
BAT
技術乾貨：spring boot面試題及答案
2020-01-10
Spring Boot面試題
最新BAT大廠面試精華彙總(2024詳細版)
2024-01-12
BAT面試
【乾貨】Android 一線網際網路面試題彙總，13模組200+題，征服面試官不是夢！
2020-10-29
Android面試題
面試題錦（大廠面試前夕的掙扎）
2019-03-31
面試題
乾貨滿滿！！！面試必備OJ題：連結串列篇（一）
2020-11-07
面試
好程式設計師web前端學習路線大廠面試題詳解
2019-08-30
程式設計師Web前端面試題
bat等大公司常考java多執行緒面試題
2019-03-04
BATJava執行緒面試題