乾貨 | BAT等一線大廠 Elasticsearch面試題解讀

銘毅天下發表於2019-02-21

題記

git上發現了網友總結的Elasticsearch BAT大廠面試題。只有題目,部分有答案,但不全。 正好抽出一些時間一起梳理一下。

既然是面試題,每個人都會有自己的結合業務場景的答案,沒有非常標準的答案。 歡迎大家留言拍磚指正。

1、elasticsearch瞭解多少,說說你們公司es的叢集架構,索引資料大小,分片有多少,以及一些調優手段 。

面試官:想了解應聘者之前公司接觸的ES使用場景、規模,有沒有做過比較大規模的索引設計、規劃、調優。 解答: 如實結合自己的實踐場景回答即可。 比如:ES叢集架構13個節點,索引根據通道不同共20+索引,根據日期,每日遞增20+,索引:10分片,每日遞增1億+資料, 每個通道每天索引大小控制:150GB之內。

僅索引層面調優手段:

1.1、設計階段調優

  • 1)根據業務增量需求,採取基於日期模板建立索引,通過roll over API滾動索引;
  • 2)使用別名進行索引管理;
  • 3)每天凌晨定時對索引做force_merge操作,以釋放空間;
  • 4)採取冷熱分離機制,熱資料儲存到SSD,提高檢索效率;冷資料定期進行shrink操作,以縮減儲存;
  • 5)採取curator進行索引的生命週期管理;
  • 6)僅針對需要分詞的欄位,合理的設定分詞器;
  • 7)Mapping階段充分結合各個欄位的屬性,是否需要檢索、是否需要儲存等。 ........

1.2、寫入調優

  • 1)寫入前副本數設定為0;
  • 2)寫入前關閉refresh_interval設定為-1,禁用重新整理機制;
  • 3)寫入過程中:採取bulk批量寫入;
  • 4)寫入後恢復副本數和重新整理間隔;
  • 5)儘量使用自動生成的id。

1.3、查詢調優

  • 1)禁用wildcard;
  • 2)禁用批量terms(成百上千的場景);
  • 3)充分利用倒排索引機制,能keyword型別儘量keyword;
  • 4)資料量大時候,可以先基於時間敲定索引再檢索;
  • 5)設定合理的路由機制。

1.4、其他調優

部署調優,業務調優等。

上面的提及一部分,面試者就基本對你之前的實踐或者運維經驗有所評估了。

2、elasticsearch的倒排索引是什麼?

面試官:想了解你對基礎概念的認知。 解答:通俗解釋一下就可以。

傳統的我們的檢索是通過文章,逐個遍歷找到對應關鍵詞的位置。 而倒排索引,是通過分詞策略,形成了詞和文章的對映關係表,這種詞典+對映表即為倒排索引。 有了倒排索引,就能實現o(1)時間複雜度的效率檢索文章了,極大的提高了檢索效率。

在這裡插入圖片描述
學術的解答方式:

倒排索引,相反於一篇文章包含了哪些詞,它從詞出發,記載了這個詞在哪些文件中出現過,由兩部分組成——詞典和倒排表。

加分項:倒排索引的底層實現是基於:FST(Finite State Transducer)資料結構。 lucene從4+版本後開始大量使用的資料結構是FST。FST有兩個優點:

  • 1)空間佔用小。通過對詞典中單詞字首和字尾的重複利用,壓縮了儲存空間;
  • 2)查詢速度快。O(len(str))的查詢時間複雜度。

3、elasticsearch 索引資料多了怎麼辦,如何調優,部署?

面試官:想了解大資料量的運維能力。 解答:索引資料的規劃,應在前期做好規劃,正所謂“設計先行,編碼在後”,這樣才能有效的避免突如其來的資料激增導致叢集處理能力不足引發的線上客戶檢索或者其他業務受到影響。 如何調優,正如問題1所說,這裡細化一下:

3.1 動態索引層面

基於模板+時間+rollover api滾動建立索引,舉例:設計階段定義:blog索引的模板格式為:blog_index_時間戳的形式,每天遞增資料。

這樣做的好處:不至於資料量激增導致單個索引資料量非常大,接近於上線2的32次冪-1,索引儲存達到了TB+甚至更大。

一旦單個索引很大,儲存等各種風險也隨之而來,所以要提前考慮+及早避免。

3.2 儲存層面

冷熱資料分離儲存,熱資料(比如最近3天或者一週的資料),其餘為冷資料。 對於冷資料不會再寫入新資料,可以考慮定期force_merge加shrink壓縮操作,節省儲存空間和檢索效率。

3.3 部署層面

一旦之前沒有規劃,這裡就屬於應急策略。 結合ES自身的支援動態擴充套件的特點,動態新增機器的方式可以緩解叢集壓力,注意:如果之前主節點等規劃合理,不需要重啟叢集也能完成動態新增的。

4、elasticsearch是如何實現master選舉的?

面試官:想了解ES叢集的底層原理,不再只關注業務層面了。 解答: 前置前提:

  • 1)只有候選主節點(master:true)的節點才能成為主節點。
  • 2)最小主節點數(min_master_nodes)的目的是防止腦裂。

這個我看了各種網上分析的版本和原始碼分析的書籍,雲裡霧裡。 核對了一下程式碼,核心入口為findMaster,選擇主節點成功返回對應Master,否則返回null。選舉流程大致描述如下:

  • 第一步:確認候選主節點數達標,elasticsearch.yml設定的值discovery.zen.minimum_master_nodes;
  • 第二步:比較:先判定是否具備master資格,具備候選主節點資格的優先返回;若兩節點都為候選主節點,則id小的值會主節點。注意這裡的id為string型別。

題外話:獲取節點id的方法。

GET /_cat/nodes?v&h=ip,port,heapPercent,heapMax,id,name
ip        port heapPercent heapMax id   name
127.0.0.1 9300          39   1.9gb Hk9w Hk9wFwU
複製程式碼

5、詳細描述一下Elasticsearch索引文件的過程?

面試官:想了解ES的底層原理,不再只關注業務層面了。 解答: 這裡的索引文件應該理解為文件寫入ES,建立索引的過程。 文件寫入包含:單文件寫入和批量bulk寫入,這裡只解釋一下:單文件寫入流程。

記住官方文件中的這個圖。

在這裡插入圖片描述
第一步:客戶寫叢集某節點寫入資料,傳送請求。(如果沒有指定路由/協調節點,請求的節點扮演路由節點的角色。)

第二步:節點1接受到請求後,使用文件_id來確定文件屬於分片0。請求會被轉到另外的節點,假定節點3。因此分片0的主分片分配到節點3上。

第三步:節點3在主分片上執行寫操作,如果成功,則將請求並行轉發到節點1和節點2的副本分片上,等待結果返回。所有的副本分片都報告成功,節點3將向協調節點(節點1)報告成功,節點1向請求客戶端報告寫入成功。

如果面試官再問:第二步中的文件獲取分片的過程? 回答:藉助路由演算法獲取,路由演算法就是根據路由和文件id計算目標的分片id的過程。

shard = hash(_routing) % (num_of_primary_shards)
複製程式碼

6、詳細描述一下Elasticsearch搜尋的過程?

面試官:想了解ES搜尋的底層原理,不再只關注業務層面了。 解答: 搜尋拆解為“query then fetch” 兩個階段。 query階段的目的:定位到位置,但不取。 步驟拆解如下:

  • 1)假設一個索引資料有5主+1副本 共10分片,一次請求會命中(主或者副本分片中)的一個。
  • 2)每個分片在本地進行查詢,結果返回到本地有序的優先佇列中。
  • 3)第2)步驟的結果傳送到協調節點,協調節點產生一個全域性的排序列表。

fetch階段的目的:取資料。 路由節點獲取所有文件,返回給客戶端。

7、Elasticsearch在部署時,對Linux的設定有哪些優化方法?

面試官:想了解對ES叢集的運維能力。 解答

  • 1)關閉快取swap;
  • 2)堆記憶體設定為:Min(節點記憶體/2, 32GB);
  • 3)設定最大檔案控制程式碼數;
  • 4)執行緒池+佇列大小根據業務需要做調整;
  • 5)磁碟儲存raid方式——儲存有條件使用RAID10,增加單節點效能以及避免單節點儲存故障。

8、lucence內部結構是什麼?

面試官:想了解你的知識面的廣度和深度。 解答

在這裡插入圖片描述

Lucene是有索引和搜尋的兩個過程,包含索引建立,索引,搜尋三個要點。可以基於這個脈絡展開一些。

#小結 看到題目後,感覺熟悉又陌生。真正要在面試的時候講出來,需要下一番功夫深入理解。 為了求證回答的相對準確性,我翻看了原始碼、官方文件和部分有深度的博文。 Elasticsearch路還很長,別無他法,唯有死磕!

題目來源: github.com/randian666/… www.cnblogs.com/luckcs/arti…

核心參考: 1、www.cnblogs.com/LBSer/p/411… 2、blog.csdn.net/njpjsoftdev… 3、elasticsearch.cn/book/elasti… 4、www.cnblogs.com/forfuture19… 5、《Elasticsearch原始碼解析和優化實踐》

在這裡插入圖片描述
銘毅天下——Elasticsearch基礎、進階、實戰第一公眾號

相關文章