Elasticsearch 引數配置說明

百聯達發表於2017-04-27
Elasticsearch的config資料夾裡面有兩個配置檔案:elasticsearch.yml和logging.yml,第一個是es的基本配置檔案,第二個是日誌配置檔案,es也是使用log4j來記錄日誌的.


cluster.name: gh-cluster
配置es的叢集名稱,預設是elasticsearch,在一個叢集內,各節點擁有相同的custer.name.


node.name: "gh-cluster-node-01"
節點名,預設隨機指定一個name列表中名字.同一叢集中,各節點名稱要保持唯一。


node.master: true
指定該節點是否有資格被選舉成為node,預設是true,es是預設叢集中的第一臺機器為master,如果這臺機掛了就會重新選舉master。


node.data: true
指定該節點是否儲存索引資料,預設為true。


index.number_of_shards: 5
設定預設索引分片個數,預設為5片。


index.number_of_replicas: 1
設定預設索引副本個數,預設為1個副本。


path.conf: /path/to/conf(建議修改)
設定配置檔案的儲存路徑,預設是es根目錄下的config資料夾。


path.data: /path/to/data(建議修改)
設定索引資料的儲存路徑,預設是es根目錄下的data資料夾,可以設定多個儲存路徑,用逗號隔開,例:
path.data: /path/to/data1,/path/to/data2


path.work: /path/to/work(建議修改)
設定臨時檔案的儲存路徑,預設是es根目錄下的work資料夾。


path.logs: /path/to/logs(建議修改)
設定日誌檔案的儲存路徑,預設是es根目錄下的logs資料夾


path.plugins: /path/to/plugins(建議修改)
設定外掛的存放路徑,預設是es根目錄下的plugins資料夾


bootstrap.mlockall: true
設定為true來鎖住記憶體。因為當jvm開始swapping時es的效率會降低,所以要保證它不swap,可以把ES_MIN_MEM和ES_MAX_MEM兩個環境變數設定成同一個值,並且保證機器有足夠的記憶體分配給es。同時也要允許elasticsearch的程式可以鎖住記憶體,linux下可以透過`ulimit -l unlimited`命令。


network.bind_host: 192.168.0.1 (建議改成所在伺服器的ip)
設定繫結的ip地址,可以是ipv4或ipv6的,預設為0.0.0.0。




network.publish_host: 192.168.0.1
設定其它節點和該節點互動的ip地址,如果不設定它會自動判斷,值必須是個真實的ip地址。


network.host: 192.168.0.1
這個引數是用來同時設定bind_host和publish_host上面兩個引數。


transport.tcp.port: 9300
設定節點間互動的tcp埠,預設是9300。


transport.tcp.compress: true
設定是否壓縮tcp傳輸時的資料,預設為false,不壓縮。


http.port: 9200
設定對外服務的http埠,預設為9200。


http.max_content_length: 100mb
設定內容的最大容量,預設100mb


http.enabled: false
是否使用http協議對外提供服務,預設為true,開啟。








ES叢集可能會有整體重啟的情況,比如需要升級硬體、升級作業系統或者升級ES大版本。重啟所有結點可能帶來的一個問題: 某些結點可能先於其他結點加入叢集, 先加入叢集的結點可能已經可以選舉好master,並立即啟動了recovery的過程,由於這個時候整個叢集資料還不完整,master會指示一些結點之間相互開始複製資料。 那些晚到的結點,一旦發現本地的資料已經被複制到其他結點,則直接刪除掉本地“失效”的資料。 當整個叢集恢復完畢後,資料分佈不均衡,顯然是不均衡的,master會觸發rebalance過程,將資料在節點之間挪動。整個過程無謂消耗了大量的網路流量;合理設定recovery相關引數則可以防範這種問題的發生。
gateway.expected_nodes
gateway.expected_master_nodes
gateway.expected_data_nodes
以上三個引數是說叢集裡一旦有多少個節點就立即開始recovery過程。 不同之處在於,第一個引數指的是master或者data都算在內,而後面兩個引數則分指master和data node。
 
在期待的節點數條件滿足之前, recovery過程會等待gateway.recover_after_time (預設5分鐘) 這麼長時間,一旦等待超時,則會根據以下條件判斷是否啟動:
gateway.recover_after_nodes
gateway.recover_after_master_nodes
gateway.recover_after_data_nodes
 
舉例來說,對於一個有10個data node的叢集,如果有以下的設定:
gateway.expected_data_nodes: 10
gateway.recover_after_time: 5m
gateway.recover_after_data_nodes: 8
那麼叢集5分鐘以內10個data node都加入了,或者5分鐘以後8個以上的data node加入了,都會立即啟動recovery過程。








cluster.routing.allocation.cluster_concurrent_rebalance:2
指定用於併發再平衡的分片數。此屬性的設定要取決於硬碟條件,如CPU數量,IO效能等。如果該屬性設定不當,將影響ElasticSearch索引效能




cluster.routing.allocation.node_initial_primaries_recoveries: 4
初始化資料恢復時,併發恢復執行緒的個數,預設為4。


cluster.routing.allocation.node_concurrent_recoveries: 2
新增刪除節點或負載均衡時併發恢復執行緒的個數,預設為4。






indices.recovery.max_size_per_sec: 0
設定資料恢復時限制的頻寬,如入100mb,預設為0,即無限制。


indices.recovery.concurrent_streams: 5
設定這個引數來限制從其它分片恢復資料時最大同時開啟併發流的個數,預設為5。


discovery.zen.minimum_master_nodes: 1
設定這個引數來保證叢集中的節點可以知道其它N個有master資格的節點。預設為1,對於大的叢集來說,可以設定大一點的值(2-4)


discovery.zen.ping.timeout: 3s (建議修改)
設定叢集中自動發現其它節點時ping連線超時時間,預設為3秒,對於比較差的網路環境可以高點的值來防止自動發現時出錯。


discovery.zen.ping.multicast.enabled: false
設定是否開啟多播發現節點,預設是true。


discovery.zen.ping.unicast.hosts: ["host1", "host2:port", "host3"]
設定叢集中master節點的初始列表,可以透過這些節點來自動發現新加入叢集的節點。


下面是一些查詢時的慢日誌引數設定
index.search.slowlog.level: TRACE
index.search.slowlog.threshold.query.warn: 10s
index.search.slowlog.threshold.query.info: 5s
index.search.slowlog.threshold.query.debug: 2s
index.search.slowlog.threshold.query.trace: 500ms


index.search.slowlog.threshold.fetch.warn: 1s
index.search.slowlog.threshold.fetch.info: 800ms
index.search.slowlog.threshold.fetch.debug:500ms
index.search.slowlog.threshold.fetch.trace: 200ms

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/28624388/viewspace-2138101/,如需轉載,請註明出處,否則將追究法律責任。

相關文章