hadoop之 引數調優

張衝andy發表於2018-02-24

一、 hdfs-site.xml 配置檔案

1、 dfs.blocksize 
引數:hadoop檔案塊大小
描述:新檔案的預設塊大小,以位元組為單位,預設 134217728 位元組。
可以使用以下字尾(大小寫不敏感):k(kilo)、m(mega)、g(giga)、t(tera)、p(peta)、e(exa)來指定大小(如128k、512m、1g等),
或者以位元組為單位提供完整的大小。

2、 dfs.namenode.handler.count
引數:namenode的伺服器執行緒數
描述:NameNode有一個工作執行緒池用來處理客戶端的遠端過程呼叫及叢集守護程式的呼叫。處理程式數量越多意味著要更大的池來處理來自不同DataNode的併發心跳以及客戶端併發的後設資料操作。對於大叢集或者有大量客戶端的叢集來說,通常需要增大引數dfs.namenode.handler.count的預設值10。設定該值的一般原則是將其設定為叢集大小的自然對數乘以20,即20logN,N為叢集大小。

3、 dfs.datanode.balance.bandwidthPerSec
引數: datanode 平衡頻寬
描述:指定每個datanode可以利用每秒位元組數來平衡目標的最大頻寬。

4、 dfs.replication
引數:塊副本數
描述:預設的塊複製。可以在建立檔案時指定複製的實際數量。如果在create time中沒有指定複製,則使用預設值3。

5、dfs.datanode.max.transfer.threads
引數:datanode 最大傳輸執行緒數
描述:指定用於傳輸資料進出DN的最大執行緒數。叢集中如果不一致,會造成資料分佈不均。

二、 core-site.xml 配置檔案

1、 io.file.buffer.size
引數:檔案的緩衝區大小
描述:用於順序檔案的緩衝區大小。這個緩衝區的大小應該是硬體頁面大小的倍數(在Intel x86上是4096),它決定了在讀寫操作中緩衝了多少資料。SequenceFiles 讀取和寫入操作的快取區大小,還有map的輸出都用到了這個緩衝區容量, 可減少 I/O 次數。建議設定為 64KB 到 128KB

三、 yarn-site.xml 配置檔案

1、 yarn.nodemanager.resource.memory-mb
引數:該節點 nodemanager 資源池記憶體 
描述:NodeManager節點上可使用的實體記憶體總量,預設是8192(MB),根據節點所能分配的最大的記憶體進行分配即可,注意為作業系統與其他服務預留資源。

2、yarn.nodemanager.resource.cpu-vcores
引數:該節點 有多少cpu加入資源池 , 預設值為8
描述:表示該節點上YARN可使用的虛擬CPU個數,預設是8,注意,目前推薦將該值設值為與物理CPU核數數目相同。如果你的節點CPU核數不夠8個,則需要調減小這個值,而YARN不會智慧的探測節點的物理CPU總數。

 

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31383567/viewspace-2151198/,如需轉載,請註明出處,否則將追究法律責任。

相關文章