Hadoop配置core-site.xml檔案詳解

mo尘發表於2024-03-14

<-- 描述叢集中NameNode結點的URI(包括協議、主機名稱、埠號) -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hdp101:8020</value>
<final>true</final>
</property>

<-- 啟用 s3a 快速上載機制 -->
<property>
<name>fs.s3a.fast.upload</name>
<value>true</value>
</property>

<-- 所有資料上傳快取在磁碟中 -->
<property>
<name>fs.s3a.fast.upload.buffer</name>
<value>disk</value>
</property>

<-- upload或copy操作,當檔案超過多大時,即拆分。 -->
<property>
<name>fs.s3a.multipart.size</name>
<value>67108864</value>
</property>

<-- 檢查點之間的時間間隔, 單位為分鐘, 此屬性可以在伺服器和客戶端上配置,如果伺服器上被禁用,則檢查客戶端配置,如果伺服器上被啟用,則忽略客戶端配置。-->
<property>
<name>fs.trash.interval</name>
<value>360</value>
</property>

<-- zookeeper 失敗切換控制器的重試次數設定 -->
<property>
<name>ha.failover-controller.active-standby-elector.zk.op.retries</name>
<value>120</value>
</property>

<-- zookeeper ACL認證 -->

<property>
<name>ha.zookeeper.acl</name>
<value>sasl:nn:rwcda</value>
</property>

<-- zookeeper -->

<property>
<name>ha.zookeeper.quorum</name>
<value>client:2181,namenode:2181,snamenode:2181</value>
</property>

<-- 允許跨域的方法列表 -->
<property>
<name>hadoop.http.cross-origin.allowed-methods</name>
<value>GET,PUT,POST,OPTIONS,HEAD,DELETE</value>
</property>

<-- 允許跨域訪問的來源 -->
<property>
<name>hadoop.http.cross-origin.allowed-origins</name>
<value>*</value>
</property>

<-- 一個逗號分隔的類名列表,他們必須繼承於org.apache.hadoop.http.FilterInitializer,相應的過濾器被初始化後,將應用於所有的JSP和Servlet網頁 -->
<property>
<name>hadoop.http.filter.initializers</name>
<value>org.apache.hadoop.security.AuthenticationFilterInitializer,org.apache.hadoop.security.HttpCrossOriginFilterInitializer</value>
</property>

<-- hdfs 代理使用者 -->
<property>
<name>hadoop.proxyuser.hdfs.hosts</name>
<value>*</value>
</property>

<-- hive 代理使用者組 -->
<property>
<name>hadoop.proxyuser.hive.groups</name>
<value>*</value>
</property>

<-- hdp102 上的hive使用者可以以superuser 的方式模擬hadoop組的任務使用者 -->
<property>
<name>hadoop.proxyuser.hive.hosts</name>
<value>hdp102</value>
</property>

<-- 透過 httpfs 介面訪問的使用者獲得的群組身份 -->
<property>
<name>hadoop.proxyuser.root.groups</name>
<value>*</value>
</property>

<-- 透過 httpfs介面hdfs的IP地址限制 -->
<property>
<name>hadoop.proxyuser.root.hosts</name>
<value>hdp101</value>
</property>

<-- 將 kerberos主題對映到本地使用者名稱 -->
<property>
<name>hadoop.security.auth_to_local</name>
<value>DEFAULT</value>
</property>

<-- 是否啟用service級別的授權 -->
<property>
<name>hadoop.security.authorization</name>
<value>false</value>
</property>

<-- 指示是否需要管理員 ACL才能訪問 -->
<property>
<name>hadoop.security.instrumentation.requires.admin</name>
<value>false</value>
</property>

<-- 逗號分割的壓縮編碼器類列表,可以用於壓縮 /解壓 -->
<property>
<name>io.compression.codecs</name> <value>org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.SnappyCodec</value>
</property>

<-- 在序列檔案中使用的緩衝區大小。這個緩衝區的大小應該是頁大小(英特爾x86上為4096)的倍數,它決定讀寫操作中緩衝了多少資料。 -->
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>

<-- 可用於獲取序列化和反序列化的序列化類的列表。 -->
<property>
<name>io.serializations</name>
<value>org.apache.hadoop.io.serializer.WritableSerialization</value>
</property>

<-- 客戶端重新建立伺服器連線的重試次數 -->
<property>
<name>ipc.client.connect.max.retries</name>
<value>50</value>
</property>

<-- 空閒連線斷開時間 -->
<property>
<name>ipc.client.connection.maxidletime</name>
<value>30000</value>
</property>

<-- 定義連線的閾值數量,之後檢查連線是否空閒 -->
<property>
<name>ipc.client.idlethreshold</name>
<value>8000</value>
</property>

<-- 關閉Nagle’s演算法,此演算法可以延遲小資料包傳送,從而達到網路流量更有效利用。但是這對小資料包是不利的。預設關閉。建議false,即開啟Nagle演算法 -->
<property>
<name>ipc.server.tcpnodelay</name>
<value>true</value>
</property>

<-- 設為true,則JT和NN的tracker網頁會出現殺任務刪檔案等操作連線,預設是false -->
<property>
<name>mapreduce.jobtracker.webinterface.trusted</name>
<value>false</value>
</property>

<-- 機架感知,當 datanode 註冊時和 heartbeat 時,會把 datanode 的 ip 作為引數傳入,返回資訊為此datanode 的機架資訊 -->
<property>
<name>net.topology.script.file.name</name>
<value>/etc/hadoop/conf/topology_script.py</value>
</property>

相關文章