Hadoop引數調優

張蘭雲發表於2013-08-06

Hadoop

最近看了很多如何讓hadoop執行時間減少的文章，一點自己的理解，記錄如下

1）壓縮map輸出和reduce輸出

　　　　壓縮輸出結果，不僅可以減少寫資料，還可以加快map到ruduce的傳輸速度，有利於加快執行時間。

2）不要重複建立物件

　　　　儘量在mapper或者reducer的類中去建立，不要重複的在map函式中建立物件。

3）scan的引數設定

　　　　在掃描資料庫表時，scan的一些屬性：hbase.scan.catching 和 hbase.scan.batch 都是可以一次性的返回

　　　　多條記錄，避免每次都要去訪問資料庫，同時要注意只設定自己需要的columnFamily就可以了，減少不必要的

　　　　資料返回，同時設定scan.setCatchingBlocks(false),這樣可以避免掃庫的時候重寫了快取，因為掃庫這種動作

　　　　不代表真實的查詢頻率，不應該覆蓋快取。

4）推測執行

　　　　mapred.map.tasks.speculative.execution,此屬性預設為true，即當程式感知到某個map的執行時間較慢，會

　　　　在另外一個機器上執行同樣的任務，成功後kill掉當前執行的任務。個人感覺這個引數在資源充足的時候，可以設定

　　　　為false，避免浪費資源。在資源不足的時候，可以開啟此引數，避免因為某些任務過慢，影響整體任務的執行時間。

5）hbase的引數設定（客戶端設定無效）

　　hbase.regionserver.handler.count

　　　　regionserver的工作執行緒數量，預設是10，沒有疑問，官方預設值太小，通常都調到100~200之間，提高regionserver效能。

　　hbase.regionserver.lease.period　　

　　　　regionserer租約時間，預設值是60s，也有點小，如果你的生產環境中，在執行一些任務時，如mapred時出現lease超時的報錯，那這個時候就需要去調大這個值了。

　　hfile.block.cache.size

　　　　regionserver cache的大小，預設是0.2，是整個堆記憶體的多少比例作為regionserver的cache，調大該值會提升查詢效能，當然也不能過大，如果你的hbase都大量的查詢，

　　　　寫入不是很多的話，調到0.5也就夠了。

hadoop之引數調優
2018-02-24
Hadoop
Hadoop作業調優引數
2014-04-17
Hadoop
調優引數
2024-08-31
數倉調優實戰：GUC引數調優
2024-04-07
mysql 引數調優
2024-06-13
MySql
JVM 引數調優（qbit）
2020-05-11
JVM
1，Spark引數調優
2021-09-07
Spark
JVM常用調優引數
2022-12-21
JVM
Hadoop2.7實戰v1.0之JVM引數調優
2016-05-17
HadoopJVM
Hadoop2.7實戰v1.0之Linux引數調優
2016-04-30
HadoopLinux
irace package -- 引數調優神器
2021-04-01
Package
Linux核心引數調優
2015-01-05
Linux
linux 效能調優引數
2015-08-07
Linux
swoole優化核心引數調整
2022-06-23
優化
MySQL引數調優最佳實踐
2016-01-27
MySql
Oracle記憶體引數調優
2009-11-04
Oracle記憶體
hadoop 調優1
2014-05-07
Hadoop
nginx引數調優能提升多少效能
2023-11-02
Nginx
RDS MySQL引數調優最佳實踐
2017-12-05
MySql
關於Hadoop調優
2021-07-18
Hadoop
Hadoop－調優剖析
2015-10-10
Hadoop
Linux核心調優部分引數說明
2016-05-19
Linux
linux系統引數調優全解析
2013-03-29
Linux
大資料叢集核心引數調優
2024-09-09
大資料
常用的 jvm 調優的引數都有哪些
2024-11-09
JVM
hadoop叢集搭建配置檔案優化引數
2015-09-11
Hadoop優化
SAP ECC6.0記憶體引數調整和調優
2015-03-27
記憶體
JVM調優引數、方法、工具以及案例總結
2021-02-08
JVM
MySQL 8.x伺服器引數調優
2024-10-16
MySql伺服器
查詢hadoop引數變數
2015-07-12
Hadoop變數
Spark應用程式開發引數調優深入剖析-Spark商業調優實戰
2019-03-04
Spark
JVM效能調優的6大步驟，及關鍵調優引數詳解
2022-03-23
JVM
weblogic執行緒池引數調優配置方法
2020-11-06
Web執行緒
大資料學習—Kafka的核心調優引數
2021-09-28
大資料Kafka
Linux常用的一些核心引數（調優）
2017-05-17
Linux
JVM引數調優八大技巧之筆記
2014-03-16
JVM筆記
JVM記憶體引數詳解及其配置調優
2012-06-21
JVM記憶體
Oracle記憶體引數調優技術詳解
2007-02-12
Oracle記憶體

Hadoop引數調優

相關文章