hadoop運維經驗

wangq17發表於2016-11-05

原文網址 : https://www.cnblogs.com/wangq17/p/6032337.html

Hadoop運維

0、優化：http://dongxicheng.org/mapreduce/hadoop-optimization-0/

http://dongxicheng.org/mapreduce/hadoop-optimization-1/

1、各個節點的配置檔案的內容要一致：core|hdfs|mapred|yarn-site.xml。修改一個的節點的配置檔案內容後，叢集中所有的節點要同步修改，報錯的原因大部分是由於節點之間配置檔案不一致導致！

2、修改完配置檔案後要重啟hdfs或yarn服務。

3、有時會碰到修改配置檔案後，重啟hadoop的服務後，跑程式仍然會出錯的問題，要先查一下新增的<name>xxx</name>有沒有拼寫錯誤，如果沒有錯誤，就關閉服務然後重新啟動叢集(如果還報錯，建議重啟主機)。

4、各個節點的VERSION的clusterid要一致，否則會導致datanode自動關閉（刪除VERSION或將各個節點的clusterid改成一致）。

5、經常備份叢集可以正常執行的配置檔案。

6、yarn執行程式是提示running in uber mode : false。uber mode是Hadoop的小作業模式，資料量小非常節約時間。可以設定 mapreduce.job.ubertask.enable=true生效

7、為了避免出現{WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable}這種錯誤，儘量應該安裝64位的作業系統，否則就需要自己編譯hadoop原始碼進行安裝，比較麻煩。

8、在YARN啟動mapreduce程式後，會在datanode上生成YarnChild，這個就是Container。

9、ssh輸入正確密碼還會denied，需要修改.ssh父目錄的許可權值，chmod 755 /hadoop

10、namenode無法啟動（hadoop namenode異常）當檢視 hadoop-hadoop-namenode-namenode.log產生報錯

錯誤資訊：

2016-09-20 11:48:52,409 WARN org.apache.hadoop.hdfs.server.namenode.FSNamesystem: Encountered exception loading fsimage
java.io.IOException: There appears to be a gap in the edit log. We expected txid 2289, but got txid 2859.
at org.apache.hadoop.hdfs.server.namenode.MetaRecoveryContext.editLogLoaderPrompt(MetaRecoveryContext.java:94)
at org.apache.hadoop.hdfs.server.namenode.FSEditLogLoader.loadEditRecords(FSEditLogLoader.java:215)
at org.apache.hadoop.hdfs.server.namenode.FSEditLogLoader.loadFSEdits(FSEditLogLoader.java:143)

..................

原因是namenode後設資料被破壞了，需要修復

輸入命令：hadoop namenode -recover

全都選擇‘y'或 ‘c’ 即可。修復完畢後需要將各個datanode的current中的VERSION同步。可以備份current檔案，然後在namenode上start-dfs.sh。如果不做這一步會導致datanode無法啟動。

另外的方法：或許可以修改current下面 seen_txtid中的值？就不用全部刪除{

懷疑是 NameNode 對後設資料的合併出了問題，刪除報錯開始的 edits 檔案，修改 seen_txid 中的 txid 編號；

啟動 NN 成功，主備NN 均啟動成功。

}

11、mapred.child.java.opts:當需要處理超大資料（mapper大於10？）最好將值設定成-Xmx1024m或者更高(-Xmx2048m)才能避免出現“核心已轉儲”這種jvm記憶體溢位的錯誤！！

待續...

Linux運維工程師簡歷專案經驗
2019-12-06
Linux運維工程師
運維7年，對Linux的經驗總結
2021-04-01
運維Linux
回顧走上Linux運維路上的那點經驗
2020-09-04
Linux運維
Linux運維安全經驗-賬戶和登入安全
2019-05-22
Linux運維
快準穩：值得所有運維學習的SRE故障處理經驗
2024-01-15
運維
四年運維生產經驗分享：Nordstrom的事件溯源系列之一
2019-08-06
運維事件
高校被盜郵箱處置的運維經驗分享-清華大學
2022-07-20
運維
在K8s上運維Java和GC的經驗教訓 - Coufal
2021-04-28
K8S運維JavaGC
MySQL從庫維護經驗分享
2020-11-19
MySql
東北財經大學：量化評估體驗，無線運維不再複雜
2018-05-14
運維
SFB 專案經驗-45-用培訓課件當運維文件，聰明
2018-04-11
運維
Linux系統運維面試題，Linux運維經典面試題講解
2019-04-22
Linux運維面試題
hadoop3.x+scala+spark-mac血淚安裝經驗！！
2019-02-28
HadoopSparkMac
AIOps 智慧運維：有沒有比專家經驗更優雅的錯/慢呼叫分析工具？
2024-03-13
AI運維
5G運營三年：從亞洲成功經驗中汲取經驗
2022-06-21
IT運維之自動化運維
2021-03-30
運維
高薪運維經典企業版面試題彙總
2018-11-27
高薪運維面試題
Laplace分佈運算元開發經驗分享
2023-04-07
【IT運維】Linux運維需要掌握哪些技能？
2022-08-22
運維Linux
回首五年運維，運維需要思考
2020-12-18
運維
基於KVM的H3C雲端計算平臺CAS的一些運維經驗
2018-05-15
運維
【測試運維】效能測試經驗文件總結第3篇：VuGen詳解（已分享，附程式碼）
2024-02-24
運維
四年運維生產經驗分享：Nordstrom的事件溯源系列之二-生產者釋出模式
2019-08-06
運維事件模式
做運維的感悟(做運維需要考慮事,運維組織結構,運維學習地圖....)
2020-12-21
運維地圖
Linux運維命令重要嗎？運維入門
2020-10-29
Linux運維
Linux 運維工程師入門和學習必經之路！
2019-02-26
Linux運維工程師
運維工程師打怪升級必經之路 V1.0.1
2019-04-26
運維工程師
關於自媒體運營變現經驗分享
2022-04-13
運維摘要
2019-02-27
運維
【MySQL精品學習資源合集】含入門課程、學習筆記、運維經驗總結（建議收藏！！）
2021-07-09
MySql筆記運維
伺服器安全運維規範-安全運維
2019-12-12
伺服器運維
MySQL基礎運維——percona-toolkit運維工具
2022-03-08
MySql運維
集中運維與分散運維的比較 - thenewstack
2021-11-10
運維
初體驗！老男孩linux運維班學習心得分享
2022-10-20
Linux運維
一點不懂到小白的linux系統運維經歷分享
2018-11-04
Linux運維
免費提供運維專案，豐富簡歷和經歷
2024-05-18
運維
滴滴經驗分享：SQLFlow如何讓運營專家用上AI？
2019-10-30
SQLAI
《帝國熔爐》運營十年的經驗心得
2022-12-08
IT運維和自動化運維以及運維開發有啥不同？能解釋下嗎？
2021-09-23
運維

hadoop運維經驗

相關文章