hadoop:spark-project專案的hadoop配置
1、使用hadoop-2.5.0-cdh5.3.6.tar.gz,上傳到虛擬機器的/usr/local目錄下。(http://archive.cloudera.com/cdh5/cdh/5/)
2、將hadoop包進行解壓縮:tar -zxvf hadoop-2.5.0-cdh5.3.6.tar.gz
3、對hadoop目錄進行重新命名:mv hadoop-2.5.0-cdh5.3.6 hadoop
4、配置hadoop相關環境變數
vi ~/.bashrc
export HADOOP_HOME=/usr/local/hadoop
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source ~/.bashrc
5、建立/usr/local/data目錄
修改core-site.xml<property> <name>fs.default.name</name> <value>hdfs://sparkproject1:9000</value> </property> |
修改hdfs-site.xml
//用於確定將HDFS檔案系統的元資訊儲存在什麼目錄下。若設定為多個目錄,那這些目錄下都儲存著元資訊的多個備份。 <property> <name>dfs.name.dir</name> <value>/usr/local/data/namenode</value> </property>
//用於確定將HDFS檔案系統的資料儲存在什麼目錄下。將這個引數設定為多個分割槽上目錄,即可將HDFS建在不同分割槽上 <property> <name>dfs.data.dir</name> <value>/usr/local/data/datanode</value> </property>
//dfs.tmp.dir在安裝配置HADOOP的時候,一定要更改hadoop.tmp.dir ,機器意外斷電,服務重啟後,/tmp 下的目錄被清空,預設位置在/tmp/{$user} <property> <name>dfs.tmp.dir</name> // <value>/usr/local/data/tmp</value> </property> //hadoop的備份係數,每個block在hadoop叢集中有幾份,係數越高,冗餘性越好,佔用儲存也越多。備份係數在hdfs-site.xml中定義,預設值為3. <property> <name>dfs.replication</name> <value>2</value> </property>
參考: http://blog.sina.com.cn/s/blog_48a45b95010119cy.html |
修改mapred-site.xml//名稱mapreduce.framework.name指的是使用yarn執行mapreduce程式 <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> |
修改yarn-site.xml//名稱yarn.resourcemanager.hostname指的是執行ResourceManager機器所在的節點位置 <property> <name>yarn.resourcemanager.hostname</name> <value>sparkproject1</value> </property> //yarn.nodemanager.aux-services 指的是NodeManager上執行的附屬服務。需配置成mapreduce_shuffle,才可執行MapReduce程式 <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> |
修改slaves檔案sparkproject2 sparkproject3 |
在另外兩臺機器上搭建hadoop
1、使用如上配置在另外兩臺機器上搭建hadoop,可以使用scp命令將sparkproject1上面的hadoop安裝包和~/.bashrc配置檔案都拷貝過去。(scp -r hadoop root@sparkproject2:/usr/local)
2、要記得對.bashrc檔案進行source,以讓它生效。
3、記得在sparkproject2和sparkproject3的/usr/local目錄下建立data目錄。
啟動hdfs叢集
1、格式化namenode:在sparkproject1上執行以下命令,hdfs namenode -format
2、啟動hdfs叢集:start-dfs.sh
3、驗證啟動是否成功:
jps、50070埠
sparkproject1:namenode、secondarynamenode
sparkproject2:datanode
sparkproject3:datanode
以下是部署單機的日誌:
4、hdfs dfs -put hello.txt /hello.txt
啟動yarn叢集
1、啟動yarn叢集:start-yarn.sh
2、驗證啟動是否成功:
jps、8088埠
sparkproject1:resourcemanager、nodemanager
sparkproject2:nodemanager
sparkproject3:nodemanager
以下是部署單機的日誌:
然後就可以開啟了:
相關文章
- Flume:spark-project專案的flume配置SparkProject
- zookeeper:spark-project專案的zookeeper配置SparkProject
- kafka:spark-project專案的kafka和scala配置KafkaSparkProject
- zookeeper:spark-project專案的hive和mysql配置SparkProjectHiveMySql
- 【Hadoop篇04】Hadoop配置日誌聚集Hadoop
- hadoop 部署配置Hadoop
- CentOS:spark-project專案的CentOS 6.4安裝配置CentOSSparkProject
- 【Hadoop】HBase元件配置Hadoop元件
- hadoop專案開發案例舉例Hadoop
- hadoop(二)—hadoop配置、執行錯誤總結Hadoop
- 1、大資料 Hadoop配置和單機Hadoop系統配置大資料Hadoop
- Hadoop叢集安裝配置Hadoop
- Win10 配置hadoopWin10Hadoop
- 常見的七種Hadoop和Spark專案案例HadoopSpark
- Hadoop配置core-site.xml檔案詳解HadoopXML
- Hadoop檢視檔案///hadoop 清洗檔案出現亂碼Hadoop
- Hadoop KMS配置(HDFS透明加密)Hadoop加密
- hadoop3.1.3 local 模式配置Hadoop模式
- Hadoop雙namenode配置搭建(HA)Hadoop
- Ubuntu下 hadoop的安裝與配置UbuntuHadoop
- 大資料專欄 - 基礎1 Hadoop安裝配置大資料Hadoop
- hadoop之旅4-centerOS7: hadoop配置yarn資源管理器HadoopROSYarn
- Hadoop 專欄 - MapReduce 入門Hadoop
- 基於Hadoop框架實現的對歷年四級單詞的詞頻分析(入門級Hadoop專案)Hadoop框架
- hadoop叢集配置和啟動Hadoop
- Hadoop完全分散式叢集配置Hadoop分散式
- hadoop1.0 和 Hadoop 2.0 的區別Hadoop
- Hadoop小檔案的處理方式Hadoop
- Hadoop Streaming 讀ORC檔案Hadoop
- Hadoop VERSION檔案誤刪Hadoop
- Qihoo360/XLearning:奇虎的基於Hadoop 人工智慧專案Hadoop人工智慧
- Hadoop的故事Hadoop
- 基於Hadoop不同版本搭建hive叢集(附配置檔案)HadoopHive
- 替代Hadoop作為資料湖的新的開源專案 - unpocodejavaHadoopJava
- HadoopHadoop
- 配置Hadoop中啟用LZO壓縮Hadoop
- Hadoop配置hdfs-site.xml詳解HadoopXML
- Hadoop叢集是配置時間同步!Hadoop