Windows 10下Hadoop 3.2.2 安裝指南

banq發表於2022-02-09

首先,你需要安裝 Java,因為 Hadoop 是基於它的。然後,您需要下載並配置 Hadoop 檔案系統本身。另外,我建議你安裝WinRAR,因為你需要解壓一些檔案。
 

Java 安裝和配置
Java 下載

  • Apache Hadoop 3.3 及更高版本支援 Java 8 和 Java 11(僅限執行時),但必須使用 Java 8 進行 Hadoop 編譯。
  • 從 3.0.x 到 3.2.x 的 Apache Hadoop 現在僅支援 Java 8。
  • 從 2.7.x 到 2.10.x 的 Apache Hadoop 支援 Java 7 和 8。

在本指南中,我將解釋如何安裝Hadoop 3.2.2,因此您需要 Java 8。
 

Hadoop 檔案系統配置
Hadoop 下載
Java 正常工作後,您需要下載並配置 Hadoop 檔案系統。為此,請訪問Hadoop 官方下載站點.
  

Hadoop 配置
現在,您需要配置一些 Hadoop 檔案。如果您下載了與我相同的 Hadoop 版本,那麼您需要轉到etc\hadoop之前提取的 Hadoop 目錄中的資料夾(在我的情況下,完整路徑是C:\hadoop-3.2.2\etc\hadoop)。在那裡,使用您喜歡的文字編輯器開啟以下五個檔案:

  • core-site.xml
  • hadoop-env.cmd
  • hdfs-site.xml
  • mapred-site.xml
  • yarn-site.xml

 
在core-site.xml您需要設定預設的 Hadoop 檔案系統位置。將這段程式碼貼上到<configuration>標籤內:

<property> 
  <name>fs.defaultFS</name> 
  <value>hdfs://localhost:9000</value> 
</property>

在hadoop-env.cmd檔案中,您需要提供Java的路徑。此路徑以前在您設定JAVA_HOME環境變數時使用的。
您需要在第 25 行左右將此路徑分配為JAVA_HOME值。
 
在編輯hdfs-site.xml檔案之前,您需要建立一些新資料夾。轉到儲存驅動器根目錄中的 Hadoop 主目錄並在其中建立data資料夾:
現在,在新目錄中建立datanode和資料夾:namenodedata:
datanode 資料夾具有路徑C:\hadoop-3.2.2\data\datanode,namenode 目錄路徑為C:\hadoop-3.2.2\data\namenode.
完成此操作後,您需要提供此資料夾路徑作為hdfs-site.xml檔案中的屬性。您可以將以下塊直接複製到<configuration>標籤中,只需注意根據您的機器位置調整datanode和namenode路徑:

<property> 
  <name>dfs.replication</name> 
  <value>1</value> 
</property>
<property> 
  <name>dfs.namenode.name.dir</name> 
  <value>C:\hadoop-3.2.2\data\namenode</value> 
</property>
<property> 
  <name>dfs.datanode.data.dir</name> 
  <value>C:\hadoop-3.2.2\data\datanode</value> 
</property>


 
在mapred-site.xml檔案中,您需要將yarn設定為 MapReduce 框架。在標籤內複製以下程式碼<configuration>:

<property> 
  <name>mapreduce.framework.name</name> 
  <value>yarn</value> 
</property>


 
在最後一個檔案中yarn-site.xml,您需要再次在標籤內複製一些程式碼<configuration>:

<property> 
  <name>yarn.nodemanager.aux-services</name> 
  <value>mapreduce_shuffle</value> 
</property>
<property> 
  <name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name> 
  <value>org.apache.hadoop.mapred.ShuffleHandler</value> 
</property>



 

Hadoop環境變數配置
正確編輯所有五個檔案後,現在您需要為 Hadoop 建立一個環境變數。像建立變數時一樣開啟環境變數視窗並建立變數,將 Hadoopbin資料夾路徑分配為其值(在我的案例:)C:\hadoop-3.2.2\bin
現在,您需要編輯Path系統變數以新增 Hadoop 的路徑bin和sbin資料夾。這兩個資料夾都在 Hadoop 的根目錄中。因此,bin路徑與您剛剛分配給HADOOP_HOME變數 ( C:\hadoop-3.2.2\bin) 的路徑相同;sbin路徑,在我的情況下將是C:\hadoop-3.2.2\sbin:
 

修復 Hadoop 'bin' 資料夾
現在,您需要修復一些配置檔案。為此,您需要將 Hadoopbin資料夾替換為另一個bin資料夾,該資料夾已經包含正確配置的所有檔案。首先,下載這個壓縮檔案(hadoop3_xFixedbin.rar)。然後,您需要刪除bin資料夾;
之後,您必須解壓縮hadoop3_xFixedbin.rar才能將固定bin資料夾移動到 Hadoop 根位置。
您現在已經在您的計算機上配置了 Hadoop 檔案系統。
 

Hadoop 安裝驗證
最後,要檢查 Hadoop 是否正常工作,您需要執行它。為此,請以管理員身份開啟命令提示符。回想一下,您可以在 Windows 搜尋欄中鍵入“命令提示符CMD” :
需要轉到資料夾sbin內的hadoop目錄;就我而言,sbin目錄位於C:\hadoop-3.2.2\sbin. 輸入此路徑後,按 Enter;
輸入命令start-all.cmd並按 Enter;
您將看到將開啟幾個命令提示符。如果 Hadoop 配置正確,那麼這四個命令提示符將保持開啟並執行:

  • hadoop datanode
  • hadoop namenode
  • yarn resourcemanager
  • yarn nodemanager

恭喜,Hadoop 正在執行!
 

執行示例
WordCount 程式是 Hadoop 和 MapReduce 的“Hello World”。我不會深入探討 MapReduce 框架和 WordCount 編碼的細節。這將只是一個關於如何使用 Hadoop 執行任務的演示,如果 Hadoop 正常執行,也將有助於以更實際的方式進行測試。
Hadoop執行時,以管理員身份開啟一個新的命令提示符;
輸入命令:
hadoop fs -mkdir /input
在 Hadoop 檔案系統中建立一個資料夾
如何確保建立了該資料夾?您可以使用檔案系統瀏覽器檢查它。開啟您喜歡的網路瀏覽器並輸入地址:localhost:9870
現在,你你需要一些文字讓hadoop來計算它的單詞個數,我將使用Gabriel García Márquez純文字(西班牙文版)的《一百年孤獨》 。您可以在此處找到原始文字。

然後,您需要將此檔案放在Hadoop 檔案系統中建立的資料夾/input中。為此,請返回命令提示符並鍵入:

hadoop fs -put <path_to_txt_file> /input

<path_to_txt_file>是儲存文字檔案的路徑。
然後,你需要啟動MapReduce,MapReduce 已經包含在 Hadoop 中,您需要hadoop-mapreduce-examples-3.2.2.jar.jar 檔案的路徑才能執行該程式。它儲存在:C:\hadoop-3.2.2\share\hadoop\mapreduce
現在您已經找到了 MapReduce 程式路徑,您只需執行以下命令即可執行它:

hadoop jar C:\hadoop-3.2.2\share\hadoop\mapreduce\hadoop-mapreduce-examples-3.2.2.jar wordcount /input /output


使用/input資料夾的內容作為輸入,執行字數統計程式,並將結果儲存在/output目錄中。
如果你開啟http://localhost:9870/explorer.html你會看到這個output資料夾
 
恭喜!現在,您在 Windows 10 計算機上執行了 Hadoop 檔案系統,並且您已經執行了您的第一個 MapReduce 程式。希望本指南對您有用,非常感謝您閱讀!


 

相關文章