VSCode+Maven+Hadoop開發環境搭建

orion發表於2021-12-08

在Maven外掛的幫助下,VSCode寫Java其實非常方便。這一講我們介紹如何藉助maven用VScode搭建Hadoop開發環境。

1.Java環境安裝

首先我們需要搭建好Java開發環境。我們需要從網站 https://www.oracle.com/java/technologies/downloads/ 下載指定版本的Java壓縮包或安裝包。壓縮包需要解壓到機器的指定目錄,安裝包直接傻瓜式安裝即可。我這裡下載的是Java17的MacOS安裝包,執行後它預設給我安裝在了/Library/Java/JavaVirtualMachines/temurin-17.jdk/目錄下。

然後配置環境變數,Mac使用者在~/.zshrc中新增:

export JAVA_HOME=/Library/Java/JavaVirtualMachines/temurin-17.jdk/Contents/Home

然後source ~/.zshrc即可(Linux使用者我沒記錯的話應該是~/.bashrc檔案)。

可以執行java -version命令檢視當前機器的Java版本。

(base) lonelyprince7@lonelyprince7deMacBook-Pro ~ % java -version
openjdk version "17" 2021-09-14
OpenJDK Runtime Environment Temurin-17+35 (build 17+35)
OpenJDK 64-Bit Server VM Temurin-17+35 (build 17+35, mixed mode)

然後讀者需要在VSCode中安裝以下Java外掛:
NLP多工學習
其中需要注意,Maven for Java外掛是用來構建Java大型專案的(也就是說不只是使用JRE內部的包,而且使用外包的JDK包。內部的包用java命令編譯的時候就會自動幫我們匯入,但外部的包要稍微複雜一些,最簡單的方式就是使用maven工具了)。

2.新建Maven專案

首先,用VSCode開啟一個存放用於專案的目錄(在我電腦上是 "/Users/lonelyprince7/Documents/LocalCode/Hadoop-MapReduce" ),然後在右鍵選單中選擇從Maven原型中建立新專案。

NLP多工學習

然後從下拉選單中選擇“maven-archetype-quickstart”。

NLP多工學習

然後隨便選擇一個版本即可。

NLP多工學習

然後再輸入組織的名稱(該名稱在將你的專案打包釋出有用)。組織名稱一般命名為com.×××,這裡我命名為com.orion。注意組織名稱只能由小寫字元和下換線組成,不能包括大寫字元和空格之類的東西。

NLP多工學習

接下來輸入工程(archetype)的名稱,這裡我們命名為"hello_world"即可。

NLP多工學習

然後我們的工程目錄就選擇 "/Users/lonelyprince7/Documents/LocalCode/Hadoop-MapReduce" 就行。

NLP多工學習

之後VSCode會提示是否跳轉到"hello_world"工程的目錄,選擇“是”,然後就退跳轉到該目錄。
進入該目錄後,我們會發現控制檯正在初始化Maven配置,有以下列印輸出:
NLP多工學習
其中,會跳出一些選項讓我們選擇,我們只需要全部按回車選擇預設值即可。
NLP多工學習
最後,我們看到專案"hello_world"成功建立,專案目錄如下:
NLP多工學習

2.進行測試

我們可以看到App.java已經為我們生成,為如下內容:

package com.orion;

/**
 * Hello world!
 *
 */
public class App 
{
    public static void main( String[] args )
    {
        System.out.println( "Hello World!" );
    }
}

pom.xml只引入了最基本的junit依賴包,並配置了一些基本的Maven專案初始化的內容:

<?xml version="1.0" encoding="UTF-8"?>

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
  xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
  <modelVersion>4.0.0</modelVersion>

  <groupId>com.orion</groupId>
  <artifactId>hello_world</artifactId>
  <version>1.0-SNAPSHOT</version>

  <name>hello_world</name>
  <!-- FIXME change it to the project's website -->
  <url>http://www.example.com</url>

  <properties>
    <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    <maven.compiler.source>1.7</maven.compiler.source>
    <maven.compiler.target>1.7</maven.compiler.target>
  </properties>

  <dependencies>
    <dependency>
      <groupId>junit</groupId>
      <artifactId>junit</artifactId>
      <version>4.11</version>
      <scope>test</scope>
    </dependency>
  </dependencies>

  <build>
    <pluginManagement><!-- lock down plugins versions to avoid using Maven defaults (may be moved to parent pom) -->
      <plugins>
        <!-- clean lifecycle, see https://maven.apache.org/ref/current/maven-core/lifecycles.html#clean_Lifecycle -->
        <plugin>
          <artifactId>maven-clean-plugin</artifactId>
          <version>3.1.0</version>
        </plugin>
        <!-- default lifecycle, jar packaging: see https://maven.apache.org/ref/current/maven-core/default-bindings.html#Plugin_bindings_for_jar_packaging -->
        <plugin>
          <artifactId>maven-resources-plugin</artifactId>
          <version>3.0.2</version>
        </plugin>
        <plugin>
          <artifactId>maven-compiler-plugin</artifactId>
          <version>3.8.0</version>
        </plugin>
        <plugin>
          <artifactId>maven-surefire-plugin</artifactId>
          <version>2.22.1</version>
        </plugin>
        <plugin>
          <artifactId>maven-jar-plugin</artifactId>
          <version>3.0.2</version>
        </plugin>
        <plugin>
          <artifactId>maven-install-plugin</artifactId>
          <version>2.5.2</version>
        </plugin>
        <plugin>
          <artifactId>maven-deploy-plugin</artifactId>
          <version>2.8.2</version>
        </plugin>
        <!-- site lifecycle, see https://maven.apache.org/ref/current/maven-core/lifecycles.html#site_Lifecycle -->
        <plugin>
          <artifactId>maven-site-plugin</artifactId>
          <version>3.7.1</version>
        </plugin>
        <plugin>
          <artifactId>maven-project-info-reports-plugin</artifactId>
          <version>3.0.0</version>
        </plugin>
      </plugins>
    </pluginManagement>
  </build>
</project>

選中App.java檔案按F5進行編譯並執行,看到控制檯成功列印Hello World!

(base) lonelyprince7@lonelyprince7deMacBook-Pro hello_world %  /usr/bin/env /Library/Java/JavaVirtualMachines/temurin-17.jdk/Contents/Home/bin/java -agentlib:jdwp=transport=dt_socket,server=n,suspend=y,address=localhost:50684 -XX:+ShowCodeDetailsInExceptionMessages -cp /Users/lonelyprince7/Documents/LocalCode/Hadoop-MapReduce/hello_world/target/classes com.orion.App 
Hello World!

我們接下來試試用Maven匯入Hadoop依賴。我們只需要在pom.xml依賴項就行。相關的依賴項的名稱和版本號我們可以在Maven倉庫的官網 https://mvnrepository.com/ 進行查詢,比如我們可以查詢到Hadoop-common(3.3.1)版本的依賴項如下:

NLP多工學習

一般來說,Hadoop專案需要引入hadoop-common、hadoop-hdfs、hadoop-client、hadoop-yarn-api這幾個api,我們需要將下列標籤加入<dependencies> <dependencies/>之間,也即:

<dependencies>
    <dependency>
      <groupId>junit</groupId>
      <artifactId>junit</artifactId>
      <version>4.11</version>
      <scope>test</scope>
    </dependency>
    <!-- 匯入hadoop依賴環境 -->
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-common</artifactId>
        <version>3.3.1</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-hdfs</artifactId>
        <version>3.3.1</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-mapreduce-client-core</artifactId>
        <version>3.3.1</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-client</artifactId>
        <version>3.3.1</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-yarn-api</artifactId>
        <version>3.3.1</version>
    </dependency>
  </dependencies>

但是聰明的逆可能已經注意到了,這樣版本號就完全屬於“硬編碼”了。後期我要修改hadoop的版本號,只能把上面的挨個修改,非常麻煩。好在我們在<properties></properties>標籤之間先集中定義好一些後面要使用的常量(比如版本號),後面再使用${變數名}的形式來引用即可。如我們將hadoop的版本號hadoop.version追加到<properties></properties>標籤之間:

  <!-- 集中定義版本號 -->
  <properties>
    <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    <maven.compiler.source>1.7</maven.compiler.source>
    <maven.compiler.target>1.7</maven.compiler.target>
    <hadoop.version>3.3.1</hadoop.version> <!--這裡追加hadoop版本號-->
  </properties>

然後後面我們就可以使用${hadoop.version}來替代前面頻繁出現的3.3.1了。
最後給出我們完整的pom.xml檔案:

<?xml version="1.0" encoding="UTF-8"?>

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
  xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
  <modelVersion>4.0.0</modelVersion>

  <groupId>com.orion</groupId>
  <artifactId>hello_world</artifactId>
  <version>1.0-SNAPSHOT</version>

  <name>hello_world</name>
  <!-- FIXME change it to the project's website -->
  <url>http://www.example.com</url>

  <!-- 集中定義版本號 -->
  <properties>
    <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    <maven.compiler.source>1.7</maven.compiler.source>
    <maven.compiler.target>1.7</maven.compiler.target>
    <hadoop.version>3.3.1</hadoop.version> <!--這裡追加hadoop版本號-->
  </properties>

  <dependencies>
    <dependency>
      <groupId>junit</groupId>
      <artifactId>junit</artifactId>
      <version>4.11</version>
      <scope>test</scope>
    </dependency>
 <!-- 匯入hadoop依賴環境 -->
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-common</artifactId>
        <version>${hadoop.version}</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-hdfs</artifactId>
        <version>${hadoop.version}</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-mapreduce-client-core</artifactId>
        <version>${hadoop.version}</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-client</artifactId>
        <version>${hadoop.version}</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-yarn-api</artifactId>
        <version>${hadoop.version}</version>
    </dependency>
  </dependencies>
  </dependencies>

  <build>
    <pluginManagement><!-- lock down plugins versions to avoid using Maven defaults (may be moved to parent pom) -->
      <plugins>
        <!-- clean lifecycle, see https://maven.apache.org/ref/current/maven-core/lifecycles.html#clean_Lifecycle -->
        <plugin>
          <artifactId>maven-clean-plugin</artifactId>
          <version>3.1.0</version>
        </plugin>
        <!-- default lifecycle, jar packaging: see https://maven.apache.org/ref/current/maven-core/default-bindings.html#Plugin_bindings_for_jar_packaging -->
        <plugin>
          <artifactId>maven-resources-plugin</artifactId>
          <version>3.0.2</version>
        </plugin>
        <plugin>
          <artifactId>maven-compiler-plugin</artifactId>
          <version>3.8.0</version>
        </plugin>
        <plugin>
          <artifactId>maven-surefire-plugin</artifactId>
          <version>2.22.1</version>
        </plugin>
        <plugin>
          <artifactId>maven-jar-plugin</artifactId>
          <version>3.0.2</version>
        </plugin>
        <plugin>
          <artifactId>maven-install-plugin</artifactId>
          <version>2.5.2</version>
        </plugin>
        <plugin>
          <artifactId>maven-deploy-plugin</artifactId>
          <version>2.8.2</version>
        </plugin>
        <!-- site lifecycle, see https://maven.apache.org/ref/current/maven-core/lifecycles.html#site_Lifecycle -->
        <plugin>
          <artifactId>maven-site-plugin</artifactId>
          <version>3.7.1</version>
        </plugin>
        <plugin>
          <artifactId>maven-project-info-reports-plugin</artifactId>
          <version>3.0.0</version>
        </plugin>
      </plugins>
    </pluginManagement>
  </build>s
</project>

ctrl/command+s儲存,專案會對pom.xml重新解析,匯入我們新增進入的包。

最後我們嘗試在App.java中匯入hadoop相關的包:

package com.orion;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
/**
 * Hello world!
 *
 */
public class App 
{
    public static void main( String[] args )
    {
        System.out.println( "Hello World!" );
    }
}

按'F5'重新編譯執行,成功列印輸出Hello World!,說明我們的包匯入成功。

(base) lonelyprince7@lonelyprince7deMacBook-Pro hello_world %  /usr/bin/env /Library/Java/JavaVirtualMachines/temurin-17.jdk/Contents/Home/bin/java -agentlib:jdwp=transport=dt_socket,server=n,suspend=y,address=localhost:54181 --enable-preview -XX:+ShowCodeDetailsInExceptionMessages -cp "/Users/lonelyprince7/Library/Application Support/Code/User/workspaceStorage/fe34994f622cdbfbf60e8ed045c6bde3/redhat.java/jdt_ws/jdt.ls-java-project/bin" com.orion.App 
Hello World!

注意,如果報錯org.apache.hadoop.fs.FileSystem cant be resolved這種錯誤,則需要先清空專案快取,然後再重新編譯執行。

至此,我們已經成功用VSCode+Maven建立好一個Hadoop的開發環境。在Hadoop程式設計中,最基本的一種分散式程式設計正規化即MapReduce程式設計。在後面我們會藉由“WordCount”(詞頻統計)這個MapReduce程式設計的入門項來講解Hadoop中MapReduce程式設計的基本語法,敬請繼續關注。

相關文章