HDFS 05 - HDFS 常用的 Java API 操作

瘦風發表於2021-06-12

原文網址 : https://www.cnblogs.com/shoufeng/p/14879045.html

0 - 配置 Hadoop 環境（Windows系統）

下述步驟適用於 Windows 系統，其他系統可忽略。

在 Windows 系統直接執行 Hadoop 相關程式碼，會提示缺少 winutils.exe 和 hadoop.dll 檔案：

java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

原因：通過程式碼訪問 Hadoop 叢集，本地開發環境相當於 Hadoop 客戶端，需要有 Hadoop 相關軟體才可正常執行。

配置步驟：

1）到 https://github.com/cdarlint/winutils 下載與叢集版本相匹配的資料夾，然後將此資料夾拷貝到沒有中文和空格的路徑下，比如 D:\software\hadoop-3.2.1；

2）在 Windows 的環境變數中新增 HADOOP_HOME，值為上面的路徑，並將 %HADOOP_HOME%\bin 新增到 path 中；

3）把上述資料夾 bin目錄下的 hadoop.dll 檔案拷貝到系統盤 C:\Windows\System32 目錄；

4）重啟 Windows 電腦。

1 - 匯入 Maven 依賴

鑑於篇幅有限，相關 Maven 依賴請參見：《https://github.com/healchow/bigdata-study/blob/main/pom.xml》

2 - 常用類介紹

通過 Java API 操作 HDFS，主要涉及以下 class：

1）Configuration

主要用來封裝客戶端 / 服務端的配置。

2）FileSystem

這個類的物件是一個檔案系統物件，可以用該物件的一些方法來對檔案進行操作。

可通過靜態方法獲得該物件：

// 通過 conf 中的 “fs.defaultFS” 引數的值來確定檔案系統的具體型別
FileSystem fs = FileSystem.get(conf);

如果程式碼中沒有指定 fs.defaultFS，並且工程的 ClassPath 下也沒有相應的配置，此引數的預設值就由 Hadoop Jar 包中的 core-default.xml 檔案來確定：

預設值是 file:/// ，獲取的不是 DistributedFileSystem 的例項，而是一個本地檔案系統的客戶端物件。

3 - 常見 API 操作

3.1 獲取檔案系統（重要）

方式1：FileSystem.get(conf)

/**
 * 獲取 FileSystem - FileSystem.get()
 */
@Test
public void testGetFileSystem1() throws IOException {
    // 建立 Configuration 物件
    Configuration conf = new Configuration();

    // 指定檔案系統型別
    conf.set("fs.defaultFS", "hdfs://hadoop:9000");

    // 獲取指定的檔案系統
    FileSystem fileSystem = FileSystem.get(conf);
    // FileSystem fileSystem = FileSystem.get(new URI("hdfs://hadoop:9000"), new Configuration());

    // 結果：DFS[DFSClient[clientName=DFSClient_NONMAPREDUCE_1219793882_1, ugi=healchow (auth:SIMPLE)]]
    System.out.println(fileSystem);

    // 關閉檔案系統
    fileSystem.close();
}

方式2：FileSystem.newInstance(conf)

/**
 * 獲取 FileSystem - FileSystem.newInstance()
 */
@Test
public void testGetFileSystem2() throws IOException {
    // 建立 Configuration 物件
    Configuration conf = new Configuration();

    // 指定檔案系統型別
    conf.set("fs.defaultFS", "hdfs://hadoop:9000");

    // 獲取指定的檔案系統
    FileSystem fileSystem = FileSystem.newInstance(conf);
    // FileSystem fileSystem = FileSystem.newInstance(new URI("hdfs://hadoop:9000"), new Configuration());

    System.out.println(fileSystem);
    fileSystem.close();
}

3.2 建立目錄、寫入檔案

/**
 * 通過 HDFS URL 建立目錄、寫入檔案
 */
@Test
public void testPutFile() throws IOException, URISyntaxException {
    // 建立測試目錄（可建立多級目錄）
    FileSystem fileSystem = FileSystem.newInstance(new URI("hdfs://hadoop:9000"), new Configuration());
    boolean result = fileSystem.mkdirs(new Path("/test/input"));
    System.out.println("mkdir result: " + result);

    // 建立檔案，若存在則覆蓋，返回的是寫入檔案的輸出流
    FSDataOutputStream outputStream = fileSystem.create(new Path("/test/input/hello.txt"), true);
    String content = "hello,hadoop\nhello,hdfs";
    outputStream.write(content.getBytes(StandardCharsets.UTF_8));

    // 關閉流（不丟擲異常）
    IOUtils.closeQuietly(outputStream);
}

3.3 上傳檔案

/**
 * 向 HDFS 上傳檔案 - copyFromLocalFile()
 */
@Test
public void testUploadFile() throws URISyntaxException, IOException {
    // 獲取 FileSystem
    FileSystem fileSystem = FileSystem.get(new URI("hdfs://hadoop:9000"), new Configuration());

    // 從本地上傳檔案，兩個引數都要指定到具體的檔案
    fileSystem.copyFromLocalFile(new Path("/Users/healchow/bigdata/core-site.xml"),
            new Path("/test/upload/core-site.xml"));

    // 關閉FileSystem
    fileSystem.close();
}

3.4 下載檔案

HDFS URL 開啟 InputStream 的方式：

/**
 * 通過 HDFS URL 獲取檔案並下載 - IOUtils.copy() 方法
 */
@Test
public void testDownFileByUrl() throws IOException {
    // 註冊 HDFS URL
    URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory());

    // 獲取 HDFS 檔案的輸入流
    InputStream inputStream = new URL("hdfs://hadoop:9000/test/input/hello.txt").openStream();
    // 獲取本地檔案的輸出流（絕對路徑，資料夾必須存在）
    FileOutputStream outputStream = new FileOutputStream("/Users/healchow/bigdata/test/hello.txt");

    // 拷貝檔案
    IOUtils.copy(inputStream, outputStream);

    // 關閉流（不丟擲異常）
    IOUtils.closeQuietly(inputStream);
    IOUtils.closeQuietly(outputStream);
}

FileSystem 開啟 InputStream 的方式：

/**
 * 通過 FileSystem 獲取檔案並下載 - IOUtils.copy() 方法
 */
@Test
public void testDownloadFile() throws URISyntaxException, IOException {
    // 獲取 FileSystem
    FileSystem fileSystem = FileSystem.get(new URI("hdfs://hadoop:9000"), new Configuration());

    // 獲取 HDFS 檔案的輸入流
    FSDataInputStream inputStream = fileSystem.open(new Path("/test/input/hello.txt"));

    // 獲取本地檔案的輸出流
    FileOutputStream outputStream = new FileOutputStream("/Users/healchow/bigdata/test/hello1.txt");

    // 拷貝檔案
    IOUtils.copy(inputStream, outputStream);

    // 關閉流
    IOUtils.closeQuietly(inputStream);
    IOUtils.closeQuietly(outputStream);
    fileSystem.close();
}

FileSystem#copyToLocalFile() 的方式：

/**
 * 通過 FileSystem 獲取檔案並下載 - copyToLocalFile() 方法
 */
@Test
public void testDownloadFileByCopyTo() throws URISyntaxException, IOException, InterruptedException {
    // 獲取 FileSystem
    FileSystem fileSystem = FileSystem.get(new URI("hdfs://hadoop:9000"), new Configuration(), "root");

    // copyToLocalFile 拷貝檔案到本地，會下載 CRC 校驗檔案
    fileSystem.copyToLocalFile(new Path("/test/input/hello.txt"),
            new Path("/Users/healchow/bigdata/test/hello2.txt"));

    // 關閉 FileSystem
    fileSystem.close();
}

3.5 遍歷 HDFS 的檔案

/**
 * 遍歷 HDFS 檔案
 */
@Test
public void testListFiles() throws URISyntaxException, IOException {
    // 獲取FileSystem例項
    FileSystem fileSystem = FileSystem.get(new URI("hdfs://hadoop:9000"), new Configuration());

    // 遞迴獲取 /test 目錄下所有的檔案資訊
    RemoteIterator<LocatedFileStatus> iterator = fileSystem.listFiles(new Path("/test"), true);

    // 遍歷檔案
    while (iterator.hasNext()) {
        LocatedFileStatus fileStatus = iterator.next();

        // 獲取檔案的絕對路徑：hdfs://hadoop:9000/xxx
        System.out.println("filePath: " + fileStatus.getPath());

        // 檔案的 block 資訊
        BlockLocation[] blockLocations = fileStatus.getBlockLocations();
        for (BlockLocation blockLocation : blockLocations) {
            String[] hosts = blockLocation.getHosts();
            for (String host : hosts) {
                System.out.println("blockHost: " + host);
            }
        }
        System.out.println("blockSize: " + blockLocations.length);
    }
}

4 - HDFS 的訪問許可權控制

從上面的 API 練習，不難發現：只要得到了 HDFS 的 URL（即 fs.defaultFS）配置項，能訪問到叢集的任何人都能讀寫 HDFS 上的資料，這會導致資料的安全性完全無法得到保障。

為了解決這個問題，HDFS 有訪問許可權控制的方法，只有通過認證的使用者，按照其所擁有的許可權，讀取或寫入某些目錄下的檔案。

開啟 HDFS 訪問許可權控制的方法如下：

1）停止 HDFS 叢集：

cd ~/bigdata/hadoop-3.2.1
sbin/stop-dfs.sh

2）修改 ~/bigdata/hadoop-3.2.1/etc/hadoop/hdfs-site.xml 中的配置，新增如下內容：

<property>
    <name>dfs.permissions.enabled</name>
    <value>true</value>
</property>

4）重啟 HDFS 叢集：

cd ~/bigdata/hadoop-3.2.1
sbin/start-dfs.sh

5）上傳測試檔案到 HDFS 叢集，這裡將上傳後的一個檔案的許可權修改為 600，即只能所有者讀寫：

cd ~/bigdata/hadoop-3.2.1/etc/hadoop
hdfs dfs -mkdir /test/config
hdfs dfs -put *.xml /test/config
hdfs dfs -chmod 600 /test/config/core-site.xml

6）通過程式碼下載檔案：

/**
 * 通過下載檔案，測試訪問許可權控制
 */
@Test
public void testAccessControl() throws Exception {
    // 開啟許可權控制後，當前使用者（啟動 NameNode 的使用者）應當能成功訪問
    // FileSystem fileSystem = FileSystem.get(new URI("hdfs://hadoop:9000"), new Configuration());
    // 偽造其他使用者訪問，應當訪問失敗
    FileSystem fileSystem = FileSystem.get(new URI("hdfs://hadoop:9000"), new Configuration(), "testuser");

    fileSystem.copyToLocalFile(new Path("/test/config/core-site.xml"),
            new Path("file:/Users/healchow/bigdata/core-site.xml"));

    fileSystem.close();
}

說明：本地測試失敗。無論用哪個使用者，訪問都成功。

查了很多資料，沒有說得通的。勞煩有了解的大佬，留言告知我呀?

版權宣告

作者：瘦風(https://healchow.com)

出處：部落格園-瘦風的南牆(https://www.cnblogs.com/shoufeng)

感謝閱讀，公眾號「瘦風的南牆」，手機端閱讀更佳，還有其他福利和心得輸出，歡迎掃碼關注?

本文版權歸博主所有，歡迎轉載，但 [必須在頁面明顯位置標明原文連結]，否則博主保留追究相關人士法律責任的權利。

HDFS常用操作
2020-12-26
Hadoop（十）HDFS API操作
2024-09-14
HadoopAPI
HDFS 05 - HDFS 的後設資料管理（FSImage、EditLog、Checkpoint）
2021-06-06
Java操作hdfs出現的問題
2018-12-19
Java
如何用JAVA程式碼操作HDFS
2020-12-30
Java
4、hdfs api使用
2018-07-23
API
mac系統上hdfs java api的簡單使用
2023-03-08
MacJavaAPI
HDFS常用命令
2018-08-07
HDFS 常用命令
2020-04-21
透過API訪問HDFS
2021-09-09
API
hadoop hdfs 常用命令
2023-09-28
Hadoop
使用java操作ranger，hdfs ranger授權操作，hive ranger授權操作
2020-10-03
JavaRangerHive
Hadoop學習之路（十）HDFS API的使用
2018-03-21
HadoopAPI
HDFS 09 - HDFS NameNode 的高可用機制
2021-08-22
HDFS
2020-11-12
大資料系列2：Hdfs的讀寫操作
2021-01-26
大資料
（一）hadoop叢集搭建——1.4hdfs的操作
2020-12-21
Hadoop
HDFS 命令：用於管理HDFS的Hadoop Shell命令大全
2021-12-29
Hadoop
Hadoop–HDFS
2018-12-20
Hadoop
hdfs命令
2018-06-04
HDFS的PID整理
2018-05-22
Java HDFS API 追加檔案寫入內容異常問題的解決
2018-06-28
JavaAPI
Mysql增量寫入Hdfs（二） --Storm+hdfs的流式處理
2018-12-12
MySqlORM
Hadoop HDFS(一)
2018-05-24
Hadoop
Hadoop HDFS（二）
2018-05-31
Hadoop
hdfs dfsadmin -fetchImage
2019-08-21
HDFS shell命令
2019-09-21
Hadoop系列006-HDFS概念及命令列操作
2018-12-10
Hadoop命令列
HDFS的詳解（一）
2018-08-07
HDFS的讀寫流程
2024-11-03
HDFS原始碼解析系列一——HDFS通訊協議
2022-02-16
原始碼協議
Hadoop框架：HDFS讀寫機制與API詳解
2020-09-30
Hadoop框架API
HDFS 07 - HDFS 效能調優之合併小檔案
2021-06-20
HDFS的機架感知策略
2020-06-15
HDFS的體系結構
2020-06-08
## 對HDFS的初步認識
2020-12-08
HDFS入門概述
2020-07-03
hdfs學習(三)
2020-08-15