hadoop(7)–下載資料來源碼解析(上)

ROCK_傑哥發表於2019-02-19

原文網址 : https://flycode.co/archives/291690

前面瞭解了hadoop寫檔案，讀檔案的執行過程，那麼hadoop內部是怎麼實現的呢？接下來看一下從hdfs中讀取檔案的原始碼，一起來分析一下，這樣就會更加了解hdfs

首先將hadoop/share/common中的jar以及所依賴的lib中的jar，hadoop/share/hdfs中的jar以及所依賴的lib中的jar,匯入到工程

hadoop(7)–下載資料來源碼解析(上)

image.png

總共59個jar包，寫一個測試類

package cn.xmf.haddop;


import org.apache.commons.io.IOUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

import java.io.FileOutputStream;
import java.io.IOException;

/**
 * Created by Administrator on 2018/4/11.
 */
public class hdfs {
    public static void main(String[] args) throws IOException {
        Configuration conf = new Configuration();
        conf.set("fs.defaultFS","hdfs://my01:9000/");
        FileSystem fs = FileSystem.get(conf);
        FSDataInputStream input = fs.open(new Path("/jdk-8u161-linux-x64.tar.gz"));
        FileOutputStream output = new FileOutputStream("d:/jdk8.tgz");
        IOUtils.copy(input,output);
    }
}

複製程式碼

執行之後，會將之前hdfs根路徑下的jdk下載到d盤，效果如下圖

hadoop(7)–下載資料來源碼解析(上)

這個就是下載下來的

接下來重點來了將斷點打到FileSystem這一行，進入到FilegeSystem的get方法中

hadoop(7)–下載資料來源碼解析(上)

image.png

繼續點選get,進去

hadoop(7)–下載資料來源碼解析(上)

image.png

向下走,會走到

hadoop(7)–下載資料來源碼解析(上)

image.png

可以看出三目運算，執行CACHE.get(uri,conf),那麼進入到這個裡面看看

hadoop(7)–下載資料來源碼解析(上)

image.png

Cache是FileSystem的內部類，再往下看

hadoop(7)–下載資料來源碼解析(上)

image.png

繼續走

hadoop(7)–下載資料來源碼解析(上)

image.png

這裡就是根據scheme從SERVICE_FILE_SYSTEMS這個裡面拿出class,那麼hdfs對應對FileSystem的例項是什麼，繼續看一下

hadoop(7)–下載資料來源碼解析(上)

image.png

是DistributedFileSystem終於獲得了，下面就很簡單，就是將這個class返回，那麼在獲取FileSystem的時候，其實是根據conf中配置的fs.defaultFS來確定的哪一種FileSystem。OK到這裡剛才第一句話的原理才分析透徹，哪一句話呢？

hadoop(7)–下載資料來源碼解析(上)

image.png

就是圖上的這一句話：
FileSystem fs = FileSystem.get(conf);
好了！到這裡先暫停一下，說一下這個FileSystem都有哪些實現類，剛才的DistributedFileSystem看名字的意思就是分散式檔案系統，說白了就是hdfs的檔案系統，問什麼它在命名的時候不叫HdfsFileSystem呢？原因就是：他願意，哈哈，你能咋地，如果這個是你開發的，你可以叫HdfsFileSystem，但是你不是，我也不是，說這麼多就是要記住DistributedFileSystem是HDFS的FileSystem。好了！看一下FileSystem都有哪些實現類

hadoop(7)–下載資料來源碼解析(上)

image.png

這一張圖說明他有本地檔案系統，Ftp檔案系統等等
繼續

hadoop(7)–下載資料來源碼解析(上)

image.png

從上圖可以看出通過class反射出Fs，因為反射出來的是成員變數都是空的，所以要進行初始化，進入初始分方法

hadoop(7)–下載資料來源碼解析(上)

image.png

進入到DFSClient中

hadoop(7)–下載資料來源碼解析(上)

image.png

DFSClient中有一個屬性叫做namenode,這個就是客戶端的代理，繼續跟蹤程式碼，這個是怎麼賦值的

hadoop(7)–下載資料來源碼解析(上)

image.png

進入到createNonHAProxy這個裡面

hadoop(7)–下載資料來源碼解析(上)

image.png

繼續走

hadoop(7)–下載資料來源碼解析(上)

image.png

這句話就是拿到代理物件
返回之後

hadoop(7)–下載資料來源碼解析(上)

image.png

這樣namenode就是代理的proxyInfo中的代理物件

hadoop(7)–下載資料來源碼解析(上)

image.png

初始化完成之後將代理物件放到DFSClient中，並將dfsClient放到FileSystem中，其實FileSystem裡面最終要的就是這個客戶端的代理物件，實際上就是namenode的代理物件，這樣才能進行從namenode中寫檔案和讀檔案
用一個圖說明一下這個呼叫過程，一目瞭然

hadoop(7)–下載資料來源碼解析(上)

image.png

好了，今天就分享了FileSystem fs = FileSystem.get(conf);
明天繼續講FSDataInputStream input = fs.open(new Path("/jdk-8u161-linux-x64.tar.gz"));

相關文章

myBatis原始碼解析-資料來源篇（3）
2020-08-05
MyBatis原始碼
cloudera learning7:Hadoop資源管理
2018-04-10
CloudHadoop
hadoop之旅4-centerOS7： hadoop配置yarn資源管理器
2018-10-11
HadoopROSYarn
談談Spring Boot 資料來源載入及其多資料來源簡單實現
2019-04-12
Spring Boot
MVC + EFCore 專案實戰 - 數倉管理系統7 - 資料來源管理中--新增資料來源
2020-07-22
MVC
Hadoop3.2.1 【 HDFS 】原始碼分析 : DataXceiver: 讀取資料塊解析 [二]
2020-11-23
Hadoop原始碼
資料來源Parquet之使用程式設計方式載入資料
2018-09-26
程式設計
前端資源合集下載
2019-02-16
前端
spring多資料來源下事務不生效
2019-04-01
Spring
Grafana系列-統一展示-7-ElasticSearch資料來源
2023-05-12
GrafanaElasticsearch
高精度地形DEM資料下載（NASA資料 12.5米解析度）
2023-05-06
大資料入門：Hadoop Yarn元件基礎解析
2020-11-26
大資料HadoopYarn元件
Spring Boot 原始碼分析資料來源 + Mybatis 配置
2018-06-18
Spring Boot原始碼MyBatis
多資料來源與動態資料來源的權衡
2019-03-04
MVC + EFCore 專案實戰 - 數倉管理系統8 - 資料來源管理下--資料來源預覽
2020-07-28
MVC
51微控制器解析衛星定位資料來源碼+DHT11，1602顯示
2018-08-10
hadoop 透過cachefile來避免資料傾斜
2018-09-03
Hadoop
資料來源(DataSource)是什麼以及SpringBoot中資料來源配置
2018-08-09
Spring Boot
原來大資料 Hadoop 是這樣儲存資料的
2021-01-04
大資料Hadoop
Hadoop技術內幕：深入解析Hadoop和HDFS 1.3準備 Hadoop 原始碼
2018-09-25
Hadoop原始碼
手把手教你入門Hadoop（附程式碼&資源）
2018-05-04
Hadoop
《手寫Mybatis》第5章：資料來源的解析、建立和使用
2022-04-18
MyBatis
全程解析，MyBatis在SpringBoot中的動態多資料來源配置
2020-12-07
MyBatisSpring Boot
開源無程式碼 / 低程式碼平臺 NocoBase 0.20：支援多資料來源
2024-03-11
SparkSQL外部資料來源
2018-09-06
SparkSQL
阿里DRUID資料來源
2018-03-16
阿里UI
多資料來源配置
2024-04-04
SpringBoot多資料來源
2021-09-09
Spring Boot
TongWeb資料來源原理
2020-11-30
Web
[原始碼解析] PyTorch 分散式(2) --- 資料載入之DataLoader
2021-08-18
原始碼PyTorch分散式
2023年全國資料資源調查報告（附下載）
2024-06-04
大資料hadoop資料
2018-08-03
大資料Hadoop
KaliLinuxNetHunter教程下載相關資源
2019-01-17
Linux
Hadoop一鍵下載安裝包
2022-01-29
Hadoop
權重、程式碼、資料集全開源，效能超越Mistral-7B，蘋果小模型來了
2024-07-22
蘋果模型
Spring系列之資料來源的配置資料庫資料來源連線池的區別
2020-09-20
Spring資料庫
Hadoop資料模型
2020-09-24
Hadoop模型
Spring多資料來源配置
2019-03-01
Spring