前面瞭解了hadoop寫檔案,讀檔案的執行過程,那麼hadoop內部是怎麼實現的呢?接下來看一下從hdfs中讀取檔案的原始碼,一起來分析一下,這樣就會更加了解hdfs
首先將hadoop/share/common中的jar以及所依賴的lib中的jar,hadoop/share/hdfs中的jar以及所依賴的lib中的jar,匯入到工程
data:image/s3,"s3://crabby-images/7d0a7/7d0a77d5eebf49a9cf8012f75e2efece3dd8ae8e" alt="hadoop(7)–下載資料來源碼解析(上)"
總共59個jar包,寫一個測試類
package cn.xmf.haddop;
import org.apache.commons.io.IOUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import java.io.FileOutputStream;
import java.io.IOException;
/**
* Created by Administrator on 2018/4/11.
*/
public class hdfs {
public static void main(String[] args) throws IOException {
Configuration conf = new Configuration();
conf.set("fs.defaultFS","hdfs://my01:9000/");
FileSystem fs = FileSystem.get(conf);
FSDataInputStream input = fs.open(new Path("/jdk-8u161-linux-x64.tar.gz"));
FileOutputStream output = new FileOutputStream("d:/jdk8.tgz");
IOUtils.copy(input,output);
}
}
複製程式碼
執行之後,會將之前hdfs根路徑下的jdk下載到d盤,效果如下圖
data:image/s3,"s3://crabby-images/be8c7/be8c7a6e6f07bebe7fabd841ed61ad5e3ad8a60b" alt="hadoop(7)–下載資料來源碼解析(上)"
接下來重點來了將斷點打到FileSystem這一行,進入到FilegeSystem的get方法中
data:image/s3,"s3://crabby-images/14f91/14f9153802533296366dd149dd455e5b719fc318" alt="hadoop(7)–下載資料來源碼解析(上)"
繼續點選get,進去
data:image/s3,"s3://crabby-images/c1f9a/c1f9aa26813dfe6ab2f3ff275a4bff0864a5e0b4" alt="hadoop(7)–下載資料來源碼解析(上)"
向下走,會走到
data:image/s3,"s3://crabby-images/b6777/b6777a0a5a6c31683d1babd026519d41da8d4e72" alt="hadoop(7)–下載資料來源碼解析(上)"
可以看出三目運算,執行CACHE.get(uri,conf),那麼進入到這個裡面看看
data:image/s3,"s3://crabby-images/2ad86/2ad86059860a1fd6513cfcb5201aaa9ebfbed872" alt="hadoop(7)–下載資料來源碼解析(上)"
Cache是FileSystem的內部類,再往下看
data:image/s3,"s3://crabby-images/01f46/01f466cf4c409a7c899dbe143a66baa2f5e73c1d" alt="hadoop(7)–下載資料來源碼解析(上)"
繼續走
data:image/s3,"s3://crabby-images/3ab08/3ab0860d9c1188e07aa56b477ee9c2cd5cc91569" alt="hadoop(7)–下載資料來源碼解析(上)"
這裡就是根據scheme從SERVICE_FILE_SYSTEMS這個裡面拿出class,那麼hdfs對應對FileSystem的例項是什麼,繼續看一下
data:image/s3,"s3://crabby-images/9753d/9753d9ec5b12950683efeb276e74e05975f1c14e" alt="hadoop(7)–下載資料來源碼解析(上)"
是DistributedFileSystem終於獲得了,下面就很簡單,就是將這個class返回,那麼在獲取FileSystem的時候,其實是根據conf中配置的fs.defaultFS來確定的哪一種FileSystem。OK到這裡剛才第一句話的原理才分析透徹,哪一句話呢?
data:image/s3,"s3://crabby-images/d9685/d9685e09402ff71797209701d87af0d76378f276" alt="hadoop(7)–下載資料來源碼解析(上)"
就是圖上的這一句話:FileSystem fs = FileSystem.get(conf);
好了!到這裡先暫停一下,說一下這個FileSystem都有哪些實現類,剛才的DistributedFileSystem看名字的意思就是分散式檔案系統,說白了就是hdfs的檔案系統,問什麼它在命名的時候不叫HdfsFileSystem呢?原因就是:他願意,哈哈,你能咋地,如果這個是你開發的,你可以叫HdfsFileSystem,但是你不是,我也不是,說這麼多就是要記住DistributedFileSystem是HDFS的FileSystem。好了!看一下FileSystem都有哪些實現類
data:image/s3,"s3://crabby-images/f6e65/f6e6556c87abedc1ac59d3c9586795ca8576fec5" alt="hadoop(7)–下載資料來源碼解析(上)"
這一張圖說明他有本地檔案系統,Ftp檔案系統等等
繼續
data:image/s3,"s3://crabby-images/efe5f/efe5fe78348250e6a4a14c441c1983688f759389" alt="hadoop(7)–下載資料來源碼解析(上)"
從上圖可以看出通過class反射出Fs,因為反射出來的是成員變數都是空的,所以要進行初始化,進入初始分方法
data:image/s3,"s3://crabby-images/6c296/6c296539f461ae881f2489cc38257fafbf295d17" alt="hadoop(7)–下載資料來源碼解析(上)"
進入到DFSClient中
data:image/s3,"s3://crabby-images/46251/46251a2a4a7cbf26599f2968802e025a0cd13989" alt="hadoop(7)–下載資料來源碼解析(上)"
DFSClient中有一個屬性叫做namenode,這個就是客戶端的代理,繼續跟蹤程式碼,這個是怎麼賦值的
data:image/s3,"s3://crabby-images/08090/0809003404e2dccd480e88ff25d976430a31e369" alt="hadoop(7)–下載資料來源碼解析(上)"
進入到createNonHAProxy這個裡面
data:image/s3,"s3://crabby-images/45a3d/45a3d890f6adcfe28190adac600dd0112ad392db" alt="hadoop(7)–下載資料來源碼解析(上)"
繼續走
data:image/s3,"s3://crabby-images/5881d/5881d7ae0acf182ef45addfc0ace42372869de7f" alt="hadoop(7)–下載資料來源碼解析(上)"
這句話就是拿到代理物件
返回之後
data:image/s3,"s3://crabby-images/fbb85/fbb854ac513cf2cfb601a9a3b8cd0dfe4f22f1c0" alt="hadoop(7)–下載資料來源碼解析(上)"
這樣namenode就是代理的proxyInfo中的代理物件
data:image/s3,"s3://crabby-images/50da5/50da582bfd0749e915e93a5982131118e0a1a567" alt="hadoop(7)–下載資料來源碼解析(上)"
初始化完成之後將代理物件放到DFSClient中,並將dfsClient放到FileSystem中,其實FileSystem裡面最終要的就是這個客戶端的代理物件,實際上就是namenode的代理物件,這樣才能進行從namenode中寫檔案和讀檔案
用一個圖說明一下這個呼叫過程,一目瞭然
data:image/s3,"s3://crabby-images/a4ea5/a4ea5ee5f0eeb3495d1df3cf05014621a3175706" alt="hadoop(7)–下載資料來源碼解析(上)"
好了,今天就分享了FileSystem fs = FileSystem.get(conf);
明天繼續講FSDataInputStream input = fs.open(new Path("/jdk-8u161-linux-x64.tar.gz"));