Python對Hadoop資料進行讀寫

Mr_zhangjx發表於2020-11-16

首先需要借用第三方庫pyhdfs

建立一個Hadoop連線物件

hdfs_client = pyhdfs.HdfsClient(hdfs_ip,hdfs_port,hdfs_user)。

hdfs_ip:ip地址;hdfs_port:埠;hdfs_user:使用者名稱

還需要知道檔案路徑,比如:/hdoopTest/orderTest/xx.txt。

檢視檔案時使用的方法:

hdfs_client.listdir(‘/hdoopTest/orderTest’)

將檔案拉到本地:

hdfs.client.copy_to_local('/hdoopTest/orderTest/xx.txt','/local_path/xx.txt')

將本地檔案上傳到Hadoop:

hdfs.client.copy_from_local('/local_path/2xx.txt','/hdoopTest/orderTest/xx.txt')

從Hadoop中讀取資料

  1. with hdfs.client.open(file)as f:

  2. data_list = f.readlines( )

  3. for data in data_list:

  4. print(data.decode())

相關文章