Spark2 檔案處理和jar包執行

智慧先行者發表於2016-10-15

上傳資料檔案

mkdir -p data/ml/

hadoop fs -mkdir -p /datafile/wangxiao/

hadoop fs -ls /

hadoop fs -put /home/wangxiao/data/ml/Affairs.txt /datafile/wangxiao/

hadoop fs -ls -R /datafile

hdfs://ns1/datafile/wangxiao/Affairs.txt

 

執行jar包  

  mkdir -p jar/

  $SPARK_HOME/bin/spark-submit \  

  --class "ML2" \  

  --master local[2] \  

  /home/wangxiao/jar/test.jar

 

下載資料檔案到本地

hadoop fs -get  /datafile/wangxiao/Affairs.txt  /home/wangxiao/data/ml/

 

刪除HDFS上的檔案

hadoop fs -rm -r -f /datafile/wangxiao/data*

 

hadoop fs -cat /user/wangxiao/bfeed.txt  輸出文字內容

hadoop fs –mkdir //user/wangxiao/dir/ 在指定位置建立目錄。
   
hadoop fs -du -h /user/wangxiao/ 統計目錄下檔案大小

 

hadoop fs -count -q /user/wangxiao/ 統計檔案(夾)數量

名稱空間的quota(限制檔案數) 剩餘的名稱空間quota 物理空間的quota (限制空間佔用大小) 剩餘的物理空間 目錄數統計 檔案數統計 目錄邏輯空間總大小 路徑

邏輯空間,即分散式檔案系統上真正的檔案大小
物理空間,即存在分散式檔案系統上該檔案實際佔用的空間

分散式檔案系統為了保證檔案的可靠性,往往會儲存多個備份(一般是3份),
只要備份數不為1的情況下,一般物理空間會是邏輯空間的幾倍。

HDFS物理空間=邏輯空間*block備份數

相關文章