hdfs小檔案分析

dididi崩了發表於2024-10-10

原文網址 : https://www.cnblogs.com/zyp87/p/18456824

匯出namenode的後設資料檔案，並將資料轉成csv格式，逗號分割欄位

hdfs dfsadmin -fetchImage ./ # 將檔案拉到本地

hdfs oiv -i fsimage_0000000000243832876 -o fsimage.csv -p Delimited -delimiter "," -Xmx30720m # 使用hdfs工具本地解析檔案，我的映象是30G，我就用了30的堆記憶體解析

# 建立hive表

CREATE TABLE temp_dev_db.fsimage_info_csv(
path string,
replication int,
modificationtime string,
accesstime string,
preferredblocksize bigint,
blockscount int,
filesize bigint,
nsquota string,
dsquota string,
permission string,
username string,
groupname string)
ROW FORMAT SERDE
'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
'field.delim'=',',
'serialization.format'=',')
STORED AS INPUTFORMAT
'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat';

# 將解析的檔案匯入到hive的目錄下

hdfs dfs -put fsimage.csv hdfs://ns/xxxxxx

# 統計小於10MB的檔案個數，根據路徑分組

select concat('/',split(path,'/')[1], '/',split(path,'/')[2], '/',split(path,'/')[3], '/',split(path,'/')[4], '/', split(path,'/')[5]) AS dir_path,count(1) as small_file_num from temp_dev_db.fsimage_info_csv
where path like '/apps/dcp/hive%' and dsquota != -1 and filesize < 1024*1024*10
group by concat('/',split(path,'/')[1], '/',split(path,'/')[2], '/',split(path,'/')[3], '/',split(path,'/')[4], '/', split(path,'/')[5])
order by count(1) desc
limit 100;

# 將結果匯出本地開始治理小檔案問題

HDFS 07 - HDFS 效能調優之合併小檔案
2021-06-20
大量小檔案不適合儲存於HDFS的原因
2018-04-10
分散式檔案系統-HDFS
2019-04-04
分散式
HDFS分散式檔案系統
2020-06-05
分散式
Hadoop3.2.1 【 HDFS 】原始碼分析 : 檔案系統資料集 [一]
2020-11-10
Hadoop原始碼
hdfs檔案本地許可權問題
2018-08-24
Flume採集資料時在HDFS上產生大量小檔案的問題
2018-07-31
大資料檔案儲存系統HDFS
2019-01-15
大資料
Hadoop之HDFS檔案讀寫流程說明
2018-05-21
Hadoop
Hadoop 系列（一）—— 分散式檔案系統 HDFS
2019-08-05
Hadoop分散式
Hadoop hdfs上傳檔案報錯解決
2020-10-06
Hadoop
Spark Streaming監聽HDFS檔案（Spark-shell）
2024-11-04
Spark
大資料 | 分散式檔案系統 HDFS
2021-07-09
大資料分散式
【大資料】【hadoop】檢視hdfs檔案命令
2020-11-29
大資料Hadoop
如何有效恢復誤刪的HDFS檔案
2020-12-01
如何將日誌檔案和二進位制檔案快速匯入HDFS？
2018-10-11
分散式檔案系統(HDFS）與 linux系統檔案系統對比
2018-09-14
分散式Linux
如何獲取HDFS上檔案的儲存位置
2019-02-27
Hadoop學習（一）——HDFS分散式檔案系統
2019-02-19
Hadoop分散式
Hadoop基礎（一）：分散式檔案系統HDFS
2020-12-11
Hadoop分散式
【Hadoop踩坑】HDFS上傳、刪除檔案失敗
2018-06-09
Hadoop
APK 檔案分析
2018-12-16
APK
hex檔案分析
2018-04-17
HDFS寫過程分析
2019-04-01
HDFS Decommission問題分析
2019-05-30
必須掌握的分散式檔案儲存系統—HDFS
2020-10-27
分散式
Hadoop 基石HDFS 一文了解檔案儲存系統
2021-06-04
Hadoop
Hadoop分散式檔案系統（HDFS）會不會被淘汰？
2022-11-23
Hadoop分散式
ELF檔案逆向分析
2020-12-26
智慧小程式檔案館——檔案系統能力
2018-11-16
Hadoop HDFS分散式檔案系統常用命令彙總
2018-11-02
Hadoop分散式
Hadoop大資料實戰系列文章之HDFS檔案系統
2020-11-06
Hadoop大資料
分散式檔案儲存hdfs簡介及常用命令
2020-10-21
分散式
Hadoop 三劍客之 —— 分散式檔案儲存系統 HDFS
2019-06-26
Hadoop分散式
如何讀取HDFS上的csv/tsv檔案的Timestamp列 - Qiita
2021-12-23
檔案包含漏洞小結
2022-03-07
如何把大 Excel 檔案拆成多個小檔案
2020-06-12
Excel
Word檔案如何轉為PDF檔案，小技能分享！
2021-12-01

hdfs小檔案分析

相關文章