乾貨分享|袋鼠雲數棧離線開發平臺在小檔案治理上的探索實踐之路
日常生產中 HDFS 上小檔案產生是一個很正常的事情,同時小檔案也是 Hadoop 叢集運維中的常見挑戰,尤其對於大規模執行的叢集來說可謂至關重要。
是 的基本使用單位,包含全部表和專案的相關資訊,可以對錶做相關的許可權管理和 ,以及可以展示對應專案佔用情況和其表的佔用情況。資料地圖可以幫助使用者更好地查詢、理解和使用資料。
本文將結合兩者,和大家聊聊資料地圖中的小檔案治理應該怎麼做。
小檔案的危害
通常指檔案大小要比 HDFS 塊大小還要小很多的檔案,大量的小檔案會給 Hadoop 叢集的擴充套件性和效能帶來嚴重的影響。
NameNode 在記憶體中維護整個檔案系統的後設資料映象、使用者 HDFS 的管理,其中每個 HDFS 檔案元資訊(位置、大小、分塊等)物件約佔150位元組,如果小檔案過多,會佔用大量記憶體,直接影響 NameNode 的效能。相對地,HDFS 讀寫小檔案也會更加耗時,因為每次都需要從 NameNode 獲取元資訊,並與對應的 DataNode 建立連線。如果 NameNode 在當機中恢復,也需要更多的時間從 中載入。
同時,小檔案會給 Spark SQL 等查詢引擎造成查詢效能的損耗,大量的 以及對應產生的 Task 元資訊也會給 的記憶體造成壓力,帶來單點問題。此外,入庫操作最後的 commit job 操作,在 Spark Driver 端單點做,很容易出現單點的效能問題。
資料地圖中小檔案治理的做法
儲存在 HDFS 中的檔案被分成塊,然後將這些塊複製到多個計算機中(DataNode),塊的大小預設為128MB,當檔案大小為128時,Hadoop 叢集的計算效率最高。因此對非分割槽表按表進行資料檔案合併,使表/分割槽資料檔案的大小接近128M,以此進行小檔案的最佳化。
具體到資料地圖中是怎麼做的呢?
在 中建立出來的表或者底層表都可以透過 ,我們每天會定時更新這些表的基本資訊進行統一維護管理。
在資料地圖中可以根據檔案數量和佔用儲存建立相應的 ,按照每天每週或每月治理。
引數說明
· 規則名稱:新建規則的名稱
· 選擇專案: 生效的專案
· 選擇表:這裡配置的是圈定需要合併的表範圍,判斷條件是 and,例如表的檔案數量大於1000並且佔用總儲存小於10M時,才會對該表中的檔案進行合併操作
· 治理時間:該規則的排程週期,例如每天的凌晨00:00~01:00進行小檔案合併,注意如果小檔案合併時間到了結束的時間,還沒有合併完成,則會結束當前的合併,等待下次處理
根據治理規則查詢出所有符合資訊的表,判斷該表是否為分割槽表。如果為非分割槽表則對該表進行檔案治理,如果為分割槽表則按照分割槽進行治理,最後建立治理記錄。
每天定時任務觸發,根據告警記錄查詢記錄中滿足條件的表的基本資訊狀態。
● 小檔案合併的具體步驟
1)備份檔案
先建立臨時路徑,把檔案複製到臨時路徑中去,再建立要合併的臨時檔案
2)小檔案合併
執行 HDFS 的 fileMerge 請求合併檔案
真正呼叫 hive-exec 方法處理,判斷是否達到閾值合併檔案
3)將合併的檔案覆蓋到原檔案中去
判斷如果合併完成,刪除原路徑下的資料,把臨時路徑修改為原來的真實路徑
全部處理完成後,查詢 rdos_file_merge_partition 表是否為異常資訊列印,若不存在異常資訊,更新治理記錄表完成治理,並更新資料地圖中的表資訊
把握整體的治理成功失敗狀態,分割槽資訊治理信表維護了整個治理記錄哪些表治理失敗的記錄,最後全量返回對應的是失敗或成功狀態。
· 分割槽資訊治理信表:rdos_file_merge_partition
· 治理記錄表:rdos_file_merge_record
最後把表結構放在下面,有興趣的小夥伴可以自行檢視:
CREATE TABLE `rdos_file_merge_partition` ( `id` int(11) NOT NULL AUTO_INCREMENT, `project_id` int(11) DEFAULT NULL COMMENT '專案id', `tenant_id` int(11) DEFAULT NULL COMMENT '租戶id', `record_id` int(11) DEFAULT NULL COMMENT '合併記錄id', `status` tinyint(1) DEFAULT NULL COMMENT '合併狀態', `start_time` datetime DEFAULT NULL COMMENT '開始時間', `end_time` datetime DEFAULT NULL COMMENT '結束時間', `error_msg` longtext COMMENT '錯誤資訊', `partition_name` varchar(255) DEFAULT NULL COMMENT '分割槽名', `copy_location` varchar(1024) DEFAULT NULL COMMENT '備份路徑', `storage_before` varchar(255) DEFAULT NULL COMMENT '合併前佔用儲存', `storage_after` varchar(255) DEFAULT NULL COMMENT '合併後佔用儲存', `file_count_before` int(11) DEFAULT NULL COMMENT '合併前檔案數量', `file_count_after` int(11) DEFAULT NULL COMMENT '合併後檔案數量', `gmt_create` datetime DEFAULT NULL COMMENT '建立時間', `gmt_modified` datetime DEFAULT NULL COMMENT '修改時間', `is_deleted` tinyint(1) DEFAULT '0' COMMENT '是否刪除 0:未刪除,1 :已刪除', PRIMARY KEY (`id`) USING BTREE ) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8 COMMENT='小檔案合併分割槽資訊表'; CREATE TABLE `rdos_file_merge_record` ( `id` int(11) NOT NULL AUTO_INCREMENT, `project_id` int(11) DEFAULT NULL COMMENT '專案id', `tenant_id` int(11) DEFAULT NULL COMMENT '租戶id', `table_id` int(11) DEFAULT NULL COMMENT '合併hive表id', `table_name` varchar(255) DEFAULT NULL COMMENT '表名', `rule_id` int(11) DEFAULT NULL COMMENT '小檔案合併規則id', `location` varchar(1024) DEFAULT NULL COMMENT '儲存位置', `status` tinyint(1) DEFAULT NULL COMMENT '合併狀態', `error_msg` longtext COMMENT '錯誤資訊', `start_time` datetime DEFAULT NULL COMMENT '合併開始時間', `end_time` datetime DEFAULT NULL COMMENT '合併結束時間', `is_partition` tinyint(1) DEFAULT NULL COMMENT '是否是分割槽表', `count_before` int(11) DEFAULT NULL COMMENT '合併前檔案數量', `count_after` int(11) DEFAULT NULL COMMENT '合併後檔案數量', `create_user_id` int(11) DEFAULT NULL COMMENT '建立使用者', `modify_user_id` int(11) DEFAULT NULL COMMENT '修改人id', `gmt_create` datetime DEFAULT NULL COMMENT '建立時間', `gmt_modified` datetime DEFAULT NULL COMMENT '修改時間', `is_deleted` tinyint(1) DEFAULT '0' COMMENT '是否刪除 0:未刪除, 1:已刪除', `plan_time` datetime NOT NULL COMMENT '計劃時間', PRIMARY KEY (`id`) USING BTREE ) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8 COMMENT='小檔案合併記錄表';
《資料治理行業實踐白皮書》下載地址:
想了解更多有關袋鼠雲大資料產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠雲官網:https://www.dtstack.com/?src=szitpub
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69995740/viewspace-2942327/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 實戰乾貨|Spark 在袋鼠雲數棧的深度探索與實踐Spark
- Iceberg在袋鼠雲的探索及實踐
- 袋鼠雲數棧前端從 Multirepo 到 Monorepo 研發效率提升探索之路前端Mono
- 從 Multirepo 到 Monorepo 袋鼠雲數棧前端研發效率提升探索之路Mono前端
- 淺談資料開發神器——數棧離線開發平臺(BatchWorks)BAT
- 袋鼠雲數棧基於CBO在Spark SQL優化上的探索SparkSQL優化
- 從5分鐘到60秒,袋鼠雲數棧在熱重啟技術上的提效探索之路
- 乾貨 | 京東技術中臺的Flutter實踐之路Flutter
- IM開發乾貨分享:淺談IM系統中離線訊息、歷史訊息的最佳實踐
- vivo 在離線混部探索與實踐
- 探索大模型:袋鼠雲在 Text To SQL 上的實踐與最佳化大模型SQL
- 從容器化到資源池化,數棧雲原生技術實踐探索之路
- 乾貨 | 愛奇藝全鏈路自動化監控平臺的探索與實踐
- 直播平臺開發乾貨分享——標準直播及快、慢直播的特性
- Flutter包大小治理上的探索與實踐Flutter
- 乾貨分享!JAVA診斷工具Arthas在Rainbond上實踐~JavaAI
- 雲音樂預案平臺實踐
- 為資料安全護航,袋鼠雲在資料分類分級上的探索實踐
- 關於直播平臺開發中流媒體傳輸,重點乾貨分享
- 騰訊線上教育的小程式雲開發實踐
- 零門檻的全棧體驗 小程式雲開發完整專案分享全棧
- 直播預約丨《袋鼠雲大資料實操指南》No.1:從理論到實踐,離線開發全流程解析大資料
- 直播預約丨《實時湖倉實踐五講》第三講:實時湖倉在袋鼠雲的落地實踐之路
- 乾貨分享丨攜程國際業務動態實時標籤處理平臺實踐
- 小程式跨平臺開發解決方案探索
- vivo 故障定位平臺的探索與實踐
- 乾貨:PHP與大資料開發實踐PHP大資料
- 工商銀行打造線上診斷平臺的探索與實踐
- 乾貨 | 蘇寧影片雲跨平臺播放器開發方案詳解播放器
- 數棧產品分享:Kafka—實時離不開的那個TAKafka
- ChunJun Meetup演講分享 | 基於袋鼠雲開源框架的數倉一體化建設探索框架
- 雲原生技術在離線交付場景中的實踐
- 浙江移動容器雲基於 Dragonfly 的統一檔案分發平臺生產實踐Go
- 乾貨分享!帶你瞭解數棧FlinkX實時採集原理與使用
- 袋鼠雲平臺程式碼規範化編譯部署的提效性改進實踐編譯
- 乾貨 | 京東雲域名註冊及備案最佳實踐
- 案例實踐|Apache Pulsar 在移動雲智慧運維平臺的實踐Apache運維
- 融雲 IM 在 Electron 平臺上的設計實踐