【課件整理複習】Hadoop-第7講 Hadoop的I／O操作

小白的學習筆記記錄發表於2020-12-12

原文網址 : https://blog.csdn.net/weixin_43428283/article/details/111058440

本講知識點

I/O操作中的資料完整性
I/O操作中的資料壓縮
Hadoop Writable序列化介面的使用方法
Hadoop 常用序列化介面的作用
Hadoop基於檔案的資料結構

前言

資料在多節點之間傳輸、儲存的出錯問題，因此我們必須要進行資料完整性的校驗。
大檔案在傳輸和儲存時，磁碟容量不足和傳輸速率問題，因此我們需要進行檔案壓縮。
資料在節點間進行傳輸儲存時的序列化問題。
Hadoop被設計為適合於大檔案的讀寫，而小檔案的讀寫效率較低，因此需要專門的傳輸與儲存方案。

7.1 IO操作中的資料完整性檢查

Hadoop I/O操作時進行資料完整性檢查主要是在兩個階段進行

本地檔案上傳到HDFS叢集中
HDFS叢集資料讀取到本地時

除此之外DataNode也會定期檢測所有本地block的完整性

預設情況下，HDFS會為每一個固定長度的資料執行一次校驗和，這個長度由io.bytes.per.checksum引數指定，預設是512位元組。如果對系統效能造成的損耗較大則可以對這個引數進行修改。

7.2 I/O操作中的資料壓縮

Hadoop處理與儲存資料經常受到磁碟I/O的影響，壓縮資料可以進行改善

使用壓縮時儘量遵循以下原則࿱

相關文章

Hadoop的I/O操作
2021-09-09
Hadoop
C++複習整理---i++和++i
2020-10-13
C++
【上課課件整理複習】第七章 Scrapy爬蟲框架(3)
2020-12-11
爬蟲框架
Hadoop-叢集執行
2022-04-04
Hadoop
02. I/O 操作
2024-09-06
Linux下的5種I/O模型與3組I/O複用
2022-02-03
Linux模型
Python教程：精簡概述I/O模型與I/O操作
2020-05-25
Python模型
【面試】I/O 複用
2019-03-31
面試
流？I/O 操作？阻塞？epoll?
2020-03-13
I/O流以及檔案的基本操作
2021-05-20
【課件整理複習】C#10-介面以及其應用Ch8-繼承Ch7-委託和事件
2020-12-14
C#繼承事件
I/O多路複用技術（multiplexing）
2018-06-03
從網路I/O模型到Netty，先深入瞭解下I/O多路複用
2021-02-09
模型Netty
資料庫學習哈工大課程第Ⅸ、Ⅹ講
2019-05-04
資料庫
網路程式設計-I/O複用
2021-01-27
程式設計
多路I/O複用：select、poll、epoll（二）
2020-12-12
使用Task實現非阻塞式的I/O操作
2019-07-16
計算機I/O與I/O模型
2019-05-10
計算機模型
《JVM第7課》堆區
2024-11-06
JVM
Java I/O流複製檔案速度對比
2020-09-14
Java
Netty權威指南：I/O 多路複用技術
2021-04-05
Netty
雲端計算教程學習入門影片課件：互操作性與可移植性講解
2020-02-21
Oracle高階培訓第7課學習筆記
2020-04-04
Oracle筆記
hadoop之旅8-centerOS7 : Hive的基本操作
2018-11-04
HadoopROSHive
一篇文章幫你徹底搞清楚“I/O多路複用”和“非同步I/O”的前世今生
2019-06-18
非同步
I/O流
2018-07-26
Java I/O
2024-07-07
Java
詳解Go語言I/O多路複用netpoller模型
2021-02-08
Go模型
一文搞懂I/O多路複用及其技術
2020-12-16
Java NIO學習系列五：I/O模型
2019-07-22
Java模型
rust學習十二、一個I/O程式練習
2024-12-03
Rust
雲端計算學習素材、課件，msyql知識點講解
2019-12-19
U7-11課綜合練習+12課階段測評練習——複習練習題目
2024-07-12
雲端計算學習素材框架，msyql查詢操作課件
2019-12-19
框架
雲端計算學習素材框架，msyql高階操作課件
2019-12-19
框架
使用 iotop 監控哪些程式在進行I/O操作
2020-12-05
1.1 大資料簡介-hadoop-最全最完整的保姆級的java大資料學習資料
2022-12-02
大資料HadoopJava
【Linux網路程式設計】I/O 多路複用技術
2024-08-28
Linux程式設計