【課件整理複習】Hadoop-第7講 Hadoop的I/O操作
本講知識點
- I/O操作中的資料完整性
- I/O操作中的資料壓縮
- Hadoop Writable序列化介面的使用方法
- Hadoop 常用序列化介面的作用
- Hadoop基於檔案的資料結構
前言
- 資料在多節點之間傳輸、儲存的出錯問題,因此我們必須要進行資料完整性的校驗。
- 大檔案在傳輸和儲存時,磁碟容量不足和傳輸速率問題,因此我們需要進行檔案壓縮。
- 資料在節點間進行傳輸儲存時的序列化問題。
- Hadoop被設計為適合於大檔案的讀寫,而小檔案的讀寫效率較低,因此需要專門的傳輸與儲存方案。
7.1 IO操作中的資料完整性檢查
Hadoop I/O操作時進行資料完整性檢查主要是在兩個階段進行
- 本地檔案上傳到HDFS叢集中
- HDFS叢集資料讀取到本地時
除此之外DataNode也會定期檢測所有本地block的完整性
- 預設情況下,HDFS會為每一個固定長度的資料執行一次校驗和,這個長度由io.bytes.per.checksum引數指定,預設是512位元組。如果對系統效能造成的損耗較大則可以對這個引數進行修改。
7.2 I/O操作中的資料壓縮
Hadoop處理與儲存資料經常受到磁碟I/O的影響,壓縮資料可以進行改善
使用壓縮時儘量遵循以下原則
相關文章
- Hadoop的I/O操作Hadoop
- C++複習整理---i++和++iC++
- 【上課課件整理複習】第七章 Scrapy爬蟲框架(3)爬蟲框架
- Hadoop-叢集執行Hadoop
- 02. I/O 操作
- Linux下的5種I/O模型與3組I/O複用Linux模型
- Python教程:精簡概述I/O模型與I/O操作Python模型
- 【面試】I/O 複用面試
- 流?I/O 操作?阻塞?epoll?
- I/O流以及檔案的基本操作
- 【課件整理複習】C#10-介面以及其應用Ch8-繼承Ch7-委託和事件C#繼承事件
- I/O多路複用技術(multiplexing)
- 從網路I/O模型到Netty,先深入瞭解下I/O多路複用模型Netty
- 網路程式設計-I/O複用程式設計
- 多路I/O複用:select、poll、epoll(二)
- 資料庫學習 哈工大課程 第Ⅸ、Ⅹ講資料庫
- 使用Task實現非阻塞式的I/O操作
- 計算機I/O與I/O模型計算機模型
- Java I/O流 複製檔案速度對比Java
- Netty權威指南:I/O 多路複用技術Netty
- 《JVM第7課》堆區JVM
- 雲端計算教程學習入門影片課件:互操作性與可移植性講解
- Oracle高階培訓 第7課 學習筆記Oracle筆記
- 一篇文章幫你徹底搞清楚“I/O多路複用”和“非同步I/O”的前世今生非同步
- hadoop之旅8-centerOS7 : Hive的基本操作HadoopROSHive
- I/O流
- Java I/OJava
- 詳解Go語言I/O多路複用netpoller模型Go模型
- 一文搞懂I/O多路複用及其技術
- Java NIO學習系列五:I/O模型Java模型
- rust學習十二、一個I/O程式練習Rust
- 雲端計算學習素材、課件,msyql知識點講解
- U7-11課綜合練習+12課階段測評練習——複習練習題目
- 雲端計算學習素材框架,msyql查詢操作課件框架
- 雲端計算學習素材框架,msyql高階操作課件框架
- 使用 iotop 監控哪些程式在進行I/O操作
- 1.1 大資料簡介-hadoop-最全最完整的保姆級的java大資料學習資料大資料HadoopJava
- 【Linux網路程式設計】I/O 多路複用技術Linux程式設計