【課件整理複習】Hadoop-第7講 Hadoop的I/O操作
本講知識點
- I/O操作中的資料完整性
- I/O操作中的資料壓縮
- Hadoop Writable序列化介面的使用方法
- Hadoop 常用序列化介面的作用
- Hadoop基於檔案的資料結構
前言
- 資料在多節點之間傳輸、儲存的出錯問題,因此我們必須要進行資料完整性的校驗。
- 大檔案在傳輸和儲存時,磁碟容量不足和傳輸速率問題,因此我們需要進行檔案壓縮。
- 資料在節點間進行傳輸儲存時的序列化問題。
- Hadoop被設計為適合於大檔案的讀寫,而小檔案的讀寫效率較低,因此需要專門的傳輸與儲存方案。
7.1 IO操作中的資料完整性檢查
Hadoop I/O操作時進行資料完整性檢查主要是在兩個階段進行
- 本地檔案上傳到HDFS叢集中
- HDFS叢集資料讀取到本地時
除此之外DataNode也會定期檢測所有本地block的完整性
- 預設情況下,HDFS會為每一個固定長度的資料執行一次校驗和,這個長度由io.bytes.per.checksum引數指定,預設是512位元組。如果對系統效能造成的損耗較大則可以對這個引數進行修改。
7.2 I/O操作中的資料壓縮
Hadoop處理與儲存資料經常受到磁碟I/O的影響,壓縮資料可以進行改善
使用壓縮時儘量遵循以下原則
相關文章
- Hadoop的I/O操作Hadoop
- 【上課課件整理複習】第七章 Scrapy爬蟲框架(3)爬蟲框架
- C++複習整理---i++和++iC++
- 【面試】I/O 複用面試
- 02. I/O 操作
- Hadoop-調優剖析Hadoop
- Linux下的5種I/O模型與3組I/O複用Linux模型
- 流?I/O 操作?阻塞?epoll?
- Python教程:精簡概述I/O模型與I/O操作Python模型
- Hadoop-叢集執行Hadoop
- Java I/O流模型概念分析整理Java模型
- 【課件整理複習】C#10-介面以及其應用Ch8-繼承Ch7-委託和事件C#繼承事件
- I/O流以及檔案的基本操作
- 資料庫學習 哈工大課程 第Ⅸ、Ⅹ講資料庫
- Epoll多路I/O複用技術
- Hadoop-寫入資料的幾種方式Hadoop
- 網路程式設計-I/O複用程式設計
- I/O多路複用技術(multiplexing)
- Epoll程式設計-I/O多路複用程式設計
- 從網路I/O模型到Netty,先深入瞭解下I/O多路複用模型Netty
- 雲端計算教程學習入門影片課件:互操作性與可移植性講解
- 使用Task實現非阻塞式的I/O操作
- 關於ORACLE I/O操作的幾個檢視Oracle
- 第8章 I/O系統(第一節)
- Java I/O 操作及優化建議Java優化
- hadoop-叢集管理(1)——配置檔案Hadoop
- 《JVM第7課》堆區JVM
- 雲端計算學習素材、課件,msyql知識點講解
- Veritas Quick I/O and Cached Quick I/OUI
- Oracle高階培訓 第7課 學習筆記Oracle筆記
- 昨天講課時整理的幾個知識點
- java的I/OJava
- 雲端計算學習素材框架,msyql查詢操作課件框架
- 雲端計算學習素材框架,msyql高階操作課件框架
- U7-11課綜合練習+12課階段測評練習——複習練習題目
- Java學習筆記之I/OJava筆記
- Java入門學習-理解I/OJava
- [Hadoop]以前整理的一份Hadoop學習指南Hadoop