【課件整理複習】Hadoop-第7講 Hadoop的I/O操作

小白的學習筆記記錄發表於2020-12-12

本講知識點

  • I/O操作中的資料完整性
  • I/O操作中的資料壓縮
  • Hadoop Writable序列化介面的使用方法
  • Hadoop 常用序列化介面的作用
  • Hadoop基於檔案的資料結構

前言

  • 資料在多節點之間傳輸、儲存的出錯問題,因此我們必須要進行資料完整性的校驗。
  • 大檔案在傳輸和儲存時,磁碟容量不足和傳輸速率問題,因此我們需要進行檔案壓縮。
  • 資料在節點間進行傳輸儲存時的序列化問題。
  • Hadoop被設計為適合於大檔案的讀寫,而小檔案的讀寫效率較低,因此需要專門的傳輸與儲存方案。

7.1 IO操作中的資料完整性檢查

Hadoop I/O操作時進行資料完整性檢查主要是在兩個階段進行

  • 本地檔案上傳到HDFS叢集中
  • HDFS叢集資料讀取到本地時

除此之外DataNode也會定期檢測所有本地block的完整性

  • 預設情況下,HDFS會為每一個固定長度的資料執行一次校驗和,這個長度由io.bytes.per.checksum引數指定,預設是512位元組。如果對系統效能造成的損耗較大則可以對這個引數進行修改。

7.2 I/O操作中的資料壓縮

Hadoop處理與儲存資料經常受到磁碟I/O的影響,壓縮資料可以進行改善

使用壓縮時儘量遵循以下原則࿱

相關文章