簡單聊聊 GZIP 的壓縮原理與日常應用

rccoder發表於2018-08-19

前言

在基於 HTTP 協議的網路傳輸中 GZip 經常被使用，Nginx 中也可以使用半行程式碼開啟 GZip。GZip 壓縮的原理是什麼呢？本篇文章是我在網上閱讀了一些文件後做的簡單總結。

從 RFC 1952 看起

RFC 1952 是 GZIP file format specification version 4.3。該規範主要定義了 GZip 壓縮的在資料格式方面的規範，以方便不同的作業系統、CPU、檔案系統等之間進行檔案傳輸交換。下面挑有意思的幾個點說，感興趣的可以閱讀 RFC 1952 的原文。

GZIP 的檔案格式在設計上其實是可以允許一個檔案裡有多個壓縮資料集（compressed data sets）—— GZIP 壓縮後的片段拼接而成的。但就我們大多數應用場景來說，基本上都是一個檔案一個壓縮資料集，如果是多個檔案一起打包的話，也往往是將多個包合併成一個 tar 檔案。

每個壓縮資料集都是下面的結構：

| ID1 | ID2 | CM | FLG | MTIME（4位元組） | XFL | OS | ---> more

| 與 | 之間是 1 byte，都是大端位元組（Big Edian）

其中 ID1 和 ID2 分別是 0x1f 和 0x8b，用來標識檔案格式是 gzip
CM 標識加密演算法，目前 0-7是保留字，8 指的是 deflate 演算法
FLG 從低地址到高地址分別是 FTEXT、FHCRC、FEXTRA、FNAME、FCOMMENT、reserved、 reserved、reserved，這裡每個 bit 被設定了之後有什麼意義感興趣的話可以詳細參考 RFC 1952。比較有意思的是 FEXTRA，如果它被設定了表示存在額外的擴充欄位。擴充欄位的結構如下：
- | SI1 | SI2 | LEN | ... LEN bytes of subfield data ... |
- SI1、SI2 是對子域的 ID，由 ASCII 碼組成。如果你需要使用的話，可以向他的維護者 Jean-Loup Gailly <gzip@prep.ai.mit.edu> 發郵件申請。目前 Apollo file 就有自己的專屬 ID
MTIME 指的是原始檔最近一次修改時間，存的是 Unix 時間戳
XFL 是給壓縮演算法傳的一些引數，用來標識如何解壓。defalte 演算法中 2 表示使用壓縮率最高的演算法，4 表示使用壓縮速度最快的演算法
OS 標識壓縮程式執行的檔案系統，以處理 EOF 等的問題
more 後面是根據 FLG 的開啟情況決定的，可能會有迴圈冗餘校驗碼、原始檔長度、附加資訊等多種其他資訊

壓縮核心之 Deflate

GZIP 的核心是 Deflate，在 RFC 1951 中被標準化，並且在當時作為 LZW 的替代品有了非常廣泛的使用。

Deflate 是一個同時使用 LZ77 與 Huffman Coding 的演算法，這裡簡單介紹下這兩種演算法的大致思路：

LZ77

LZ77 的核心思路是如果一個串中有兩個重複的串，那麼只需要知道第一個串的內容和後面串相對於第一個串起始位置的距離 + 串的長度。

比如： ABCDEFGABCDEFH → ABCDEFG(7,6)H。7 指的是往前第 7 個數開始，6 指的是重複串的長度，ABCDEFG(7,6)H 完全可以表示前面的串，並且是沒有二義性的。

LZ77 用滑動視窗（sliding-window compression）來實現這個演算法。具體思路是掃描頭從串的頭部開始掃描串，在掃描頭的前面有一個長度為 N 的滑動視窗。如果發現掃描頭處的串和視窗裡的 最長匹配串 是相同的，則用（兩個串之間的距離，串的長度）來代替後一個重複的串，同時還需要新增一個表示是真實串還是替換後的“串”的位元組在前面以方便解壓（此串需要在真實串和替換“串” 之前都有存在）。

實際過程中滑動視窗的大小是固定的，匹配的串也有最小長度限制，以方便標識+兩個串之間的距離+串的長度所佔用的位元組是固定的以及不要約壓縮體積越大。更加詳細的實現可以參考：Standford Edu. lz77 algorithm、 LZ77 Compression Algorithm、 LZ77壓縮演算法編碼原理詳解(結合圖片和簡單程式碼)

這裡通過這個壓縮機制也就能比較容易的解釋為啥 CSS BEM 寫法 GZIP 壓縮之後可以忽略長度以及 JPEG 圖片 GZIP 之後可能會變大的情況了

解壓：GZIP 的壓縮因為要在視窗裡尋找重複串相對來說效率是比較低的（LZ77 還是通過 Hash 等系列方法提高了很多），那解壓又是怎麼個情況呢？觀察壓縮後的整個串，每個小串前都有一個標識要標記是原始串還是替換“串”，通過這個標識就能以 O（1）的複雜度直接讀完並且替換完替換“串”，整體上效率是非常可觀的。

Huffman Coding

Huffman Coding 是大學課本中一般都會提到的演算法。核心思路是通過構造 Huffman Tree 的方式給字元重新編碼（核心是避免一個葉子的路徑是另外一個葉子路徑的字首），以保證出現頻路越高的字元佔用的位元組越少。關於 Huffman Tree 的構造這裡不再細說，不太清楚的可以參考：Huffman Coding。

解壓：Huffman Coding 之後需要維護一張 Huffman Map 表，來記錄重新編碼後的字串，根據這張表，還原原始串也是非常高效的。

Deflate 綜合使用了 LZ77 和 Huffman Coding 來壓縮檔案，相對而言又提升了很多。詳細可以參考 gzip原理與實現

網站中的使用

在 RFC 2016 中 GZIP 已經成為了規定的三種標準HTTP壓縮格式之一。目前絕大多數的網站都在使用 GZIP 傳輸 HTML、CSS、JavaScript 等資原始檔。

Nginx 開啟

Nginx 的 ngx_http_gzip_module 也提供了開啟 GZIP 壓縮的方式，有下面的一些常用配置：

# 開啟
gzip on;

# 壓縮等級，1-9。設定多少可以參考：http://serverfault.com/questions/253074/what-is-the-best-nginx-compression-gzip-level
gzip_comp_level 2;

# "MSIE [1-6]\." 比如禁止 IE6 使用 GZIP
gzip_disable regex ...

# 最小壓縮檔案長度
gzip_min_length 20;

# 使用 GZIP 壓縮的最小 HTTP 版本
gzip_http_version 1.1;

# 壓縮的檔案型別，值是 [MIME type](https://developer.mozilla.org/zh-CN/docs/Web/HTTP/Basics_of_HTTP/MIME_types/Complete_list_of_MIME_types)
gzip_types text/html;
複製程式碼

參考文件

原文連結：github.com/rccoder/blo…

如何透過ZBlogPHP啟用Gzip壓縮？
2024-08-25
PHP
Apache 開啟gzip壓縮
2019-04-02
Apache
如何在Spring Boot應用程式中啟用GZIP壓縮？ | 前端後端
2019-12-11
Spring Boot前端後端
怎麼把影片壓縮？實用又簡單的壓縮影片方法
2021-04-19
修復損壞的gzip壓縮檔案之原理篇
2018-05-31
nginx指定埠開啟gzip壓縮
2024-05-22
Nginx
Vue開啟gzip壓縮檔案
2020-07-24
Vue
Apache開啟GZIP壓縮功能方法
2019-05-10
Apache
vue-cli3.0配置GZIP壓縮
2018-12-27
Vue
高效能 gzip 壓縮工具 pgzip
2021-10-18
前端效能優化gzip初探（補充gzip壓縮使用演算法brotli壓縮的相關介紹)
2019-07-12
前端優化演算法
簡單實用的mac壓縮軟體：iZip for Mac
2023-05-05
Mac
簡單好用的js 壓縮工具
2020-10-31
JS
關gzip壓縮，我有新發現
2021-04-19
探索HTTP傳輸中gzip壓縮的祕密
2019-02-16
HTTP
解析ws訂閱返回的GZIP 壓縮資料
2018-06-13
簡單實用的mac壓縮解壓軟體：iFastZip for Mac中文版
2024-01-04
MacAST
Word檔案太大怎麼壓縮，分享壓縮Word的簡單方法
2019-07-18
Apache開啟gzip壓縮提高網站速度
2020-10-27
Apache網站
nginx快取配置及開啟gzip壓縮
2019-05-09
Nginx快取
批次壓縮影片大小的簡單操作分享
2023-02-24
伺服器端如何開啟GZIP壓縮功能
2019-03-03
伺服器
VuePress 部落格優化之開啟 Gzip 壓縮
2022-01-20
Vue優化
【Node】簡單快捷的圖片壓縮指令碼
2018-09-04
指令碼
Hive的壓縮儲存和簡單優化
2020-06-07
Hive優化
WebP影像格式的原理與影像壓縮的關係
2024-05-21
Web
簡單解壓縮工具：OmniZip - Universal Extractor Pro 中文啟用版
2023-04-19
vue-cli 啟動gzip壓縮，及後臺配置
2018-06-07
Vue
手機將PDF檔案壓縮的簡單方法
2018-10-25
Hadoop上配置snappy壓縮格式（最簡單的做法）
2020-10-25
HadoopAPP
三種簡單的PDF檔案快速壓縮方法
2024-07-03
簡單瞭解一下壓縮表
2019-03-31
【leetcode 簡單】第一百零六題壓縮字串
2018-08-28
LeetCode字串
Disruptor的簡單介紹與應用
2020-01-07
用ASP實現線上壓縮與解壓縮功能程式碼
2019-11-02
CSS單行格式化與壓縮
2018-11-28
CSS
Linux tar分卷壓縮與解壓縮
2020-05-06
Linux
Nginx開啟gzip壓縮大幅提高頁面載入速度
2018-04-18
Nginx