技術準備:機率、模型和編碼 (轉)
什麼是熵
資料不僅起源於 40 年代由 Claude Shannon 首創的資訊理論,而且其基本原理即資訊究竟能被壓縮到多小,至今依然遵循資訊理論中的一條定理,這條定理借用了熱力學中的名詞“熵”( Entropy )來表示一條資訊中真正需要編碼的資訊量:
考慮用 0 和 1 組成的二進位制數碼為含有 n 個符號的某條資訊編碼,假設符號 Fn 在整條資訊中重複出現的機率為 Pn,則該符號的熵也即表示該符號所需的位數位為:
En = - log2( Pn )
整條資訊的熵也即表示整條資訊所需的位數為:E = ∑En
舉個例子,對下面這條只出現了 a b c 三個字元的字串:
aabbaccbaa
字串長度為 10,字元 a b c 分別出現了 5 3 2 次,則 a b c 在資訊中出現的機率分別為 0.5 0.3 0.2,他們的熵分別為:
Ea = -log2(0.5) = 1
Eb = -log2(0.3) = 1.737
Ec = -log2(0.2) = 2.322
整條資訊的熵也即表達整個字串需要的位數為:
E = Ea * 5 + Eb * 3 + Ec * 2 = 14.855 位
回想一下如果用中常用的 ASCII 編碼,表示上面的字串我們需要整整 80 位呢!現在知道資訊為什麼能被壓縮而不丟失原有的資訊內容了吧。簡單地講,用較少的位數表示較頻繁出現的符號,這就是資料壓縮的基本準則。
細心的讀者馬上會想到,我們該怎樣用 0 1 這樣的二進位制數碼錶示零點幾個二進位制位呢?確實很困難,但不是沒有辦法。一旦我們找到了準確表示零點幾個二進位制位的方法,我們就有權利向無失真壓縮的極限挑戰了。不要著急,看到第四章就明白了。
模型
從上面的描述,我們明白,要壓縮一條資訊,首先要分析清楚資訊中每個符號出現的機率。不同的壓縮透過不同的方法確定符號的出現機率,對符號的機率計算得越準確,也就越容易得到好的壓縮效果。在壓縮程式中,用來處理輸入資訊,計算符號的機率並決定輸出哪個或哪些程式碼的模組叫做模型。
難道對資訊中字元的出現機率這麼難以估計以至於有各種不同的壓縮模型嗎?對上面的字串我們不是很容易就知道每個字元的機率了嗎?是的是的,不過上面的字串僅有 10 個字元長呀,那只是例子而已。考慮我們現實中要壓縮的,大多數可是有幾十 K 甚至幾百 K 長,幾 M 位元組的檔案不是也屢見不鮮嗎?
是的,我們可以預先掃描檔案中的所有字元,統計出每個字元出現的機率,這種方法在壓縮術語裡叫做“靜態統計模型”。但是,不同的檔案中,字元有不同的分佈機率,我們要麼先花上大量的時間統計我們要壓縮的所有檔案中的字元機率,要麼為每一個單獨的檔案儲存一份機率表以備解壓縮時需要。糟糕的是,不但掃描檔案要消耗大量時間,而且儲存一份機率表也使壓縮後的檔案增大了不少。所以,在實際應用中,“靜態統計模型”應用的很少。
真正的壓縮程式中使用的大多是一種叫“自適應模型”的東西。自適應模型可以說是一臺具有學習功能的自動機。他在資訊被輸入之前對資訊內容一無所知並假定每個字元的出現機率均等,隨著字元不斷被輸入和編碼,他統計並紀錄已經出現過的字元的機率並將這些機率應用於對後續字元的編碼。也就是說,自適應模型在壓縮開始時壓縮效果並不理想,但隨著壓縮的進行,他會越來越接近字元機率的準確值,並達到理想的壓縮效果。自適應模型還可以適應輸入資訊中字元分佈的突然變化,可以適應不同的檔案中的字元分佈而不需要儲存機率表。
上面提到的模型可以統稱為“統計模型”,因為他們都是基於對每個字元出現次數的統計得到字元機率的。另一大類模型叫做“字典模型”。實際上,當我們在生活中提到“工行”這個詞的時候,我們都知道其意思是指“中國工商銀行”,類似的例子還有不少,但共同的前提是我們心中都有一本約定俗成的縮寫字典。字典模型也是如此,他並不直接計算字元出現的機率,而是使用一本字典,隨著輸入資訊的讀入,模型找出輸入資訊在字典中匹配的最長的字串,然後輸出該字串在字典中的資訊。匹配越長,壓縮效果越好。事實上,字典模型本質上仍然是基於對字元機率的計算的,只不過,字典模型使用整個字串的匹配代替了對某一字元重複次數的統計。可以證明,字典模型得到的壓縮效果仍然無法突破熵的極限。
當然,對通用的壓縮程式來說,儲存一本大字典所需的空間仍然是無法讓人忍受的,況且,任何一本預先定義的字典都無法適應不同檔案中資料的變化情況。對了,字典模型也有相應的“自適應”方案。我們可以隨著資訊的不斷輸入,從已經輸入的資訊中建立合適的字典,並不斷這本字典,以適應資料的不斷變化。
讓我們從另一個角度理解一下自適應模型。Cluade Shannon 曾試圖透過一個“聚會遊戲”(party game)來測定英語的真實資訊容量。他每次向聽眾公佈一條被他隱藏起一個字元的訊息,讓聽眾來猜下一個字元是什麼,一次猜一個,直到猜對為止。然後,Shannon 使用猜測次數來確定整個資訊的熵。在這個實驗中,一種根據前面出現過的字元估計下一個字元機率的模型就存在於聽眾的頭腦中,比計算機中使用的自適應模型更為高階的是,聽眾除了根據字元出現過的次數外,還可以根據他們對語言的進行猜測。
編碼
透過模型,我們已經確定了對某一個符號該用多少位二進位制數進行編碼。現在的問題是,如何設計一種編碼方案,使其儘量精確地用模型計算出來的位數表示某個符號。
最先被考慮的問題是,如果對 a 用 3 個二進位制位就可以表示,而對 b 用 4 個二進位制位就可以表示,那麼,在解碼時,面對一連串的二進位制流,我怎麼知道哪三個位是 a,哪四個位是 b 呢?所以,必須設計出一種編碼方式,使得解碼程式可以方便地分離每個字元的編碼部分。於是有了一種叫“字首編碼”的技術。該技術的主導思想是,任何一個字元的編碼,都不是另一個字元編碼的字首。反過來說就是,任何一個字元的編碼,都不是由另一個字元的編碼加上若干位 0 或 1 組成。看一下字首編碼的一個最簡單的例子:
符號 編碼 A 0 B 10 C 110 D 1110 E 11110
有了上面的碼錶,你一定可以輕鬆地從下面這串二進位制流中分辨出真正的資訊內容了:
1110010101110110111100010 - DABBDCEAAB
下一個問題是:象上面這樣的字首編碼只能表示整數位的符號,對幾點幾位的符號只能用近似的整數位輸出,那麼怎樣輸出小數位數呢?科學家們用算術編碼解決了這個問題,我們將在第四章對算術編碼作詳細的討論。
總結一下
不同的模型使用不同的方法計算字元的出現機率,由此機率可以得出字元的熵;然後使用不同的編碼方法,儘量接近我們期望得到的熵值。所以,壓縮效果的好壞一方面取決於模型能否準確地得到字元機率,另一方面也取決於編碼方法能否準確地用期望的位數輸出字元程式碼。換句話說,壓縮 = 模型 + 編碼。如下圖所示:
--------- 符號 ---------- 機率 ---------- 程式碼 ---------- | 輸入 |-------->| 模型 |-------->| 編碼 |-------->| 輸出 | --------- ---------- ---------- ----------
資源
我們已經知道,編寫壓縮程式往往不能對資料的整個位元組進行處理,而是要按照二進位制位來讀寫和處理資料,操作二進位制位的也就成為了壓縮程式中使用最為普遍的工具函式。我們在此提供兩組函式集,使用它們可以有效的進行檔案或中的二進位制位操作。它們共有六個檔案:
bitio.h - 用於檔案中二進位制位操作的函式說明。
bitio.cpp - 用於檔案中二進位制位操作的函式實現。
errhand.h 和 errhand.cpp - bitio.cpp 中使用的錯誤處理函式。
wm_bitio.h - 用於記憶體中二進位制位操作的函式說明。
wm_bitio.cpp - 用於記憶體中二進位制位操作的函式實現。
它們被共同包裝在檔案 /wangyg/tech/benben/src/bitio.zip">bitio.zip 中。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/10752019/viewspace-982767/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- oCPC中轉化率模型與校準模型
- Hadoop技術內幕:深入解析Hadoop和HDFS 1.3準備 Hadoop 原始碼Hadoop原始碼
- 如何準備校招技術面試面試
- 長沙Java培訓教程:Spring Boot準備知識和技術JavaSpring Boot
- JavaScript事件機制——記一次認真準備的技術分享JavaScript事件
- 符合ISO 26262標準的模型驗證技術模型
- 模型剪枝:剪枝粒度、剪枝標準、剪枝時機、剪枝頻率模型
- Meta開發System 2蒸餾技術,Llama 2對話模型任務準確率接近100%模型
- 1688商品詳情技術貼:提升點選率和轉化率的最佳化指南
- Java研發方向如何準備BAT技術面試答案JavaBAT面試
- 在做服務端程式碼覆蓋率或者準備做程式碼覆蓋率的兄弟們,來聊聊???服務端
- NLPIR利用知識圖譜技術提高智慧問答準確率
- 【雜學】先進的 NLP 技術 —— 旋轉位置編碼(Rotary Position Embedding,RoPE)
- 新媒體編碼時代的技術:編碼與傳輸
- RocketMQ系列2:領域模型和技術概念MQ模型
- 【手摸手玩轉 OceanBase 174】恢復前準備準備工作有哪些?
- 機率圖模型基礎模型
- 如何準備阿里技術面試?終面官現身說法!阿里面試
- 人工智慧技術進一步提高醫療的精準率人工智慧
- uboot-2012.04.01移植編譯前準備boot編譯
- 轉化率模型之轉化資料延遲模型
- 容器技術和虛擬機器技術的對比虛擬機
- 大模型RAG技術大模型
- WAC:69%的營銷人員尚未準備好迎接語音技術
- 圖解Linux的IO模型和相關技術圖解Linux模型
- 字符集編碼(二):字元編碼模型字元模型
- 提升編碼技能的 幾 種高階技術
- Tomcat詳解系列(3) - 原始碼分析準備和分析入口Tomcat原始碼
- 編碼轉換
- Unicode編碼和中文互轉(JAVA實現)UnicodeJava
- 聊聊Go程式碼覆蓋率技術與最佳實踐Go
- 從CDP解析資料備份和副本管理技術
- 作為一技術人員,面試前都需要做哪些準備?面試
- Spark SQL原始碼解析(五)SparkPlan準備和執行階段SparkSQL原始碼
- 【火爐煉AI】機器學習011-分類模型的評估:準確率,精確率,召回率,F1值AI機器學習模型
- 機器學習入門準備機器學習
- 擁抱智慧,AI 影片編碼技術的新探索AI
- 機器學習之分類:準確率機器學習
- 【手摸手玩轉 OceanBase 161】備份前需要做哪些準備?