視訊編碼原理簡介

發表於2015-12-09

要徹底理解視訊編碼原理,看書都是虛的,需要實際動手,實現一個簡單的視訊編碼器:

知識準備:基本影像處理知識,訊號的時域和頻域問題,熟練掌握傅立葉正反變換,一維、二維傅立葉變換,以及其變種,dct變換,快速dct變換。

來自知乎問題:http://www.zhihu.com/question/22567173/answer/73610451

第一步:實現有損影像壓縮和解壓

參考 JPEG原理,將RGB->YUV,然後Y/U/V看成三張不同的圖片,將其中一張圖片分為 8×8的block進行 dct變換(可以直接進行二維dct變換,或者按一定順序將8×8的二維陣列整理成一個64位元組的一維陣列),還是得到一個8×8的整數頻率資料。於是表示影像大輪廓的低頻訊號(人眼敏感的訊號)集中在 8×8的左上角;表示影像細節的高頻訊號集中在右下角。

接著將其量化,所謂量化,就是訊號取樣的步長,8×8的整數頻率資料塊,每個資料都要除以對應位置的步長,左上角相對重要的低頻訊號步長是1,也就是說0-255,是多少就是多少。而右下角是不太重要的高頻訊號,比如步長取10,那麼這些位置的資料都要/10,實際解碼的時候再將他們*10恢復出來,這樣經過編碼的時候/10和解碼的時候*10,那麼步長為10的訊號1, 13, 25, 37就會變成規矩的:0, 10, 20, 30, 對小於步長10的部分我們直接丟棄了,因為高頻不太重要。

經過量化以後,8×8的資料塊左上角的資料由於步長小,都是比較離散的,而靠近右下角的高頻資料,都比較統一,或者是一串0,因此影像大量的細節被我們丟棄了,這時候,我們用無失真壓縮方式,比如lzma2演算法(jpeg是rle + huffman)將這64個byte壓縮起來,由於後面高頻資料步長大,做了除法以後,這些值都比較小,而且比較靠近,甚至右下部分都是一串0,十分便於壓縮。

JPEG影像有個問題就是低位元速率時 block邊界比較嚴重,現代圖片壓縮技術往往要配合一些de-block演算法,比如最簡單的就是邊界部分幾個畫素點和周圍插值模糊一下。

做到這裡我們實現了一個同 jpeg類似的靜態圖片有失真壓縮演算法。在視訊裡面用來儲存I幀資料。

第二步:實現巨集塊誤差計算

視訊由連續的若干影像幀組成,分為 I幀,P幀,所謂I幀,就是不依賴就可以獨立解碼的視訊影像幀,而P幀則需要依賴前面已解碼的視訊幀,配合一定資料才能生成出來。所以視訊中I幀往往都比較大,而P幀比較小,如果播放器一開始收到了P幀那麼是無法播放的,只有收到下一個I幀才能開始播放。I幀多了視訊就變大,I幀少了,資料量是小了,但視訊受到丟包或者資料錯誤的影響卻又會更嚴重。

那麼所謂運動預測編碼,其實就是P幀的生成過程:繼續將圖片分成 16×16的block(為了簡單隻討論yuv的y分量壓縮)。I幀內部單幀圖片壓縮我們採用了8×8的block,而這裡用16×16的block來提高幀間編碼壓縮率(當然也會有更多細節損失),我們用 x, y表示畫素點座標,而s,t表示block座標,那麼座標為(x,y)的畫素點所屬的block座標為:

接著要計算兩個block的相似度,即向量的距離,可以表示為一個256維向量(16×16)畫素點色彩距離的平方,我們先定義兩個顏色的誤差為:

PixelDiff(c1, c2) = (c1- c2) ^ 2

 

那麼256個點的誤差可以表示為所有對應點的畫素誤差和:

BlockDiff(b1, b2) = sum( PixelDiff(c1, c2) for c1 in b1 for c2 in b2)

程式碼化為:

有了這個block求差的函式,我們就可以針對特定block,搜尋另外若干個block中哪個和它最相似了(誤差最小)。

 

第三步:實現運動預測編碼

根據上面的巨集塊比較函式,你已經可以知道兩個block到底像不像了,越象的block,block_diff返回值越低。那麼我們有兩幀相鄰的圖片,P1,P2,假設 P1已經完成編碼了,現在要對 P2進行P幀編碼,其實就是輪詢 P2裡面的每一個 block,為P2中每一個block找出上一幀中相似度最高的block座標,並記錄下來,具體虛擬碼可以表示為:

其中在P1中搜尋最相似 block的 block_search_nearest 函式原理是比較簡單的,我們可以暴力點用兩個for迴圈輪詢 P1中每個畫素點開始的16×16的block(速度較慢),當然實際中不可能這麼暴力搜尋,而是圍繞P2中該block對應座標在P1中位置作為中心,慢慢四周擴散,搜尋一定步長,並得到一個:按照一定順序進行搜尋,並且在一定範圍內最相似的巨集塊座標。

於是P2進行運動預測編碼的結果就是一大堆(x,y)的座標,代表P2上每個block在上一幀P1裡面最相似的 block的位置。反過來說可能更容易理解,我們可以把第三步整個過程定義為:

怎麼用若干 P1裡不同起始位置的block拼湊出圖片P2來,使得拼湊以後的結果和P2最像。

拼湊的結果就是一系列(x,y)的座標資料,我們繼續用lzma2將它們先壓縮起來,按照 vcd的解析度352 x 240,我們橫向需要 352 / 16 = 22個block,縱向需要 240 / 16 = 15 個block,可以用 P1中 22 x 15 = 330 個 block的座標資訊生成一張和P2很類似的圖片 P2′ :

我們把用來生成P2的P1稱為 P2的 “參考幀”,再把剛才那一堆P1內用來拼成P2的 block座標稱為 “運動向量”,這是P幀裡面最主要的資料內容。但是此時由P1和這些座標資料拼湊出來的P2,你會發現粗看和P2很象,但細看會發現有些支離破碎,並且邊緣比較明顯,怎麼辦呢?我們需要第四步。

第四步:實現P幀編碼

有了剛才的運動預測向量(一堆block的座標),我們先用P1按照這些資料拼湊出一張類似 P2的新圖片叫做P2’,然後同P2上每個畫素做減法,得到一張儲存 differ的圖片:

誤差圖片 D2上每一個點等於 P2上對應位置的點的顏色減去 P2’上對應位置的點的顏色再除以2,用8位表示差值,值是迴圈的,比如-2就是255,這裡一般可以在結果上 + 0x80,即 128代表0,129代表2,127代表-2。繼續用一個 8位的整數可以表示 [-254, 254] 之間的誤差範圍,步長精度是2。

按照第三步實現的邏輯,P2’其實已經很像P2了,只是有些誤差,我們將這些誤差儲存成了圖片D2,所以圖片D2中,資訊量其實已經很小了,都是些細節修善,比起直接儲存一張完整圖片熵要低很多的。所以我們將 D2用類似第一步提到的有損圖片壓縮方法進行編碼,得到最終的P幀資料:

具體在操作的時候,D2的影像塊可以用16×16進行有損編碼,因為前面的運動預測資料是按16×16的巨集塊搜尋的,而不用象I幀那樣精確的用8×8表示,同時儲存誤差圖時,量化的精度可以更粗一些用不著象I幀那麼精確,可以理解成用質量更低的JPEG編碼,按照16×16的塊進行編碼,加上誤差圖D2本來資訊量就不高,這樣的儲存方式能夠節省不少空間。

 

第五步:實現GOP生成

通過前面的程式碼,我們實現了I幀編碼和P幀編碼,P幀是參考P1對P2進行編碼,而所謂B幀,就是參考 P1和 P3對P2進行編碼,當然間隔不一定是1,比如可以是參考P1和P5對P2進行編碼,前提條件是P5可以依賴P1及以前的資料進行解碼。

不過對於一個完整的簡版視訊編碼器,I幀和P幀編碼已經夠了,市面上任然有很多面向低延遲的商用編碼器是直接幹掉B幀的,因為做實時傳輸時收到B幀沒法播放,之後再往後好幾幀收到下一個I或者P幀時,先前收到的B幀才能被解碼出來,造成不少的延遲。

而所謂的 GOP (Group of picture) 就是由一系列類似 I, P, B, B, P, B, B, P, B, B P 組成的一個可以完整被解碼出來的影像組,而所謂視訊檔案,就是一個接一個的GOP,每個GOP由一個I幀開頭,然後接下來一組連續的P 或者 B構成,播放時只有完整收到下一個GOP的I幀才能開始播放。

最後是關於參考幀選擇,前面提到的 P2生成過程是參考了 P1,假設一個GOP中十張圖片,是 I1, P1, P2, P3, P4, … P9 儲存的,如果P1參考I1,P2參考P1, P3參考P2 …. P9參考P8這樣每一個P幀都是參考上一幀進行編碼的話,誤差容易越來越大,因為P1已經引入一定誤差了,P2在P1的基礎上誤差更大,到了P9的話,圖片質量可能已經沒法看了。

因此正確的參考幀選擇往往不需要這樣死板,比如可以P1-P9全部參考I1來生成,或者,P1-P4參考I1來生成,而P5-P9則參考P5來生成,這樣步子小點,誤差也不算太離譜。

第六步:容器組裝

我們生成了一組組編碼過的GOP了,這時候需要一定的檔案格式將他們恰當的儲存下來,記錄視訊資訊,比如解析度,幀率,時間索引等,就是一個類似MP4(h.264的容器)檔案的東西。至此一個簡單的小型編碼器我們已經完成了,可以用 SDL / DirectX / OpenGL 配合實現一個播放器,愉快的將自己編碼器編碼的視訊播放出來。

第七部:優化改進

這時候你已經大概學習並掌握了視訊編碼的基礎原理了,接下來大量的優化改進的坑等著你去填呢。優化有兩大方向,編碼效率優化和編碼效能優化:前者追求同質量(同訊雜比)下更低的位元速率,後者追求同樣質量和位元速率的情況下,更快的編碼速度。

有這個基礎後接下來可以回過頭去看JPEG標準,MPEG1-2標準,並閱讀相關實現程式碼,你會發現簡單很多了,接著肯H.264程式碼,不用全部看可以針對性的瞭解以下H.264的I幀編碼和各種搜尋預測方法,有H.264的底子,你瞭解 HEVC和 vpx就比較容易了。

參考這些編碼器一些有意思的實現來改進自己的編碼器,試驗性質,可以側重原理,各種優化技巧了解下即可,本來就是hack性質的。

有卯用呢?首先肯定很好玩,其次,當你有需要使用並修改這些編碼器為他們增加新特性的時候,你會發現前面的知識很管用了。

相關文章