好久沒有更新了,這次來簡單的介紹一下自適應視訊播放的相關技術。
說到自適應視訊播放(Adaptive Streaming),網上的資料不多,可以供大家測試的視訊播放器也沒有多少,所以很多朋友都無從下手學習。這次來給大家分享一下自適應視訊播放技術的基礎原理,具體實現可以參考Exoplayer的原始碼,這篇文章也會稍微介紹一下。
1.自適應視訊播放技術的原理
首先,我們所謂的自適應視訊播放技術中的自適應,適應的到底是什麼呢?
在線上視訊播放中,最重要的一個要素應該就屬於客戶端的網路狀況了,如果網路狀況很差,俗稱的網速很慢,那麼大家一般的體驗都是視訊很卡,看一會就停一會。那麼有沒有可能讓我們的播放器自動檢測網路狀況,在網路差的情況下播放清晰度較差,資料量較小的視訊,當網路情況變得好的時候播放清晰度好,但是資料量大的視訊呢?
哈哈答案是肯定的,自適應視訊播放技術就解決了這個問題。先給大家看一個前端播放器的示意圖。
通常來講,自適應播放技術一般包括前端的支援還有後臺的支援,後臺提供一個索引表(Manifest),上面記錄了同一個視訊不同清晰度的版本的Url(比如視訊的240p,480p,720p不同的版本檔案)。前端的播放器在拿到這個索引表之後,會根據自身的網路狀態,在不同清晰度直接的視訊檔案轉換。
就如上圖所示,橫軸是時間,豎軸是清晰度。在示例裡面,我們有三種不同清晰度的視訊檔案,同時每個視訊檔案一般是切割成以五秒或者十秒為一個單位的塊(Chunk),每次播放器載入播放都是以塊為單位。
所以說到底,自適應視訊並不是同一個容器檔案(container)裡面封裝了所有視訊軌道資料(當然理論上來說也不是不行),而是根據索引表的內容,和自身網路的下載速度決定播放哪一個具體的容器檔案罷了。
2.自適應視訊播放的規範
現在市面上的Adaptive Streaming肯定以?的HLS,還有另一個叫DASH的規範最為流行,我們這次以DASH這個規範來深入瞭解一下自適應視訊播放的一些細節。
2.1 DASH裡面的MPD檔案
MPD檔案格式,就是我們在第一部分中說到的索引表Manifest了(HLS對應的索引表格式叫M3u8),它包含了所有DASH自適應視訊的資訊。 我們以一個mpd為例子,點選這裡下載。
讓我們用xml reader來看看具體裡面有什麼內容:
2.1.1 adaptionset
每個mpd檔案都會有至少一個adaptionset,用來記錄音訊/視訊檔案們的位置,如上圖所示,該MPd有兩組資料,一組是視訊,一組是音訊
2.1.2 representation
每個adaptionset裡面又會有多個representation,每一個representation其實就是代表了一個解析度的視訊(或者音訊,這裡主要以視訊講解為主)。最重要的三個引數我都打上了註解,注意到視訊的url是相對Url,也就是相對於該mpd檔案的位置。比如第一個mp4檔案絕對地址就是mpd的path+file name = http://yt-dash-mse-test.commondatastorage.googleapis.com/media/car-20120827-88.mp4
2.2 DASH對播放器行為的規範
mpd檔案相信大家也有大致的瞭解了,那麼播放器既然有了mpd檔案,那怎麼進行視訊檔案的選擇呢?
其實很簡單,大家都看到了不同的representation都有一個bandwith的引數,這個引數規定了要使用該視訊檔案的最低頻寬(如果沒記錯應該是以bit為單位。
以上述mpd為例,視訊解析度由高到低的bandwith排列是:4190760 bit(4.2MB/s) ,2073921 bit(2.1 MB/s) , 869460 bit(0.9MB/s)....... 播放器每下載一些內容,都會計算當前的下載速度,然後根據當前的下載速度,從最高的解析度開始,一路遍歷直到找到合適的視訊檔案。
這裡附上一段ExoPlayer的原始碼,可以更加清晰的瞭解播放器怎麼選擇不同解析度(其實程式碼非常的簡單)
2.3 DASH - Fragmented MP4
我們在第一部分說過,自適應視訊的檔案會被切割成塊,但是貌似我們看到的都是完整的mp4檔案呀,說好的切割呢?
在DASH規範中,每個mp4都不是普通的mp4,而是一種叫Fragmented Mp4,中文可以翻譯為分段式MP4檔案。它的特殊之處在於,一般的mp4視訊都是一個moov header,後面跟上一組mdat資料(不清楚檔案結構可以參考我的第一篇文章),而fragmented MP4則會將視訊資料分為多個mdat塊。
我們用mp4 parser 來分析一下
上圖是一個普通的mp4檔案
上圖則是一個分段式的mp4檔案,我們可以看到檔案的mdat被分為了若干塊,同時還有多一個sdix header,這個header記錄了每個mdat的位置和相應的大小,和時間的長度(一般每個mdat的時間長度都一樣,為若干秒)
這次就稍微分享一下自適應視訊的大概原理,具體的技術,例如播放器如何進行下載的控制,下載單位是什麼,等等會在之後對ExoPlayer原始碼的分析中分享,如果有著急的問題可以留言。
2.小結
其實根據上面的分析,我們已經對自適應視訊(Adaptive Streaming)有了初步的瞭解,也可以說在這個技術上,其實並不存在什麼黑科技,在視訊處理的過程的MPD檔案,也就是Manifest,包含了所有在轉換解析度時的資訊,播放器只需要把這個MPD儲存起來,就可以根據當前的下載速度做對應解析度的選擇。至於
1.播放器的下載Chunk的策略如何?多執行緒下載還是單執行緒下載?
2.初始Chunk的數量(快取多少個Chunk可以開始播放)
3.播放器的Chunk拋棄策略如何?比如當前已經下載了0-2號的Chunk,結果使用者快進了100秒,那是丟棄當前的0-2號chunk還是保留。
這些一系列的細節,都是取決於播放器開發者自己,或者說開發者基於DASH這個協議上的改進。Exoplayer是安卓平臺上支援DASH的開源播放器比較好的學習例子。接下來我會著重講講Exoplayer的原始碼的一些實現。