MP4檔案格式解析
目前MP4的概念被炒得很火,也很亂。最開始MP4指的是音訊(MP3的升級版),即MPEG-2 AAC標準。隨後MP4概念被轉移到視訊上,對應的是MPEG-4標準。而現在我們流行的叫法,多半是指能播放MPEG-4標準編碼格式視訊的播放器。但是這篇文章介紹的內容跟上面這些都無關,我們要討論的是MP4檔案封裝格式,對應的標準為ISO/IEC 14496-12,即資訊科技 視聽物件編碼的第12部分:ISO 基本媒體檔案格式(Information technology Coding of audio-visual objects Part 12: ISO base media file format)。ISO/IEC組織指定的標準一般用數字表示,ISO/IEC 14496即MPEG-4標準。
MP4視訊檔案封裝格式是基於QuickTime容器格式定義的,因此參考QuickTime的格式定義對理解MP4檔案格式很有幫助。MP4檔案格式是一個十分開放的容器,幾乎可以用來描述所有的媒體結構,MP4檔案中的媒體描述與媒體資料是分開的,並且媒體資料的組織也很自由,不一定要按照時間順序排列,甚至媒體資料可以直接引用其他檔案。同時,MP4也支援流媒體。MP4目前被廣泛用於封裝h.264視訊和AAC音訊,是高清視訊的代表。
現在我們就來看看MP4檔案格式到底是什麼樣的。
1、概述
MP4檔案中的所有資料都裝在box(QuickTime中為atom)中,也就是說MP4檔案由若干個box組成,每個box有型別和長度,可以將box理解為一個資料物件塊。box中可以包含另一個box,這種box稱為container box。一個MP4檔案首先會有且只有一個“ftyp”型別的box,作為MP4格式的標誌幷包含關於檔案的一些資訊;之後會有且只有一個“moov”型別的box(Movie Box),它是一種container box,子box包含了媒體的metadata資訊;MP4檔案的媒體資料包含在“mdat”型別的box(Midia Data Box)中,該型別的box也是container box,可以有多個,也可以沒有(當媒體資料全部引用其他檔案時),媒體資料的結構由metadata進行描述。
下面是一些概念:
track 表示一些sample的集合,對於媒體資料來說,track表示一個視訊或音訊序列。
hint track 這個特殊的track並不包含媒體資料,而是包含了一些將其他資料track打包成流媒體的指示資訊。
sample 對於非hint track來說,video sample即為一幀視訊,或一組連續視訊幀,audio sample即為一段連續的壓縮音訊,它們統稱sample。對於hint track,sample定義一個或多個流媒體包的格式。
sample table 指明sampe時序和物理佈局的表。
chunk 一個track的幾個sample組成的單元。
在本文中,我們不討論涉及hint的內容,只關注包含媒體資料的本地MP4檔案。下圖為一個典型的MP4檔案的結構樹。
2、Box
首先需要說明的是,box中的位元組序為網路位元組序,也就是大端位元組序(Big-Endian),簡單的說,就是一個32位的4位元組整數儲存方式為高位位元組在記憶體的低端。Box由header和body組成,其中header統一指明box的大小和型別,body根據型別有不同的意義和格式。
標準的box開頭的4個位元組(32位)為box size,該大小包括box header和box body整個box的大小,這樣我們就可以在檔案中定位各個box。如果size為1,則表示這個box的大小為large size,真正的size值要在largesize域上得到。(實際上只有“mdat”型別的box才有可能用到large size。)如果size為0,表示該box為檔案的最後一個box,檔案結尾即為該box結尾。(同樣只存在於“mdat”型別的box中。)
size後面緊跟的32位為box type,一般是4個字元,如“ftyp”、“moov”等,這些box type都是已經預定義好的,分別表示固定的意義。如果是“uuid”,表示該box為使用者擴充套件型別。如果box type是未定義的,應該將其忽略。
3、File Type Box(ftyp)
該box有且只有1個,並且只能被包含在檔案層,而不能被其他box包含。該box應該被放在檔案的最開始,指示該MP4檔案應用的相關資訊。
“ftyp” body依次包括1個32位的major brand(4個字元),1個32位的minor version(整數)和1個以32位(4個字元)為單位元素的陣列compatible brands。這些都是用來指示檔案應用級別的資訊。該box的位元組例項如下:
4、Movie Box(moov)
該box包含了檔案媒體的metadata資訊,“moov”是一個container box,具體內容資訊由子box詮釋。同File Type Box一樣,該box有且只有一個,且只被包含在檔案層。一般情況下,“moov”會緊隨“ftyp”出現。
一般情況下(限於篇幅,本文只講解常見的MP4檔案結構),“moov”中會包含1個“mvhd”和若干個“trak”。其中“mvhd”為header box,一般作為“moov”的第一個子box出現(對於其他container box來說,header box都應作為首個子box出現)。“trak”包含了一個track的相關資訊,是一個container box。下圖為部分“moov”的位元組例項,其中紅色部分為box header,綠色為“mvhd”,黃色為一部分“trak”。
4.1 Movie Header Box(mvhd)
“mvhd”結構如下表。
欄位 |
位元組數 |
意義 |
box size |
4 |
box大小 |
box type |
4 |
box型別 |
version |
1 |
box版本,0或1,一般為0。(以下位元組數均按version=0) |
flags |
3 |
|
creation time |
4 |
建立時間(相對於UTC時間1904-01-01零點的秒數) |
modification time |
4 |
修改時間 |
time scale |
4 |
檔案媒體在1秒時間內的刻度值,可以理解為1秒長度的時間單元數 |
duration |
4 |
該track的時間長度,用duration和time scale值可以計算track時長,比如audio track的time scale = 8000, duration = 560128,時長為70.016,video track的time scale = 600, duration = 42000,時長為70 |
rate |
4 |
推薦播放速率,高16位和低16位分別為小數點整數部分和小數部分,即[16.16] 格式,該值為1.0(0x00010000)表示正常前向播放 |
volume |
2 |
與rate類似,[8.8] 格式,1.0(0x0100)表示最大音量 |
reserved |
10 |
保留位 |
matrix |
36 |
視訊變換矩陣 |
pre-defined |
24 |
|
next track id |
4 |
下一個track使用的id號 |
“mvhd”的位元組例項如下圖,各欄位已經用顏色區分開:
4.2 Track Box(trak)
“trak”也是一個container box,其子box包含了該track的媒體資料引用和描述(hint track除外)。一個MP4檔案中的媒體可以包含多個track,且至少有一個track,這些track之間彼此獨立,有自己的時間和空間資訊。“trak”必須包含一個“tkhd”和一個“mdia”,此外還有很多可選的box(略)。其中“tkhd”為track header box,“mdia”為media box,該box是一個包含一些track媒體資料資訊box的container box。
“trak”的部分位元組例項如下圖,其中黃色為“trak”box的頭,綠色為“tkhd”,藍色為“edts”(一個可選box),紅色為一部分“mdia”。
4.2.1 Track Header Box(tkhd)
“tkhd”結構如下表。
欄位 |
位元組數 |
意義 |
box size |
4 |
box大小 |
box type |
4 |
box型別 |
version |
1 |
box版本,0或1,一般為0。(以下位元組數均按version=0) |
flags |
3 |
按位或操作結果值,預定義如下: 0x000001 track_enabled,否則該track不被播放; 0x000002 track_in_movie,表示該track在播放中被引用; 0x000004 track_in_preview,表示該track在預覽時被引用。 一般該值為7,如果一個媒體所有track均未設定track_in_movie和track_in_preview,將被理解為所有track均設定了這兩項;對於hint track,該值為0 |
creation time |
4 |
建立時間(相對於UTC時間1904-01-01零點的秒數) |
modification time |
4 |
修改時間 |
track id |
4 |
id號,不能重複且不能為0 |
reserved |
4 |
保留位 |
duration |
4 |
track的時間長度 |
reserved |
8 |
保留位 |
layer |
2 |
視訊層,預設為0,值小的在上層 |
alternate group |
2 |
track分組資訊,預設為0表示該track未與其他track有群組關係 |
volume |
2 |
[8.8] 格式,如果為音訊track,1.0(0x0100)表示最大音量;否則為0 |
reserved |
2 |
保留位 |
matrix |
36 |
視訊變換矩陣 |
width |
4 |
寬 |
height |
4 |
高,均為 [16.16] 格式值,與sample描述中的實際畫面大小比值,用於播放時的展示寬高 |
“tkhd”的位元組例項如下圖,各欄位已經用顏色區分開:
4.2.2 Media Box(mdia)
“mdia”也是個container box,其子box的結構和種類還是比較複雜的。先來看一個“mdia”的例項結構樹圖。
總體來說,“mdia”定義了track媒體型別以及sample資料,描述sample資訊。一般“mdia”包含一個“mdhd”,一個“hdlr”和一個“minf”,其中“mdhd”為media header box,“hdlr”為handler reference box,“minf”為media information box。下面依次看一下這幾個box的結構。
4.2.2.1 Media Header Box(mdhd)
“mdhd”結構如下表。
欄位 |
位元組數 |
意義 |
box size |
4 |
box大小 |
box type |
4 |
box型別 |
version |
1 |
box版本,0或1,一般為0。(以下位元組數均按version=0) |
flags |
3 |
|
creation time |
4 |
建立時間(相對於UTC時間1904-01-01零點的秒數) |
modification time |
4 |
修改時間 |
time scale |
4 |
同前表 |
duration |
4 |
track的時間長度 |
language |
2 |
媒體語言碼。最高位為0,後面15位為3個字元(見ISO 639-2/T標準中定義) |
pre-defined |
2 |
|
“mdhd”的位元組例項如下圖,各欄位已經用顏色區分開:
4.2.2.2 Handler Reference Box(hdlr)
“hdlr”解釋了媒體的播放過程資訊,該box也可以被包含在meta box(meta)中。“hdlr”結構如下表。
欄位 |
位元組數 |
意義 |
box size |
4 |
box大小 |
box type |
4 |
box型別 |
version |
1 |
box版本,0或1,一般為0。(以下位元組數均按version=0) |
flags |
3 |
|
pre-defined |
4 |
|
handler type |
4 |
在media box中,該值為4個字元: “vide”— video track “soun”— audio track “hint”— hint track |
reserved |
12 |
|
name |
不定 |
track type name,以‘\0’結尾的字串 |
“hdlr”的位元組例項如下圖,各欄位已經用顏色區分開:
4.2.2.3 Media Information Box(minf)
“minf”儲存瞭解釋track媒體資料的handler-specific資訊,media handler用這些資訊將媒體時間對映到媒體資料並進行處理。“minf”中的資訊格式和內容與媒體型別以及解釋媒體資料的media handler密切相關,其他media handler不知道如何解釋這些資訊。“minf”是一個container box,其實際內容由子box說明。
一般情況下,“minf”包含一個header box,一個“dinf”和一個“stbl”,其中,header box根據track type(即media handler type)分為“vmhd”、“smhd”、“hmhd”和“nmhd”,“dinf”為data information box,“stbl”為sample table box。下面分別介紹。
下圖為“minf”部分位元組例項,其中紅色為box header,藍色為“smhd”,綠色為“dinf”,黃色為一部分“stbl”。
4.2.2.3.1 Media Information Header Box(vmhd、smhd、hmhd、nmhd)
Video Media Header Box(vmhd)
欄位 |
位元組數 |
意義 |
box size |
4 |
box大小 |
box type |
4 |
box型別 |
version |
1 |
box版本,0或1,一般為0。(以下位元組數均按version=0) |
flags |
3 |
|
graphics mode |
4 |
視訊合成模式,為0時拷貝原始影像,否則與opcolor進行合成 |
opcolor |
2×3 |
{red,green,blue} |
Sound Media Header Box(smhd)
欄位 |
位元組數 |
意義 |
box size |
4 |
box大小 |
box type |
4 |
box型別 |
version |
1 |
box版本,0或1,一般為0。(以下位元組數均按version=0) |
flags |
3 |
|
balance |
2 |
立體聲平衡,[8.8] 格式值,一般為0,-1.0表示全部左聲道,1.0表示全部右聲道 |
reserved |
2 |
|
Hint Media Header Box(hmhd)
略
Null Media Header Box(nmhd)
非視音訊媒體使用該box,略。
4.2.2.3.2 Data Information Box(dinf)
“dinf”解釋如何定位媒體資訊,是一個container box。“dinf”一般包含一個“dref”,即data reference box;“dref”下會包含若干個“url”或“urn”,這些box組成一個表,用來定位track資料。簡單的說,track可以被分成若干段,每一段都可以根據“url”或“urn”指向的地址來獲取資料,sample描述中會用這些片段的序號將這些片段組成一個完整的track。一般情況下,當資料被完全包含在檔案中時,“url”或“urn”中的定位字串是空的。
“dref”的位元組結構如下表。
欄位 |
位元組數 |
意義 |
box size |
4 |
box大小 |
box type |
4 |
box型別 |
version |
1 |
box版本,0或1,一般為0。(以下位元組數均按version=0) |
flags |
3 |
|
entry count |
4 |
“url”或“urn”表的元素個數 |
“url”或“urn”列表 |
不定 |
|
“url”或“urn”都是box,“url”的內容為字串(location string),“urn”的內容為一對字串(name string and location string)。當“url”或“urn”的box flag為1時,字串均為空。
下面是一個“dinf”的位元組例項圖。其中黃色為“dinf”的box header,由紅色部分我們知道包含的“url”或“urn”個數為1,紅色後面為“url”box的內容。紫色為“url”的box header(根據box type我們知道是個“url”),綠色為box flag,值為1,說明“url”中的字串為空,表示track資料已包含在檔案中。
4.2.2.3.3 Sample Table Box(stbl)
“stbl”幾乎是普通的MP4檔案中最複雜的一個box了,首先需要回憶一下sample的概念。sample是媒體資料儲存的單位,儲存在media的chunk中,chunk和sample的長度均可互不相同,如下圖所示。
“stbl”包含了關於track中sample所有時間和位置的資訊,以及sample的編解碼等資訊。利用這個表,可以解釋sample的時序、型別、大小以及在各自儲存容器中的位置。“stbl”是一個container box,其子box包括:sample description box(stsd)、time to sample box(stts)、sample size box(stsz或stz2)、sample to chunk box(stsc)、chunk offset box(stco或co64)、composition time to sample box(ctts)、sync sample box(stss)等。
“stsd”必不可少,且至少包含一個條目,該box包含了data reference box進行sample資料檢索的資訊。沒有“stsd”就無法計算media sample的儲存位置。“stsd”包含了編碼的資訊,其儲存的資訊隨媒體型別不同而不同。
Sample Description Box(stsd)
box header和version欄位後會有一個entry count欄位,根據entry的個數,每個entry會有type資訊,如“vide”、“sund”等,根據type不同sample description會提供不同的資訊,例如對於video track,會有“VisualSampleEntry”型別資訊,對於audio track會有“AudioSampleEntry”型別資訊。
視訊的編碼型別、寬高、長度,音訊的聲道、取樣等資訊都會出現在這個box中。
Time To Sample Box(stts)
“stts”儲存了sample的duration,描述了sample時序的對映方法,我們通過它可以找到任何時間的sample。“stts”可以包含一個壓縮的表來對映時間和sample序號,用其他的表來提供每個sample的長度和指標。表中每個條目提供了在同一個時間偏移量裡面連續的sample序號,以及samples的偏移量。遞增這些偏移量,就可以建立一個完整的time to sample表。
Sample Size Box(stsz)
“stsz” 定義了每個sample的大小,包含了媒體中全部sample的數目和一張給出每個sample大小的表。這個box相對來說體積是比較大的。
Sample To Chunk Box(stsc)
用chunk組織sample可以方便優化資料獲取,一個thunk包含一個或多個sample。“stsc”中用一個表描述了sample與chunk的對映關係,檢視這張表就可以找到包含指定sample的thunk,從而找到這個sample。
Sync Sample Box(stss)
“stss”確定media中的關鍵幀。對於壓縮媒體資料,關鍵幀是一系列壓縮序列的開始幀,其解壓縮時不依賴以前的幀,而後續幀的解壓縮將依賴於這個關鍵幀。“stss”可以非常緊湊的標記媒體內的隨機存取點,它包含一個sample序號表,表內的每一項嚴格按照sample的序號排列,說明了媒體中的哪一個sample是關鍵幀。如果此表不存在,說明每一個sample都是一個關鍵幀,是一個隨機存取點。
Chunk Offset Box(stco)
“stco”定義了每個thunk在媒體流中的位置。位置有兩種可能,32位的和64位的,後者對非常大的電影很有用。在一個表中只會有一種可能,這個位置是在整個檔案中的,而不是在任何box中的,這樣做就可以直接在檔案中找到媒體資料,而不用解釋box。需要注意的是一旦前面的box有了任何改變,這張表都要重新建立,因為位置資訊已經改變了。
5、Free Space Box(free或skip)
“free”中的內容是無關緊要的,可以被忽略。該box被刪除後,不會對播放產生任何影響。
6、Meida Data Box(mdat)
該box包含於檔案層,可以有多個,也可以沒有(當媒體資料全部為外部檔案引用時),用來儲存媒體資料。資料直接跟在box type欄位後面,具體資料結構的意義需要參考metadata(主要在sample table中描述)。
普通MP4檔案的結構就講完了,可能會比較亂,下面這張圖是常見的box的樹結構圖,可以用來大致瞭解MP4檔案的構造。
本文轉載和參考wqyuwss的blog系列 可下人間系列
相關文章
- BVH檔案格式解析
- java class 檔案格式解析Java
- 5分鐘入門MP4檔案格式
- Qt的.pro檔案格式解析QT
- PE檔案格式詳細解析(一)
- mp4視訊格式是什麼 mp4檔案播放不了怎麼辦
- mp4影片格式是什麼 mp4檔案播放不了怎麼辦
- 如何將Excel檔案解析為json格式ExcelJSON
- PE檔案格式詳細解析(二)--IAT
- QSV檔案怎麼開啟?QSV格式影片轉換成MP4格式教程
- 影片格式處理:騰訊影片格式怎麼轉換成mp4檔案?
- js實現封裝MP4格式檔案並下載JS封裝
- 如何將MP4影片檔案轉換成MP3音訊格式音訊
- 騰訊影片的檔案如何轉化成mp4格式,看我的!
- 自動將視訊檔案轉換成音訊檔案,mp4轉mp3格式音訊
- MP4檔案分割實現
- elf檔案格式
- FastQ檔案格式AST
- smali 檔案格式
- 檔案流下載檔案,zip/其他格式檔案
- JPEG格式研究——(2)JPEG檔案格式
- office檔案格式複合文件二進位制結構解析
- win10系統怎麼將MTS影片檔案轉換成MP4格式Win10
- ffmpeg用法-mp4檔案合成,切割功能
- JavaCV推流實戰(MP4檔案)Java
- vsd格式檔案怎麼開啟 vsd是什麼格式的檔案,
- PE檔案格式詳細解析(六)-- 基址重定位表(Base Relocation Table)
- [軟考考點解析]軟體設計師--常用媒體檔案格式
- Matlab生成.exe格式檔案Matlab
- Class 檔案格式詳解
- fepk檔案格式說明
- 檔案開啟的格式
- 開啟.ziw格式檔案
- hive檔案儲存格式Hive
- Class檔案解析
- eml檔案解析
- win10系統怎麼將MTS視訊檔案轉換成MP4格式Win10
- PE檔案格式詳細解析(五)-- 除錯UPX壓縮的notepad程式除錯