常用音訊協議介紹

safrans發表於2012-09-16

會議電視常用音訊協議介紹及對比白皮書

   一、數字化音訊原理:聲音其實是一種能量波,因此也有頻率和振幅的特徵,頻率對應於時間軸線,振幅對應於電平軸線。通常人耳可以聽到的頻率在20Hz到20KHz的聲波稱為為可聽聲,低於20Hz的成為次聲,高於20KHz的為超聲,多媒體技術中只研究可聽聲部分。

    可聽聲中,話音訊號的頻段在80Hz到3400Hz之間,音樂訊號的頻段在20Hz-20kHz之間,語音(話音)和音樂是多媒體技術重點處理的物件。

    由於模擬聲音在時間上是連續的,麥克風採集的聲音訊號還需要經過數字化處理後才能由計算機處理。通常我們採用PCM編碼(脈衝程式碼調製編碼),即通過取樣、量化、編碼三個步驟將連續變化的模擬訊號轉換為數字編碼。

    1、取樣

    取樣,就是每隔一段時間間隔讀一次聲音的幅度。單位時間內取樣的次數稱為取樣頻率。顯然取樣頻率越高,所得到的離散幅值的資料點就越逼近於連續的模擬音訊訊號曲線,同時取樣的資料量也越大。

    為了保證數字化的音訊能夠準確(可逆)地還原成模擬音訊進行輸出,取樣定理要求:取樣頻率必須大於等於模擬訊號頻譜中的最高頻率的2倍。

    常用的音訊取樣率有:8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz。

    例如:話音訊號頻率在0.3~3.4kHz範圍內,用8kHz的抽樣頻率(fs),就可獲得能取代原來連續話音訊號的抽樣訊號,而一般CD採集取樣頻率為44.1kHz。

   2、量化

    量化,就是把取樣得到的聲音訊號幅度轉換成數字值,用於表示訊號強度。

    量化精度:用多少個二進位來表示每一個取樣值,也稱為量化位數。聲音訊號的量化位數一般是 4,6,8,12或16 bits 。

    由取樣頻率和量化精度可以知道,相對自然界的訊號,音訊編碼最多隻能做到無限接近,在計算機應用中,能夠達到最高保真水平的就是PCM編碼,通常PCM約定俗成了無損編碼。

   3、編碼

   一個取樣率為44.1kHz,量化精度為16bit,雙聲道的PCM編碼輸出,它的資料速率則為 44.1K×16×2 =1411.2 Kbps,儲存一秒鐘需要176.4KB的空間,1分鐘則約為10.34M,因此,為了降低傳輸或儲存的費用,就必須對數字音訊訊號進行編碼壓縮。

    到目前為止,音訊訊號經壓縮後的數位元速率降低到32至256kbit/s,語音可以低至8kbit/s以下。

    對數字音訊資訊的編碼進行壓縮的目的是在不影響人們使用的情況下使數字音訊資訊的資料量最少。通常用如下6個屬性來衡量:

         —位元率;

         —訊號的頻寬;

         —主觀/客觀的語音質量;

         —延遲;

         —計算複雜度和對儲存器的要求;

         —對於通道誤碼的靈敏度;

為使編碼後的音訊資訊可以被廣泛地使用,在進行音訊資訊編碼時需要採用標準的演算法。傳統會議電視裝置主要採用ITU-T推薦的G.711、G.722、G.728和AAC_LD等音訊標準。

   二、常用音訊協議簡介:

   1、    ITU-T G.728

    1992年ITU-T釋出的電話聲音訊號編碼方式推薦標準。採用LD-CELP編碼方式,取樣率為8KHz,以16kb/秒的速度傳送聲音訊號,傳送延遲時間極短,僅有0.625 ms 的演算法編碼延遲。

   2、    ITU-T G.711

    標準公佈於1972年,其語音訊號編碼是非均勻量化PCM。語音的取樣率為8KHz,每個樣值採用8bit量化,輸出的資料率為64kbps。這種窄帶編碼支援對300到 3,400赫茲的音訊進行壓縮。但雖然壓縮質量不錯,但是消耗的頻寬相對較大,主要用於數字PBX/ISDN上的數字式電話。

    3、    ITU-T G.722

    ITU-T G.722標準是第一個用於 16 KHZ 取樣率的標準化寬頻語音編碼演算法,1984年被CCITT定義為標準,而且現今還在使用。.G.722 編解碼器在 16 kHz 頻率上接收 16 位資料(頻寬從 50 Hz 至 7 kHz),並將其壓縮為 64、56 與 48 Kbit/s,其總延遲約 3 ms,能夠提供更好的通話質量。

    G.722的優點是延時和傳輸位誤差率非常低,且沒有任何的專利技術,費用低廉。因此G.722在無線通訊系統,VoIP生產商,個人通訊服務,視訊會議應用等廣泛應用。

    4、    G.722.1

    G.722.1基於 Polycom 的第三代 Siren 7 壓縮技術,1999年被ITU-T批准為G.722.1標準。G.722.1採用16 KHZ 取樣頻率,16 位資料量化,支援從 50 Hz 至 7 kHz頻率範圍的音訊取樣,並將其壓縮為 32 與 24 Kbit/s。它採用20 ms封幀,提供40ms的演算法延遲。

    G722.1可實現比 G.722 編解碼器更低的位元率以及更大的壓縮。目標是以大約一半的位元率實現與 G.722 大致相當的質量。這種編碼使用許可需要獲得Polycom公司的授權。

    5、    G722.1 Annex C

    G722.1 Annex C基於 Polycom 的Siren 14 壓縮技術, 採用32kHz取樣頻率,支援從 50 Hz 至 14 kHz頻率範圍的音訊取樣,並將其壓縮為 24、32或48 kbps。採用20ms封幀,提供40毫秒演算延遲。

    2005年中,國際電信聯盟(ITU)批准Polycom Siren 14™    技術為14 kHz超寬頻音訊編碼新標準。同時進入作為ITU-T建議的G.722.1 Annex C。    G722.1 Annex C具有低運算能力,低頻寬的優點。適於處理語音、音樂與自然界聲音。

    6、    AAC-LD

    AAC(Advanced Audio Coding,高階音訊編碼)是由Fraunhofer研究院(MP3格式的創造者)、杜比(DOLBY)試驗室和AT&T(美國電話電報公司)共同研發出的一種音訊壓縮格式,是MPEG-2規範的一部分,並在1997年3月成為國際標準。隨著MPEG-4標準在2000年成型後,MPEG2 AAC也被作為核心編碼技術,並增加了一些新的編碼特性,又叫MPEG-4 AAC。

    MPEG-4 AAC家族目前共有九種編碼規格,AAC-LD(Low Delay,低延遲規格)是用在低位元速率下編碼。它支援8K~48K取樣率的,可以64Kbps的位元速率輸出接近 CD 音質的音訊,並支援多聲音通道,AAC-LD 演算法延遲僅為 20ms。

    AAC因為其模組化設計,功能更為強大。本身的框架結構能夠被不斷的新的東西填充,這就使得不同發展方面的核心相互融合,彼此吸收精華成為可能。

7、   各種音訊協議的主要引數對比:

取樣頻率   支援音訊頻寬    輸出位元速率    最低演算法延遲

G711   8KHz    300 Hz ~ 3,400 Hz    64 Kbps    <1ms

G722   16kHz    50 Hz ~ 7 kHz    64 Kbps    3ms

G722.1   16kHz    50 Hz ~7 kHz    24、32 Kbps    40ms

G722.1 C   32kHz    50 Hz~14 kHz    24、32、48Kbps    40ms

AAC-LD   48kHz    20 Hz-20kHz    48~64 Kbps    20ms

三、AAC_LD與G722. Annex C優缺點對比:

G722.1 C   AAC_LD

取樣音訊頻率範圍支援50 Hz~14 kHz,接近CD音質,但丟失了高頻部分。

   支援20 Hz-20kHz全頻段的取樣,音訊更加接近CD音質。

輸出位元速率24、32、48Kbps,頻寬低於AAC-LD,但是以犧牲高頻為代價的。

   48~64 Kbps,並支援大於64Kbps的輸出,為更好的音訊質量提供了可能。

演算法複雜性演算法複雜度低,CPU佔用率略好於AAC-LD   模組化設計,功能更為強大,有TI等專用晶片支援

最低延遲採用20ms封幀,40ms演算法延遲   20ms演算法延遲,好於G722.1 C

多聲道可以支援雙聲道   AAC支援多達48個音軌、15個低頻音軌

標準通用性G722.1-C 由Polycom制定開發,使用需要Polycom授權,目前只有Polycom和極少數會議電視廠商使用。   作為MPEG4核心標準,受到Apple、諾基亞、松下等支援,並被泰德等眾多會議電視廠商所採用,應用前景更廣闊。

由Fraunhofer研究院的調查對比圖可以知道,在相同的取樣頻率下,AAC-LD可以提供比G722.1 C、MP3等更好的音質。AAC-LD實現了超寬頻音訊編碼中最短的延時,並保證接近CD的音質,達到音質、位元率和延時三者的最佳組合,是會議電視領域的最優選擇。  

相關文章