有關音訊編碼的知識與技術引數(轉載)

helloxchen發表於2010-11-09

自然界中的聲音非常複雜,波形極其複雜,通常我們採用的是脈衝程式碼調製編碼,即PCM編碼。PCM透過抽樣、量化、編碼三個步驟將連續變化的模擬訊號轉換為數字編碼。

1、什麼是取樣率和取樣大小(位/bit)?

  聲音其實是一種能量波,因此也有頻率和振幅的特徵,頻率對應於時間軸線,振幅對應於電平軸線。波是無限光滑的,絃線可以看成由無數點組成,由於儲存空間是相對有限的,數字編碼過程中,必須對絃線的點進行取樣。取樣的過程就是抽取某點的頻率值,很顯然,在一秒中內抽取的點越多,獲取得頻率資訊更豐富,為了復原波形,一次振動中,必須有2個點的取樣,人耳能夠感覺到的最高頻率為20kHz,因此要滿足人耳的聽覺要求,則需要至少每秒進行40k次取樣,用40kHz表達,這個40kHz就是取樣率。我們常見的CD,取樣率為44.1kHz。光有頻率資訊是不夠的,我們還必須獲得該頻率的能量值並量化,用於表示訊號強度。量化電平數為2的整數次冪,我們常見的CD位16bit的取樣大小,即2的16次方。取樣大小相對取樣率更難理解,因為要顯得抽象點,舉個簡單例子:假設對一個波進行8次取樣,取樣點分別對應的能量值分別為A1-A8,但我們只使用2bit的取樣大小,結果我們只能保留A1-A8中4個點的值而捨棄另外4個。如果我們進行3bit的取樣大小,則剛好記錄下8個點的所有資訊。取樣率和取樣大小的值越大,記錄的波形更接近原始訊號。

2、有損和無損

  根據取樣率和取樣大小可以得知,相對自然界的訊號,音訊編碼最多隻能做到無限接近,至少目前的技術只能這樣了,相對自然界的訊號,任何數字音訊編碼方案都是有損的,因為無法完全還原。在計算機應用中,能夠達到最高保真水平的就是PCM編碼,被廣泛用於素材儲存及音樂欣賞,CD、DVD以及我們常見的WAV檔案中均有應用。因此,PCM約定俗成了無損編碼,因為PCM代表了數字音訊中最佳的保真水準,並不意味著PCM就能夠確保訊號絕對保真,PCM也只能做到最大程度的無限接近。我們而習慣性的把MP3列入有損音訊編碼範疇,是相對PCM編碼的。強調編碼的相對性的有損和無損,是為了告訴大家,要做到真正的無損是困難的,就像用數字去表達圓周率,不管精度多高,也只是無限接近,而不是真正等於圓周率的值。

  3、為什麼要使用音訊壓縮技術

  要算一個PCM音訊流的位元速率是一件很輕鬆的事情,取樣率值×取樣大小值×聲道數 bps。一個取樣率為44.1KHz,取樣大小為16bit,雙聲道的PCM編碼的WAV檔案,它的資料速率則為 44.1K×16×2 =1411.2 Kbps。我們常說128K的MP3,對應的WAV的引數,就是這個1411.2 Kbps,這個引數也被稱為資料頻寬,它和ADSL中的頻寬是一個概念。將位元速率除以8,就可以得到這個WAV的資料速率,即176.4KB/s。這表示儲存一秒鐘取樣率為44.1KHz,取樣大小為16bit,雙聲道的PCM編碼的音訊訊號,需要176.4KB的空間,1分鐘則約為10.34M,這對大部分使用者是不可接受的,尤其是喜歡在電腦上聽音樂的朋友,要降低磁碟佔用,只有2種方法,降低取樣指標或者壓縮。降低指標是不可取的,因此專家們研發了各種壓縮方案。由於用途和針對的目標市場不一樣,各種音訊壓縮編碼所達到的音質和壓縮比都不一樣,在後面的文章中我們都會一一提到。有一點是可以肯定的,他們都壓縮過。

  4、頻率與取樣率的關係

  取樣率表示了每秒對原始訊號取樣的次數,我們常見到的音訊檔案取樣率多為44.1KHz,這意味著什麼呢?假設我們有2段正弦波訊號,分別為20Hz和20KHz,長度均為一秒鐘,以對應我們能聽到的最低頻和最高頻,分別對這兩段訊號進行40KHz的取樣,我們可以得到一個什麼樣的結果呢?結果是:20Hz的訊號每次振動被取樣了40K/20=2000次,而20K的訊號每次振動只有2次取樣。顯然,在相同的取樣率下,記錄低頻的資訊遠比高頻的詳細。這也是為什麼有些音響發燒友指責CD有數碼聲不夠真實的原因,CD的44.1KHz取樣也無法保證高頻訊號被較好記錄。要較好的記錄高頻訊號,看來需要更高的取樣率,於是有些朋友在捕捉CD音軌的時候使用48KHz的取樣率,這是不可取的!這其實對音質沒有任何好處,對抓軌軟體來說,保持和CD提供的44.1KHz一樣的取樣率才是最佳音質的保證之一,而不是去提高它。較高的取樣率只有相對模擬訊號的時候才有用,如果被取樣的訊號是數字的,請不要去嘗試提高取樣率。

  5、流特徵

  隨著網路的發展,人們對線上收聽音樂提出了要求,因此也要求音訊檔案能夠一邊讀一邊播放,而不需要把這個檔案全部讀出後然後回放,這樣就可以做到不用下載就可以實現收聽了。也可以做到一邊編碼一邊播放,正是這種特徵,可以實現線上的直播,架設自己的數字廣播電臺成為了現實。

四、各種主流音訊編碼(或格式)的介紹

  1、PCM編碼

  PCM 脈衝編碼調製是Pulse Code Modulation的縮寫。前面的文字我們提到了PCM大致的工作流程,我們不需要關心PCM最終編碼採用的是什麼計算方式,我們只需要知道PCM編碼的音訊流的優點和缺點就可以了。PCM編碼的最大的優點就是音質好,最大的缺點就是體積大。我們常見的Audio CD就採用了PCM編碼,一張光碟的容量只能容納72分鐘的音樂資訊。

  2、WAVE

  這是一種古老的音訊檔案格式,由微軟開發。WAV是一種檔案格式,符合 PIFF Resource Interchange File Format規範。所有的WAV都有一個檔案頭,這個檔案頭音訊流的編碼引數。WAV對音訊流的編碼沒有硬性規定,除了PCM之外,還有幾乎所有支援ACM規範的編碼都可以為WAV的音訊流進行編碼。很多朋友沒有這個概念,我們拿AVI做個示範,因為AVI和WAV在檔案結構上是非常相似的,不過AVI多了一個影片流而已。我們接觸到的AVI有很多種,因此我們經常需要安裝一些Decode才能觀看一些AVI,我們接觸到比較多的DivX就是一種影片編碼,AVI可以採用DivX編碼來壓縮影片流,當然也可以使用其他的編碼壓縮。同樣,WAV也可以使用多種音訊編碼來壓縮其音訊流,不過我們常見的都是音訊流被PCM編碼處理的WAV,但這不表示WAV只能使用PCM編碼,MP3編碼同樣也可以運用在WAV中,和AVI一樣,只要安裝好了相應的Decode,就可以欣賞這些WAV了。
在Windows平臺下,基於PCM編碼的WAV是被支援得最好的音訊格式,所有音訊軟體都能完美支援,由於本身可以達到較高的音質的要求,因此,WAV也是音樂編輯創作的首選格式,適合儲存音樂素材。因此,基於PCM編碼的WAV被作為了一種中介的格式,常常使用在其他編碼的相互轉換之中,例如MP3轉換成WMA。

  3、 MP3編碼

  

  4、OGG編碼

  網路上出現了一種叫Ogg Vorbis的音訊編碼,號稱MP3殺手!Ogg Vorbis究竟什麼來頭呢?OGG是一個龐大的多媒體開發計劃的專案名稱,將涉及影片音訊等方面的編碼開發。整個OGG專案計劃的目的就是向任何人提供完全免費多媒體編碼方案!OGG的信念就是:OPEN!FREE!Vorbis這個詞彙是特里·普拉特柴特的幻想小說《Small Gods》中的一個"花花公子"人物名。這個詞彙成為了OGG專案中音訊編碼的正式命名。目前Vorbis已經開發成功,並且開發出了編碼器。
  Ogg Vorbis是高質量的音訊編碼方案,官方資料顯示:Ogg Vorbis可以在相對較低的資料速率下實現比MP3更好的音質!Ogg Vorbis這種編碼也遠比90年代開發成功的MP3先進,她可以支援多聲道,這意味著什麼?這意味著Ogg Vorbis在SACD、DTSCD、DVD AUDIO抓軌軟體(目前這種軟體還沒有)的支援下,可以對所有的聲道進行編碼,而不是MP3只能編碼2個聲道。多聲道音樂的興起,給音樂欣賞帶來了革命性的變化,尤其在欣賞交響時,會帶來更多臨場感。這場革命性的變化是MP3無法適應的。
  和MP3一樣,Ogg Vorbis是一種靈活開放的音訊編碼,能夠在編碼方案已經固定下來後還能對音質進行明顯的調節和新演算法的改良。因此,它的聲音質量將會越來越好,和MP3相似,Ogg Vorbis更像一個音訊編碼框架,可以不斷匯入新技術逐步完善。和MP3一樣,OGG也支援VBR。

  5、MPC 編碼

  MPC是又是另外一個令人刮目相看的實力派選手,它的普及過程非常低調,也沒有什麼複雜的背景故事,她的出現目的就只有一個,更小的體積更好的音質!MPC以前被稱作MP+,很顯然,可以看出她針對的競爭對手是誰。但是,只要用過這種編碼的人都會有個深刻的印象,就是她出眾的音質。

  6、mp3PRO 編碼

2001年6月14日,美國湯姆森多媒體公司(Thomson Multimedia SA)與佛朗赫弗協會(Fraunhofer Institute)於6月14日釋出了一種新的音樂格式版本,名稱為mp3PRO,這是一種基於mp3編碼技術的改良方案,從官方公佈的特徵看來確實相當吸引人。從各方面的資料顯示,mp3PRO並不是一種全新的格式,完全是基於傳統mp3編碼技術的一種改良,本身最大的技術亮點就在於SBR(Spectral Band Replication 頻段複製),這是一種新的音訊編碼增強演算法。它提供了改善低位率情況下音訊和語音編碼的效能的可能。這種方法可在指定的位率下增加音訊的頻寬或改善編碼效率。SBR最大的優勢就是在低資料速率下實現非常高效的編碼,與傳統的編碼技術不同的是,SBR更像是一種後處理技術,因此解碼器的演算法的優劣直接影響到音質的好壞。高頻實際上是由解碼器(播放器)產生的,SBR編碼的資料更像是一種產生高頻的命令集,或者稱為指導性的訊號源,這有點駇idi的工作方式。我們可以看到,mp3PRO其實是一種mp3訊號流和SBR訊號流的混合資料流編碼。有關資料顯示,SBR技術可以改善低資料流量下的高頻音質,改善程度約為30%,我們不管這個30%是如何得來的,但可以事先預知這種改善可以讓64kbps的mp3達到128kbps的mp3的音質水平(注:在相同的編碼條件下,資料速率的提升和音質的提升不是成正比的,至少人耳聽覺上是這樣的),這和官方聲稱的64kbps的mp3PRO可以媲美128kbps的mp3的宣傳基本是吻合的。

  7、WMA

  WMA就是Windows Media Audio編碼後的檔案格式,由微軟開發,WMA針對的不是單機市場,是網路!競爭對手就是網路媒體市場中著名的Real Networks。微軟聲稱,在只有64kbps的位元速率情況下,WMA可以達到接近CD的音質。和以往的編碼不同,WMA支援防複製功能,她支援透過Windows Media Rights Manager 加入保護,可以限制播放時間和播放次數甚至於播放的機器等等。WMA支援流技術,即一邊讀一邊播放,因此WMA可以很輕鬆的實現線上廣播,由於是微軟的傑作,因此,微軟在Windows中加入了對WMA的支援,WMA有著優秀的技術特徵,在微軟的大力推廣下,這種格式被越來越多的人所接受。

  8、RA

  RA就是RealAudio格式,這是各位網蟲接觸得非常多的一種格式,大部分音樂網站的線上試聽都是採用了RealAudio,這種格式完全針對的就是網路上的媒體市場,支援非常豐富的功能。最大的閃爍點就是這種格式可以根據聽眾的頻寬來控制自己的位元速率,在保證流暢的前提下儘可能提高音質。RA可以支援多種音訊編碼,包括ATRAC3。和WMA一樣,RA不但都支援邊讀邊放,也同樣支援使用特殊協議來隱匿檔案的真實網路地址,從而實現只線上播放而不提供下載的欣賞方式。這對唱片公司和唱片銷售公司很重要,在各方的大力推廣下,RA和WMA是目前網際網路上,用於線上試聽最多的音訊媒體格式。

  9、APE

  APE是Monkey's Audio提供的一種無失真壓縮格式。Monkey's Audio提供了Winamp的外掛支援,因此這就意味著壓縮後的檔案不再是單純的壓縮格式,而是和MP3一樣可以播放的音訊檔案格式。這種格式的壓縮比遠低於其他格式,但能夠做到真正無損,因此獲得了不少發燒使用者的青睞。在現有不少無失真壓縮方案種,APE是一種有著突出效能的格式,令人滿意的壓縮比以及飛快的壓縮速度,成為了不少朋友私下交流發燒音樂的唯一選擇。


http://blog.csdn.net/threewells_14/archive/2007/05/23/1622589.aspx[@more@]

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/24790158/viewspace-1041219/,如需轉載,請註明出處,否則將追究法律責任。

相關文章