異常聲音檢測總結

葉夜笙歌發表於2015-04-09

        異常聲音檢測,顧名思義,就是檢測現實生活中的異常聲音,如槍聲、爆炸聲、哭聲、尖叫聲等,屬於公共安全監控的範疇。

        傳統的公共安全監控是用攝像頭,但是攝像頭只能監控某個固定的場景,而且受光線影響很大,因而在電影中,罪犯只要知道攝像頭的位置,就可以很容易地避開攝像頭或用布將攝像頭遮住。

        隨著移動網際網路的發展,各種可穿戴式的安全產品相繼出現,但都是主打定位牌,360兒童手錶倒是可以錄音,但是需要家長主動撥打手錶來錄音,這種應用場景是在家長想知道孩子在哪時撥打孩子的手錶使其錄音10秒,這10秒錄音能不能讓家長知道孩子所處的環境暫且不說,單家長主動去撥打手錶就有個何時撥打的問題,家長只在想起來的時候才撥打,也許孩子早已經處於危險之中。360兒童手錶還可以讓孩子在遇到危險的時候緊急呼救,這裡所謂的危險必須是兒童意識清醒而且有呼救意識。所以這種家長主動撥或孩子主動求救的方法都是被動的。

         如果用異常聲音來判斷孩子是否安全呢?因為聲音是全向傳播的,不受光線影響,所以檢測異常聲音理論上是可以的。但是異常聲音的種類是在太多太複雜了,姑且不說有哭聲、尖叫聲、槍聲等不同異常聲音,即使是槍聲這一種異常聲音也有手槍、步槍等;而且現實生活中的干擾實在太多,所以準確判斷出異常聲音還是很困難。

        目前這一領域有兩種方案,一種叫異常聲音檢測,另一種叫異常聲音分類。所謂異常聲音檢測,就是檢測是否有異常聲音,但不能確定是何種異常聲音;而異常聲音分類,就是將異常聲音分類,從而知道檢測到的是何種異常聲音,很明顯,這種方法能檢測出的異常聲音種類有限。

        異常聲音檢測的一般方法是對背景環境聲建模,所有和模型不匹配的都是異常聲音;而異常聲音分類則是對異常聲音建模,所有和模型匹配的就是某種異常聲音。這兩種方法的原理其實都來自語音識別,本質上是要訓練出一個分類器。而語音識別的關鍵是分類器的區分度,也就是模型的準確性,而這又是由所選的聲學特徵和聲音模型確定的。

        常用的聲學特徵就是MFCC,此外還有MPEG-7等。我們聽到的聲音包含太多無用的資訊,MFCC就是用24維特徵係數來代表一幀的聲音。常用的聲音模型當然是HMM,此外還有GMM等。所以運用這類方法的難點和語音識別的難點是相同的。

        而在實時檢測中,準確檢測出異常聲音的起點和終點也是很重要的。因為如果起點和終點不準確,勢必會影響模型準確性,從而影響識別率。

相關文章