在網際網路時代,每天各式各樣的資訊充斥著我們的視野。根據資訊的載體不同,我們可以將資訊分為文字資訊、圖片資訊、影片資訊和音訊資訊等。內容稽核,就是需要對文字、圖片、影片和音訊等內容進行稽核,給各類違禁內容貼上標籤並攔截。違禁內容涉及的領域比較寬泛,如色情、暴力、涉政、恐怖等。
人工智慧是一項能讓機器像人類一樣思考和判斷的技術。深度學習作為人工智慧領域的一個分支,受到了學者和工業界廣泛的關注。本文主要介紹基於深度學習的色情語音和 ASMR 語音的識別技術。
01 問題描述
根據業務需求,色情語音和 ASMR 語音屬於違禁內容,需要被自動攔截。我們的任務就是透過深度學習模型,從大量客戶傳入的語音中自動識別色情語音和 ASMR 語音。色情語音指的是男性和女性的呻吟聲,而 ASMR 語音指的是自發性知覺經絡反應,意思是指“人體透過視、聽、觸、嗅等感知上的刺激,在顱內、頭皮、背部或身體其他部位產生的令人愉悅的獨特刺激感,又名耳音、顱內高潮等”(定義來源於百度百科)的語音。
02 系統實現
2.1解決方案與系統架構
我們是用深度卷積神經網路,深度迴圈神經網路和注意力機制等模組來構建我們的深度神經網路,然後用訓練資料訓練神經網路,等網路收斂後,我們固定住網路引數,來最終預測輸入的語音資料的標籤。如下圖所示,虛線上方為訓練階段,下方為預測階段。從圖中可知,系統主要包括資料預處理、深度神經網路和損失函式設計等幾個主要模組。接下來我們分別介紹這幾個模組。
圖1 | 解決方案
2.2資料預處理
資料預處理作為音訊資料進入神經網路的中間步驟,起著承上啟下的作用。在訓練和預測階段,資料預處理模組略有不同。訓練階段,預處理主要包括聲學特徵 FBank 提取和資料增強兩個步驟。而預測階段,該模組僅包含聲學特徵 FBank 提取這一步驟。聲學特徵 FBank 特徵因為其獨特的基於倒譜的提取方式,更加的符合人類的聽覺原理,因而在語音任務中,也是最為普遍採用、最有效的聲學特徵。訓練時的資料增強,是希望得到更多的訓練資料,使得最終訓練收斂後的模型在預測階段具有更好的魯棒性。接下來,我們將分別介紹聲學特徵 FBank 的提取過程和資料增強方法 SpecAugment。
2.2.1 FBank 特徵
Fbank 特徵的提取大致經過了加窗、傅立葉變換、梅爾濾波等操作,具體流程如下圖所示:
圖2 | FBank 特徵提取過程
第一步為分幀並加窗。其中分幀的主要目的是將語音訊號等切分為短時間語音幀,短時間語音幀可以認為是平穩訊號,這也是後續傅立葉變換的前提。加窗的主要目的是減小訊號的頻譜洩漏,一般採用的窗函式為漢明窗或者漢寧窗。加窗與分幀過程如下所示:
圖3 | 分幀和加窗(來源:http://www.recognize-speech.com)
第二步為傅立葉變換。傅立葉變換的目的是提取語音的頻域訊號,經過傅立葉變換之後,我們就得到了每幀語音訊號的頻譜,將所有頻譜按時間順序排列得到如下的語譜圖:
圖4 | 語譜圖
第三、四步分別為梅爾濾波和取對數操作。梅爾濾波的原因在於研究發現,人耳對聲音訊率變化的敏感程度是不一致的。在低頻區域,聲音訊率稍加變化,人耳就能察覺出來。但是在高頻區域,需要比低頻區域變化更大的能量,人耳才能感知到其發生了變化。這一步驟利用一組特定濾波器並接上後續的對數操作來模擬人耳的聽覺特性。
2.2.2 資料增強方法 SpecAugment
SpecAugment 是 Google 提出的一種音訊資料增強方式。它透過扭曲時域訊號,掩蓋頻域通道與時域通道,修改了頻譜圖。這種增強方式可以用來增加網路的魯棒性,來對抗時域上的變形,以及頻域上的部分片段損失。下面展示了一個增強的例子。
圖5 | SpecAugment
2.3深度神經網路模型設計
在介紹完資料預處理模組之後,我們現在介紹圖1中的深度神經網路模型結構,如下圖所示:
圖6 | 語音分類模型圖
如圖6所示,語音資料經過資料預處理之後,得到 FBank 特徵 , FBank 特徵依次經過卷積神經網路 (CNN) ,迴圈神經網路 (BI-LSTM) ,注意力模組 (Attention) ,最後經過全連線層和 SoftMax 層輸出語音的類別。
第一階段,使用 CNN 網路來做語音特徵的進一步提取。儘管預處理得到的 FBank 特徵已經是語音訊號很好的特徵表達,但是 FBank 通用性很強,在語音各個任務裡面都有著廣泛的應用,我們為了得到對色情和 ASMR 語音分類更有效的語音特徵,我們需要透過 CNN 網路來提取。CNN 主要是做了區域性特徵的提取,在色情和 ASMR 語音分類任務中,帶有顯著違禁特徵的片段會對結果有比較關鍵的影響,所以 CNN 網路可以很好地工作在此任務中。
第二階段,將 CNN 提取到的特徵透過 LSTM 來進一步提取語音特徵。因為 LSTM 能更有效地捕捉序列的前後依賴和上下文關係。在色情語音和 ASMR 語音識別中,上下文資訊對提高分類的準確性會有所幫助,因為一般來講色情語音出現在背景音較安靜的房間內的機率,要比出現在背景音很嘈噪的大街上大很多。
第三階段,引入 Attention 機制, Attention 可以幫助模型關注到對分類更有幫助的特徵。我們發現近年來基於 Attention 的模型已越來越多地被用於谷歌、 Facebook 和 Salesforce 等大型公司的 AI 研究。
最後透過全連線層和 Softmax 層輸出最終語音的類別。
03 總結
本文主要介紹了基於深度學習的色情語音和 ASMR 語音的識別技術。首先介紹了資料預處理,以及模型的設計,接著介紹了評測方案,最後給出了結論。相關內容已經整理成專利交由專利局稽核,期待利用先進技術高效地對抗語音中的色情內容。
【本文來自於易盾技術團隊,作者為板鍋鍋】