聲音識別技術真的能識別出蒙面聖戰士嗎?

PSI內容合夥人發表於2016-01-14

最新的伊斯蘭聖戰視訊中,蒙面聖戰士說話明顯帶著英國口音,使他初步被確認為是來自倫敦東部的穆斯林宗教信仰者Siddhartha Dhar。據稱聲音識別專家與英國情報服務部門合作使用聲音分析技術。但這一技術如何工作,其能力如何?

當聽到一個非常熟悉的聲音時,大部分人都能夠在僅聽到幾個詞後就識別出說話的人,而不那麼熟悉的聲音可能會需要較長的時間。如果所說的單詞上下文或內容很熟悉,那麼識別聲音就更加簡單。通常當試圖進行記錄比對和尋找匹配時,機器也面對著同樣的條件。旨在通過聲音確定人員的計算系統——說話人識別系統——在它們是否旨在檢測出以下內容上有所區別:已知說話人的存在;將語音與幾個已知的說話人進行匹配;檢測出未知記錄中的易識別聲音;或者證實語音記錄確實來自於預期說話人。

現代系統傾向於採用大資料方法,同時機器學習演算法也用大量已知記錄進行訓練從而能夠識別出不同說話人的聲音特徵。這一想法重點在於不同說話人之間明顯不同的重要特徵能夠被自動學習。作為對比,老式方法需要詳細指明哪種型別的語言和語音特徵比較重要,以便能夠在說話人之間進行比對。雖然我們並不知道哪些特徵組合對於語音識別來說更好,但我們將它們分類為聲學或語言學。

聲學和語言學特徵

聲學特徵是指人類如何發出聲音的特徵。當我們說話的時候,空氣從肺中吐出,穿過氣管,經過咽喉,從嘴巴和鼻子中撥出。在經過這些地方的時候,聲帶產生振動,而聲帶的放鬆或收縮改變了振動頻率,就產生了聲音的音調。

外表與聲音的產生有所關聯。(來源:National Cancer Institute)

外表與聲音的產生有所關聯。(來源:National Cancer Institute)

聲帶和鼻腔內部的某些部位,比如說舌頭、牙齒和嘴脣——也就是所謂的發音器官——會改變聲音,從而產生不同的共振——即共振峰——造就了其他不同的語音特徵。我們聽到的語音就是空氣經過這些器官、在這些身體部位之中和之間產生的所有這些相互作用的組合體結果。

我們每一個人都有獨特的語音特徵:肺部呼氣的方式、聲帶共振、發音器官都會產生獨特的聲音。一個人的「a」和另一個人的會非常不同——而這只是英語44個音素(組成單詞的語音最小單位)的其中一個。我們的語言將音素組合在一起的方式以及從一個音素轉變到另一個音素的方式也不同,而導致上述情況的就是語速。考慮一下英國鄉村口音的穩定節奏和圓潤的脣母音以及大城市裡普遍更快、斷續的語言之間的區別吧。

語言特徵與我們選擇哪種音素和以哪種頻率說這種音素有關,而不是它們是如何產生的。如果我說「tomahto」,而你說「tomayto」,我們說的其實是同一個單詞,只是選擇了不同的音素。基於熟悉程度、區域差異和代溝不同,會有很多不同的發音。單詞的選擇、不同的單次、語法模式、暫停/重音的特點、句子或短語的結構也能夠提供一種區別不同說話人的方式。

而在更高的級別上,仍然是單詞本身的意義。我們傾向於做出不同的選擇,選擇我們說什麼以及我們如何做出選擇——我們說話的方式是如何的直接、或有衝突的、或閃爍其詞的、或充滿智慧的。如果你曾遇到某些人,並且認為他們說話像是律師、老師或藝術家,那麼你用來識別這些人身份的模式也能被計算機識別出來。

短語「I owe you」的時間/頻率聲譜圖。

短語「I owe you」的時間/頻率聲譜圖。

弄清楚這一切

在計算方面,首先,語言和聲學特徵是獨立的,將大量資料壓縮成可管理的特徵組能有效捕獲到重要的細微差別。其次模式匹配被用來將這些語音和來自於另一記錄的語音進行比較。

語音特徵能夠被自動提取,包括音調、共振峰頻率、聲道長度以及說音節的頻率。某些現代方式能夠用更低階的特徵表現的更好,所需處理更少,並提供更少的內在意義。這些通常是二維的僅有時間和頻率的圖譜,比如聲譜圖。

複雜語音減少至一組更簡單的典型特徵,之後應用一種廣義模式匹配進行處理,從而確定如何進行最好比對,並確定模式匹配有多契合。給予足夠的優質語音進行分析,我們能夠將說話人確定為一組嫌疑人的其中之一。能夠進行雙向對比的語音越多,匹配度就越好。在一開始所述的案例中,專家有好幾份Dhar仍在英國時參加面試的記錄。

如果沒有嫌疑人的話,想要完成任務幾乎不可能,這就像是大海撈針。但我們從一份記錄裡的說話人所能學到和推斷的本身就能將大海的範圍縮小到一個可控的範圍。比如,專業聽者能夠縮小家庭區域、年齡、性別、情緒等範圍,可能還能夠推斷出說話人的教育程度。在某些情況,語音專家能夠推斷出說話人的出生地、父母是否說另一種語言、他們最近是否住在別的地方,可能甚至還能推斷出他們何時離開英國。

http://v.qq.com/page/a/u/6/a0180pr84u6.html

科幻小說或現實?

雖然很多都處於保密,但相信說話人識別技術已被國家安全機構(比如英國的GCHQ、美國的NSA和中國的公安局等)用於實踐。普遍認為在某些國家的機場出入境櫃檯已經開始捕獲聲紋了,這可能也解釋了為什麼在處理過程中你可能會被問及一兩個毫無意義的問題——畢竟面部識別已經廣泛應用於機場,聲音識別為什麼不會呢?

來自於GoVivace、iFlytek、IBM和Nuance的商業聲音匹配技術可能至少比政府所使用的技術落後一代。目前這項技術的有用程度尚有爭議,但已被金融機構作為說話人驗證手段成為日常應用——提供證據證明這些人是他們自己所號稱的人。

聲紋分析已經在上世紀70年代被用於刑事案件,成敗摻半,通常用於證明給定記錄中的語音屬於某個特定的說話人,這種情況下的要求較低。而試圖將某個說話人與大量可能的潛在說話人進行匹配要難得多,更不用說可能正確的匹配並不在上述範圍內了。但這並非不可能,因為系統總是在不斷改進的。

本文選自The Conversation,作者:Ian McLoughlin,機器之心編譯出品,編譯:柒柒。

相關文章