清華大學鄭方:語音技術用於身份認證的理論與實踐

資料派THU發表於2018-11-02

本講座選自清華大學語音和語言技術中心主任鄭方教授近期於清華大資料“技術·前沿”系列講座上所做的題為《語音技術用於身份認證的理論與實踐》的演講。

清華大學鄭方:語音技術用於身份認證的理論與實踐

以下為演講的主要內容:

鄭方:今天,我所講的關於語音技術用於身份認證的理論與實踐,主要分為兩個方向:

  • 一是更高的安全保障

  • 二是更低的隱私洩露

清華大學鄭方:語音技術用於身份認證的理論與實踐

清華大學鄭方:語音技術用於身份認證的理論與實踐

內容則分成四個方面:

  • 一是身份認證的技術要求

  • 二是語音訊號的特點分析

  • 三是安全保障和隱私保護

  • 四是語音處理技術的實踐

一、身份認證的技術要求

1. 網路空間身份認證

清華大學鄭方:語音技術用於身份認證的理論與實踐

“網路空間身份認證”事關新時代的國家安全、經濟安全、社會穩定、民眾福祉等,這其中包括五個方面:

  • 一是網路空間已成為國際反恐新陣地

  • 二是網路安全風險向更多終端蔓延;

  • 三是資訊資源共享開放面臨認證瓶頸;

  • 四是個人資訊倒賣助長“黑色產業鏈”;

  • 五是認證漏洞威脅公民財產生命安全。

2. 身份認證的三個層級

清華大學鄭方:語音技術用於身份認證的理論與實踐

網路空間身份認證分為三個層級:第一層級是實名;第二層級是實證;更高的層級是實人,即人本身必須是真實的。

3. 各國政府解決方案和路線圖比較

清華大學鄭方:語音技術用於身份認證的理論與實踐

各國政府解決方案和路線圖也各有不同,歐美等已開發國家在這方面早有佈局。

清華大學鄭方:語音技術用於身份認證的理論與實踐

比如,歐盟於2006年釋出了《2010年泛歐洲eID管理框架路線圖》(eID即電子身份證),計劃用五年實現歐洲聯盟電子政務的身份管理。

清華大學鄭方:語音技術用於身份認證的理論與實踐

美國於2011年釋出了《網路空間可信身份國家戰略》,計劃用十年的時間,建設一套公民的身份認證生態體系。

清華大學鄭方:語音技術用於身份認證的理論與實踐

中國起步比較晚。2013年底,中國通訊標準化協會專門設立了“網路空間身份管理標準工作組”,公安部三所正在牽頭制定30多項eID國家及行業標準。

清華大學鄭方:語音技術用於身份認證的理論與實踐

另外,公安部一所在2016年研發了“網路可信身份認證服務平臺”,每個人都可在網上生成終生唯一編號的“身份證網上副本”;同時,由公安部一所牽頭,清華大學也參與共建了多維身份識別和可信認證國家工程實驗室。

清華大學鄭方:語音技術用於身份認證的理論與實踐

2012年7月,為了滿足市場需求和應付網上驗證的要求,線上快速身份驗證聯盟(FIDO)成立。它主要通過兩個子協議實現安全的登入,第一個協議UAF(通用認證框架),支援指紋、語音、虹膜等生物特徵識別;第二個協議U2F是關於使用PIN和USB棒或者支援NFC手機的認證協議。

4. 生物特徵(生理特徵+行為特徵)

清華大學鄭方:語音技術用於身份認證的理論與實踐

我們發現,不管是中國公安部一所還是FIDO聯盟,都已經開始考慮使用生物特徵。那麼什麼是生物特徵呢?生物特徵分為生理特徵和行為特徵。其中,生理特徵包括指紋、人臉、虹膜、掌紋、DNA等,理特徵的最大特點是從出生到去世基本不變

清華大學鄭方:語音技術用於身份認證的理論與實踐

第二類特徵是行為特徵。它既有生理方面的一些特徵,同時又有一些行為方面的特徵;比如,簽名、步態、聲紋。

清華大學鄭方:語音技術用於身份認證的理論與實踐

可以參考的第一個事件是去年12月26號在廣州市的南沙區推出的微信身份證“微證”,第二個事件是江西共青城做的一個網路電子身份標識的手機貼膜卡(SIMEID)。

5. 公民關注的焦點

清華大學鄭方:語音技術用於身份認證的理論與實踐

公民關注的焦點主要分為兩個方面:

  • 一是生物特徵的安全性——防攻擊效能如何?

  • 二是生物特徵的隱私性——生物特徵丟了怎麼辦?

所以,網上出現一句話“丟臉即丟人”,這是最大的問題。

清華大學鄭方:語音技術用於身份認證的理論與實踐

我們發現生理特徵具有很多類似的特點,即不可撤銷性。比如,虹膜是不能防攻擊的。

清華大學鄭方:語音技術用於身份認證的理論與實踐

同時,指紋識別、人臉識別也具有不能防攻擊的特性。

清華大學鄭方:語音技術用於身份認證的理論與實踐

刷臉也存在安全問題,只需採用一些傳統方法,就可以輕易攻擊某些基於AI安全手段的系統。

清華大學鄭方:語音技術用於身份認證的理論與實踐

歐盟於今年5月25日釋出了一個GDPR條例,即通用資料保護規範。它是對我們企業影響非常大的條例,不僅是適用於歐盟的組織,而且適用於在歐盟擁有客戶和聯絡人的組織;只要跟歐盟有關係,它都會保護,所以對產業具有非常巨大的影響。

清華大學鄭方:語音技術用於身份認證的理論與實踐

清華大學鄭方:語音技術用於身份認證的理論與實踐

無監督身份認證的技術要求包含五個方面:

  • 一是人證合一性,用來進行身份認證的特徵,一定要具有唯一性,並且識別技術要有準確性;

  • 二是不易偽造性

  • 三是意圖真實性

  • 四是證據可溯性

  • 五是認證便宜性

二、語音訊號的特點分析

清華大學鄭方:語音技術用於身份認證的理論與實踐

語音特徵具有的優勢包括:

  • 第一,語音獲取自然、方便,易於接受;

  • 第二,語音採集和傳輸成本低廉,使用簡單;

  • 第三,使用者互動性強,易防止假冒闖入;

  • 第四,可以結合業務

  • 第五,可以體現使用者真實意圖

它的劣勢包括:

  • 一是不直觀,看不見摸不著;

  • 二是時變性,隨著年齡等會有變化;

  • 三是弱可獲得性,不同於人臉可以從身份證系統獲得,聲紋每次需要預留;

  • 四是弱抗噪性,類似於手指(指紋)髒了。

清華大學鄭方:語音技術用於身份認證的理論與實踐

總結一下,語音主要有以上三個比較突出的特點。

清華大學鄭方:語音技術用於身份認證的理論與實踐

上圖是計算機眼中的語音。

清華大學鄭方:語音技術用於身份認證的理論與實踐

語音訊號是一維訊號,形簡意豐,包含很多豐富的資訊。比如,語音內容、說話人、語音、性別、情感等。

清華大學鄭方:語音技術用於身份認證的理論與實踐

如上圖所示,語音訊號包含多層資訊。第一層面是語言資訊,句子、句式、焦點、因素等都可以在其中體現出來;第二層面是副語言資訊,包括音高、音質量、語調等,蘊含了說話人的態度、情感、意圖、方言等等多方面資訊;第三層非語言資訊,比如健康狀況、性別、年齡等。

清華大學鄭方:語音技術用於身份認證的理論與實踐

身份識別是指對人的身份通過語音訊號中所蘊含的資訊來進行判別的自動化技術。

清華大學鄭方:語音技術用於身份認證的理論與實踐

總體來講,可以分為四類:

  • 第一,聲紋辨認。判定測試語音屬於目標說話模型集合中哪一個人。辨認是“多選一”的 “選擇”問題;

  • 第二,聲音確認。確認測試語音是否來自所宣告的目標說話人。確認是“一對一”的“判別”問題;

  • 第三,說話人檢出。判斷測試語音中是否存在目標說話人;

  • 第四,檢出的擴充套件。判斷目標說話人在測試語音中的發音位置。

第二種分類方法是按照說話內容的限定性,分為:

  • 文字相關

  • 文字無關

  • 文字提示

所謂文字無關是指聲紋識別系統對發音內容無任何要求,說話人可隨意錄製或發音一定長度的語音;所謂文字相關是指聲紋識別系統要求說話人必須發音事先指定的文字內容;所謂文字指示是指聲紋識別系統從訓練文字庫中隨機提取若干詞彙組合後提示使用者發音的文字內容,一般需要結合ASR。

清華大學鄭方:語音技術用於身份認證的理論與實踐

對於聲紋確認效能的評價,我們會使用到EER 和DET曲線。DET曲線由兩個座標組成,橫座標是FAR,縱座標是FRR,FAR是指錯誤的預警、錯誤的接受,與安全性對應;FRR是指錯誤拒絕,與使用者體驗對應。當兩個錯誤率相等時,即FAR=FRR,稱之為等錯誤率(EER)。等錯誤率可以平均地表現系統的好壞,衡量的標準是等錯誤率離原點越近系統越好,離原點越遠系統越差。

清華大學鄭方:語音技術用於身份認證的理論與實踐

同時,我們也會用到檢測代價函式(DCF),DCF值是FAR和FRR的加權和。DCF值將FAR和FRR不同重要性量化,值越小,系統效能越好越好。

清華大學鄭方:語音技術用於身份認證的理論與實踐

聲紋識別辨認有兩種:

  • 一是開集聲紋辨認

  • 二是閉集聲紋辨認

清華大學鄭方:語音技術用於身份認證的理論與實踐

對於聲紋識別的技術發展歷程,我們可以按照兩個維度來看,一是特徵域,二是模型域,每個域的發展都經歷了非常漫長的過程。

清華大學鄭方:語音技術用於身份認證的理論與實踐

清華大學鄭方:語音技術用於身份認證的理論與實踐

現在比較多的模型是GMM—UBM,它將GMM(高斯混合模型)和UBM(通用背景模型)放到一起來進行說話人識別,提高了準確率

清華大學鄭方:語音技術用於身份認證的理論與實踐

說話人識別技術經歷的很多發展基本很多都是利用了一個概念,即Supervector(超向量)。

清華大學鄭方:語音技術用於身份認證的理論與實踐

說話人識別需要解決的問題非常多,可以分為三類:

  • 第一是環境相關的魯棒性,包括背景噪音、跨通道、多說話人;

  • 第二是說話人相關的魯棒性,包括身體條件變化、年齡變化、說話方式變化;

  • 第三是應用相關的魯棒性,比如防假冒攻擊、短語音的使用者體驗、真實意圖檢測、語音編碼相容性等。

三、隱私保護和安全保障

清華大學鄭方:語音技術用於身份認證的理論與實踐

我們發現,身份認證其實涉及了安全性和方便性的一對矛盾共同體。有時候完全強調方便性不行,完全考慮安全性也不行。

清華大學鄭方:語音技術用於身份認證的理論與實踐

聲紋識別系統的常見攻擊手段分為直接攻擊和間接攻擊,可能的攻擊點存在8個方面,如上圖所示。

清華大學鄭方:語音技術用於身份認證的理論與實踐

常見的攻擊手段有四類:

  • 第一類叫聲音模仿

  • 第二類叫語音合成

  • 第三類叫語音轉換

  • 第四類叫語音重放

清華大學鄭方:語音技術用於身份認證的理論與實踐

其中,聲音模仿是模仿說話韻律和說話風格,未見研究證明其具有顯著威脅性,暫無防禦的必要性。

清華大學鄭方:語音技術用於身份認證的理論與實踐

語音合成是合成特定說話人的語音。一方面,可以通過引數合成方法,估計關鍵引數;另一方面,可以通過發聲器模型,人工製造語音發生攻擊。

清華大學鄭方:語音技術用於身份認證的理論與實踐

語音合成和語音轉換都要通過一個計算機系統把聲音生成出來,然後再播放。這個放的過程和錄音重放是一樣的,所以從研究的角度講,只要把錄音重放檢測做好了,其他的問題便都可以解決。

清華大學鄭方:語音技術用於身份認證的理論與實踐

實際上,錄音重放的檢測有很多方法可以做到。比如資料追蹤,即對比當前語音和歷史驗證語音是否存在相同聲紋水印。

清華大學鄭方:語音技術用於身份認證的理論與實踐

所謂通道檢測是指檢測模型預留和識別測試之間的通道差異。

清華大學鄭方:語音技術用於身份認證的理論與實踐

如上圖所示,既有通道模式噪音,又有遠場混響。

清華大學鄭方:語音技術用於身份認證的理論與實踐

基於倒譜分析設計各類特徵,區分重放前後的語音,不同子頻帶具有不同的錄放檢測功能。

清華大學鄭方:語音技術用於身份認證的理論與實踐

還有一種方法是利用活體檢測麥克風所接收的語音是來自真人發音還是機器放音。

清華大學鄭方:語音技術用於身份認證的理論與實踐

第一個方案是噴麥現象的檢測。比如,任何一個正常人說話,都會有“噗”的聲音。但是如果是錄音機放的聲音,就沒有噴麥現象。

清華大學鄭方:語音技術用於身份認證的理論與實踐

更復雜的是通過多普勒雷達,人在正常說話的時候,嘴巴一張一合,口腔中有不同的反射。用一個發射器發出20K赫茲的訊號,出來之後,如果這邊是真人在說話,訊號經過口腔的反射,接收到的反射頻率不一樣,老在變;但如果是錄音機放的聲音,就沒有這個變化。

所以,我們發現不管通過軟體還是硬體,聲紋的防攻擊都是低成本。

清華大學鄭方:語音技術用於身份認證的理論與實踐

我們總結一下發現,應對直接攻擊的對策是用錄音檢測,間接攻擊的對策是加強軟體安全,修復系統漏洞。

清華大學鄭方:語音技術用於身份認證的理論與實踐

聲紋的防攻優勢,一是特徵提取,體現了多層。我們在特徵提取訊號域要進到頻率域,做一些處理,最後再到倒譜域,這才取得的第一道特徵。

清華大學鄭方:語音技術用於身份認證的理論與實踐

最近的JFA、i-vecter等是基於來自GMM-UBM的超向量。

清華大學鄭方:語音技術用於身份認證的理論與實踐

防攻擊的第一個是基礎策略,綜合利用語音識別和聲紋識別。

清華大學鄭方:語音技術用於身份認證的理論與實踐

第二是增強策略,比如錄音檢測、使用者自定義密碼等。

清華大學鄭方:語音技術用於身份認證的理論與實踐

脣語有語音的資訊、身份的資訊,並且和語音很像,脣語和語音結合起來就是雙特徵雙活體檢測

清華大學鄭方:語音技術用於身份認證的理論與實踐

什麼叫被知情?如果沒有使用者真實意圖檢測的話,會出現上圖所示的場景:“老公,看一眼手機唄”。如果“老公”一看,就會刷臉支付。

清華大學鄭方:語音技術用於身份認證的理論與實踐

語音的特點是非常方便,它是更高安全,更低成本和更低隱私的聲紋+的結構。

清華大學鄭方:語音技術用於身份認證的理論與實踐

除了虹膜在人證合一準確率方面是最好的之外,聲紋在不易偽造、意圖真實、證據可追溯、認證便宜方面都是最好的,符合性最大。

清華大學鄭方:語音技術用於身份認證的理論與實踐

上表是我們把各種不同的生物特徵進行的一個比較。其中,聲音的隱私風險最低。用一句話表達的話,便是“失聲(音)不失身(份)”。

清華大學鄭方:語音技術用於身份認證的理論與實踐

“聲紋+”方案有三個特點:

  • 一是高精度

  • 二是高安全

  • 三是低隱私

為什麼有這三個特點呢?因為有三個方面的原因。一是語音訊號本身的特點;二是語音演算法的優勢;三是低的成本。低的成本包括訊號本身的採集和傳輸,也包括計算成本都很低,所以“聲紋+”是最好的解決方案。

四、語音處理技術的實踐

清華大學鄭方:語音技術用於身份認證的理論與實踐

清華大學鄭方:語音技術用於身份認證的理論與實踐

清華大學鄭方:語音技術用於身份認證的理論與實踐

清華大學鄭方:語音技術用於身份認證的理論與實踐

清華大學鄭方:語音技術用於身份認證的理論與實踐

其他的AI領域包括社保、汽車、移動、保險、國家資訊中心、公安系統等。

清華大學鄭方:語音技術用於身份認證的理論與實踐

公有云的試驗已經逐步推開,涉及的領域包括移動金融、電子政務、社保的身份認證、電話反欺詐、汽車鎖、考勤、門禁等領域。

清華大學鄭方:語音技術用於身份認證的理論與實踐

清華大學鄭方:語音技術用於身份認證的理論與實踐

上圖是“聲紋+”的未來的場景,特點是便宜(方便和低成本)。在加油站、賓館、無人商店、ATM機都可以裝一些麥克風,需要認證的時候對它說一下。而不需要依賴於任何一個企業,任何一個應用或平臺。

清華大學鄭方:語音技術用於身份認證的理論與實踐

相關文章