別隻盯著谷歌亞馬遜,美國國安局才是聲紋識別的「無形之手」

微胖發表於2018-01-23

編譯 | 王宇欣 白悅 Rik R 邱陸陸
作者 | Ava Kofman
來源 | The Intercept

別隻盯著谷歌亞馬遜,美國國安局才是聲紋識別的「無形之手」


在美蘇冷戰最嚴峻的時期,那是 1980 年的冬天,美國聯邦調查局(FBI)的特工人員記錄到了一次通話——一名男子被安排與在華盛頓特區的蘇聯大使進行祕密會晤。然而,在約定的那天,調查局的特工們沒能看到究竟是誰進入了大使館。當時,特工們沒有辦法僅根據他的通話聲音就查出他的名字,所以這個間諜得以繼續藏匿自己的身份,並在隨後的五年中,將一些美國機密專案的細節賣給了蘇聯。

直到 1985 年,根據一名俄羅斯叛逃者提供的情報,FBI 才最終確定了當時那名通話者為前美國國家安全域性(NSA)分析員 Ronald Pelton。次年,Ronald Pelton 被判處間諜罪。

而今,FBI 和 NSA 的特工能夠在 Pelton 給蘇聯撥出第一個電話的幾秒內識別出他的真實身份。NSA 2006 年 1 月的機密備忘錄顯示,NSA 的分析員使用了一種「用聲音識別人的技術」成功將 Pelton 以往的音訊檔案與電話監控相匹配。備忘錄中描述道:「如果這種技術早出現 20 年,那麼將能夠提前發現 Pelton 的間諜行為並實施抓捕,這將會大大減少 Pelton 對國家安全造成的重大損失。」

由前 NSA 僱員斯諾登提供的機密檔案顯示,NSA 開發的技術不僅能夠將私密對話轉為文字,還能自動識別對話中的人。

美國人在喚醒亞馬遜的 Alexa 或者打電話給銀行的時候,經常會使用到這種被稱為聲紋識別的技術。但是早在「Hello Siri」和「OK Google」這樣的語言指令走入尋常百姓家之前十年,NSA 就用這種聲紋識別技術來監控恐怖分子、政治家、毒梟、間諜甚至是一些普通政府機構的僱員。

這種技術的原理在於分析個人聲音中獨特的物理和行為特徵來區分不同人的聲音,例如發聲的音高、嘴型、咽部長度等。演算法隨後會建立個人聲音特徵的動態計算機模型,也就是通常所說的「聲紋」模型。整個過程——捕捉所說的單詞、將單詞轉化為聲紋、並將這種表示與資料庫中其他的「聲紋」進行對比——都可以在瞬間完成。儘管我們已經知道 NSA 依靠指紋和麵部影像來識別目標,但是根據 2008 年的一份機構檔案,聲紋才是「NSA 的統治地位所在」。

我們不難看出原因。NSA,無論獲得許可與否,擷取了數以百萬計的美國公民的電話,甚至包括越洋電話、視訊電話和網際網路電話,從而建立了一個無可比擬的聲紋庫。來自斯諾登提供的檔案顯示,分析人員將部分人的錄音提供給聲紋識別演算法之後,即使這些人在其他通話中使用未知的號碼、祕密程式碼亦或是不同語言,演算法都可以將其與已有的音訊相匹配。

早在伊拉克自由行動時,分析人員就使用聲紋識別技術,證實了那些「疑似被廢黜的領導人薩達姆的錄音」確實是薩達姆本人,而不像公眾以為的那樣是偽造的。NSA 的備忘錄進一步表明,NSA 分析員為本·拉登也構建了聲紋,「在幾次放送中,他的聲音都十分明顯且一致」;與基地組織的現任領導人 Ayman al-Zawahri 以及基地組織的三把手 Abu Musab al-Zarqawi 有顯著不同。他們也使用 Zarqawi 的聲紋從幾份網上釋出的音訊中找到了他。

據 2004 年至 2012 年間的機密檔案顯示,NSA 對其聲紋識別技術進行了愈發複雜的迭代。檔案證實了聲紋識別在反恐行動和緝毒行動中均獲使用。檔案還建議更多國家機構部署這項技術,不僅僅是為了追溯像 Pelton 這樣的間諜,還為了防止像斯諾登這樣的舉報人出現。

永遠在聽的演算法

別隻盯著谷歌亞馬遜,美國國安局才是聲紋識別的「無形之手」

2015 年 3 月 4 日,一位男子倚在紐約的一個公共電話亭旁用智慧手機打電話


一些民權專家擔心聲紋識別技術和該技術的擴充套件應用將會侵害公民隱私。白宮前國家情報局局長顧問 Timothy Edgar 解釋說,「聲紋識別技術即建立了一種新的情報能力,一種容易被濫用的能力。」「我們的聲音代替我們本人穿越各種渠道完成溝通。在大眾監控的時代,這種能力對我們所有人的隱私都有深遠的影響。」

Edgar 和其他專家指出,相比于姓名、地址、密碼、電話號碼和個人識別碼,人聲的相對穩定性使得其難以被改變或偽裝。電子前線基金會(Electronic Frontier Foundation)的律師 Jamie Williams 表示,這讓追蹤變得「容易的多」。「只要你能識別出某個人的聲音,」她表示,「你就能在監聽記錄或錄音中找到他們。」

聲音是一種獨特且易於獲取的生物特徵:與 DNA 不同,它可以被動地被收集,且不受距離的限制,不需要目標知悉或者徵得他們的同意。雖然識別的準確度受到收音條件的相似性,但是在受控的環境中——低底噪、熟悉的聲學環境和良好的通訊質量——這種技術可以用寥寥幾句話就精確地匹配到個人。計算機模型擁有的同一個人的不同聲音樣本越多,模型就愈發強大,愈發「成熟」。

在商業環境中,聲紋識別技術與呼叫中心欺詐審查、與 Siri 等語音助理交談以及個人銀行業務密碼驗證等任務關聯密切。並且這種技術的用途正在逐漸增長,根據市場研究公司 Tractica 的報告,到 2024 年,語音生物識別技術產業的收入預計將達到每年 50 億美元,其用途將擴充套件至邊境檢查站、醫療、信用卡支付和可穿戴裝置中。

公民自由主義者的一個主要擔心在於,聲紋識別技術有可能使談話「冷卻」。新聞自由基金會執行董事 Trevor Timm 指出,可以假設 NSA 的聲紋識別技術將會被用來追蹤記者、揭露訊息來源,攔截匿名訊息等。雖然如今人們已經知道在處理敏感材料時應該加密自己的電話,但是 Timm 指出,從電視機到耳機再到網際網路裝置,能夠偷偷記錄聲音的渠道實在是不勝列舉。Timm 說,我們 24 小時都會隨身攜帶一個麥克風,那就是我們的手機。我們知道政府有辦法侵入手機和計算機來開啟這些麥克風。

他繼續說道,「儘管斯諾登洩密事件之後,立法方面發生了很大變化,但美國人民對這種政府用來監視全球數百萬人的工具仍然只有一個片面的理解。這是一個值得在公眾領域辯論的事情。」但是他指出,如果公眾對技術的使用缺乏有意義的認識,這種爭論將會非常困難——甚至是否能存在都值得商榷。

一位前國防情報官員,因政策所限無法對機密檔案進行討論,匿名對 The Intercept 表示,他相信這種技術一直隱而不漏絕非偶然。「政府避免討論這種技術,正是因為它提出了一些嚴峻的問題,而這些問題政府不願意回答,」這位官員如是說道。「這是自 911 事件發生以來,對於我們個人及我們的權利的一項重要轉變。」而想要進入技術監控範圍,官員指出,「你什麼都不用做,張嘴說話就行了。」

民權主義者擔心,如果沒有針對政府祕密收集我們的語音模式這一事項的公開討論以及監督,我們可能會進入一個越來越沉默的世界。

新型聲音工具


別隻盯著谷歌亞馬遜,美國國安局才是聲紋識別的「無形之手」

2012 年 10 月 9 日,科羅拉多州博爾德,美國國家標準與技術研究院語音研究所(NIST)大樓


2013 年開始,美國人就已經知道 NSA 在大量收集國內外的電話資料,但如何將原始資料轉化為有用情報這一技術仍然鮮為人知。2015 年,據 The Intercept 報導,NSA 為處理政府收集的大量音訊建立了一系列「人類語言技術」。通過開發程式自動將語音翻譯成文字——分析員稱之為「語音版谷歌」——政府部門可以使用關鍵詞和「選擇器」來搜尋、閱讀和索引錄音而不是派人親自去聽,從而節省了大量的人力。

從語音轉寫文字專案衍生的聲紋識別技術為分析員提供了一種額外的工具,使其可以將不計其數的戰區音訊進行攔截與分類。NSA 和國防部斥巨資發展此技術並增加其可靠性。數字時代之前,聲紋識別隸屬於法庭科學。二戰期間,人類分析員對來自無線電的聲音訊率的視覺化輸出進行比較。根據《法庭聲紋識別》的作者 Harry Hollien 的說法,這些可以「閱讀語音」的機器——即語譜圖技術——甚至用來駁斥阿道夫•希特勒被暗殺並被人取代的謠言。

作為法庭聲紋識別標準化事宜的聯邦領導者,首席聲紋識別專家 James Wayman 解釋道:「聲紋可以被看到,」他指出,雖然「聲紋」這個詞已經被商業公司用爛了,但其實有一定的誤導性。因為「紋」意味著所捕獲的資訊是物理的,而不是行為的。他說:「其實你所擁有的是軟體程式裡的一個方程,能夠輸出不同的數字。」

這些方程已經從簡單的求均值演變為動態演算法模型。自 1996 年依賴,NSA 資助了美國國家標準與技術研究院語音研究所(NIST),培養和測試「解決聲紋識別問題的最具主導性和前途的演算法」。與 NIST 一起測試系統的還有,領先的生物識別公司和研究人員,其中有一些人獲得了 NSA 和國防部高階研究計劃局(DARPA)的資助。

NSA 一直對其聲紋識別專案三緘其口,因此公眾很難知道它目前可以發揮多大的作用。但是考慮到 NSA 資助的學術研究所和私企間緊密的聯絡,從其他國家正在做的事情和供應商正在銷售的東西可以大概估計出 NSA 的進展。

例如,行業領導者 Nuance 向政府、軍事部門和情報部門推銷「一個全國範圍內的生物聲紋識別系統,能夠從包含數百萬聲紋的系統中快速準確地識別並區分一個人的聲音」。2014 年,美聯社報導說,土耳其最大的行動電話公司已經使用 Nuance 的技術,用來收集 1000 萬左右使用者的語音資料。

10 月份,人權觀察社(HRW)報導說,中國政府正在建立一個國家級聲紋資料庫,從而能夠自動識別電話中的人。政府旨在將成千上萬的人的語音生物資訊與他們的身份證號碼、民族和家庭地址聯絡起來。據 HRW 報導,製造中國語音軟體的公司甚至已經給一個可以精確定位音訊檔案用於「輿論監督」的系統申請了專利,。

11 月,根據國際刑警組織釋出的新聞,由歐盟資助的一個國際聲紋識別的專案通過了最後的測試。來自 50 多個國家的 100 多名情報分析員、研究人員和執法人員(其中包括國際刑警組織的探員,英國大都會警察局和葡萄牙司法系統的警察們)都來到了展示現場,研究人員證明他們的方案可以識別「社交媒體上或合法截獲的音訊中說不同語言的未知發言者」。

The Intercept 查閱的 NSA 檔案中描繪了一個類似地正在發展的系統的輪廓——在 9/11 事件之後的幾年裡,這個系統的發展使得「語音分析員能夠在幾秒鐘內對數百小時的語音剪輯進行篩選,基於關鍵詞或說話者聲紋識別篩選出有用的資訊。」


「戲劇性」結果


別隻盯著谷歌亞馬遜,美國國安局才是聲紋識別的「無形之手」

2008 年 11 月 22 日,一名 Sahwa 成員在巴格達市中心檢查站附近用手機通話


NSA 聲紋識別技術的部分歷史可以通過閱讀訊號情報局(SID)近十年的內部通訊中重新構建。刨除那些自吹自擂和刻意略過的部分,SIDtoday 的備忘錄詳細記錄了聲紋識別的轉變歷程——從一門需要人類審查員進行的不太可靠的法庭科學到一個依賴大量的語音資料進行的自動演算法程式。特別是,這些備忘錄著重說明了美國分析員與英國政府通訊總部(GCHQ)的同行們如何密切合作處理來自伊拉克和阿富汗的與反恐工作相關的大量錄音。GCHQ 雖然拒絕回答本文中涉及的具體細節,但在內部通訊中自誇稱其系統「在與 NSA 的合作中發揮了重要作用」。

雖然有時候很難區分 SIDtoday 總是在展望未來的資訊釋出和技術的實際進展,但顯然,至少自 2003 年以來,NSA 一直在利用自動聲紋識別技術來定位和標註「那些重點關注物件的語音訊息」。一份 SIDtoday 的備忘錄解釋說,每當一個聲音訊號被攔截,聲紋識別技術就會為其建模,並將其與其他已知音源比較來回答這個問題:「這是我們一直在跟蹤的恐怖分子嗎?是奧薩馬·本·拉登嗎?」

但 NSA 的系統的功能遠遠不止回答「是」或者「不是」。在 2006 年的一系列通訊中,報導了一個名為「實時語音」(Voice RT)的專案,這個系統不僅能在語音攔截中自動識別說話者身份,還能識別他們的語言、性別和口音。分析員可以對攔截按上述類別進行分類,通過關鍵字進行實時搜尋,並設定自動警報,在傳入的攔截符合某些標籤的條件時通知他們。一份 NSA 的 PPT 進一步證實,Voice RT 程式將其「攝入」的伊拉克語音資料轉換為了聲紋。

斯諾登提供的 NSA 備忘錄並沒有說明 Voice RT 的部署範圍,而 GCHQ 的語音/傳真使用者組的會議記錄中提到了這一點。英國機構的備忘錄中的詳細說明了 NSA 的聲紋識別計劃是如何針對外國目標進行部署的。2007 年秋季,當其語音/傳真使用者組在與 NSA 代表會面時,NSA 成員們介紹了一個高效的 Voice RT 系統,可以為語言學家和分析員提供說話者識別和語言類別識別能力,可以將語音轉換為文字和並搜尋語音。「實質上,」會議記錄將 Voice RT 描述為,「一個一站式商店……他們為了提高系統的可部署性付出了大量的努力。」到 2010 年,NSA 的 Voice RT 程式可以處理超過 25 種外語的音訊。在阿富汗,NSA 將語音分析和地圖軟體配合使用,定位那些講阿拉伯語的訊號塔叢集——用來發現新的基地組織訓練營。

GCHQ 則使用了一個名為 Broad Oak 的專案,根據聲音來識別目標者。英國政府在中東地區建立了聲紋識別系統,識別物件不乏沙特、巴基斯坦、喬治亞和伊拉克的領導人。GCHQ 的會議記錄稱:「如果您認為我們可以幫助您在海量資訊流中找到您感興趣的目標,請隨時與我們聯絡,我們很樂意與您討論您的需求,並希望能夠提供一個迅速準確的解決方案。」

這不是一張空頭支票。2009 年,在識別伊拉克副總統之一 Adil Abdul Mahdi 時,GCHQ 吹噓說他們比對手 NSA 做得要好。「由於我們一直以比他們更快的速度報告他(副總統)的相關訊息,NSA 已經放棄參與其中 …… 此項良好的表現也提高了我們在 NSA 的聲譽。「2010 年,GCHQ 的研究概述顯示,兩個機構就聲紋分析專案的聯合實驗進行了廣泛的合作。

但聲紋識別工具的發展並非一帆風順。在其早期階段,這項技術遠不如今天那麼強大有效。前國防情報官員回憶說,雖然分析員能夠在他們的工作站播放語音樣本,但由於音訊沒有編入索引,搜尋重要的樣本是一個很大的挑戰。在 SIDtoday 發表的一封 2006 年的寫給編輯者的信中,一位分析員抱怨說語音工具的引入使其非常崩潰,並將其初始速度比作「流淌在一月的糖漿」。

然而到了 2007 年,聲紋識別技術已經明顯成熟。NSA 專門為伊朗總統 Mahmoud Ahmadinejad 的紐約市聯合國大會之行建立的備忘錄中詳細列舉了該技術的實際功用。在獲得合法授權後,分析員配置了一個專門的系統,儘可能多的跟蹤 143 名伊朗代表的電話。在所有的這些傳入流量上,他們執行了語音活動檢測演算法,以避免目標在沒有說話的時候分析員浪費時間跟蹤; 通過關鍵字來搜尋「電子郵件地址的傳遞和重要人物的討論」;以及根據說話者聲紋識別來成功定位「包括伊朗外交大臣在內的重要人士」的對話。

同年,NSA 在當年喬治亞開設的一家新的音訊取證實驗室在一份宣告中指出,NSA 計劃將這些語音技術提供給整個機構的更多分析員。2008 年 SIDtoday 的備忘錄報告稱系統的升級將允許分析員「找到目標者與過去音訊匹配的新的音訊剪輯」。

當目標找出規避聲紋識別技術的策略時,這些工具也會隨之進化。2007 年,分析員注意到,他們識別為基地組織的兩個目標的攔截頻率超出了正常人的談話範圍。在接下來的幾年中,分析員在葉門,阿富汗,伊拉克和其他地方也發現了這種聲音經過調製的目標。「這很有可能是為了避免被情報機構識別」。他們觀察到的一些音訊剪輯扭曲了說話者的音調,所以聽起來像是「艾文和花栗鼠」在說話。分析員據此推測,參與 2009 年 12 月企圖在底特律轟炸的 AQAP 成員通過使用全新的電話號碼和掩蓋自己聲音的方式逃脫了政府的識別。

2010 年,機構的技術人員制定出了一個應對這些調製聲音的解決方案——應用 HLT Lite——一個用來搜尋修改過或異常的聲音的軟體。SIDtoday 稱,該方案在掃描了 100 多萬條音訊後,在葉門發現至少 80 個經過修改的語音的例子。據報導,這使機構發現了同時使用幾個新電話號碼的目標人物。

隨著系統能力的提升,他們的監控範圍也在擴大。2010 年 9 月的一則通訊詳細介紹了墨西哥城升級的聲紋識別系統的「戲劇性」發展——網站的負責人稱,堪比相當於一臺額外的掃描器。通過在音訊攔截中搜尋「bomba」這個詞,分析員可以分離和檢測有關炸彈威脅的對話。

聲紋識別系統也可以很容易地通過重新配置,用在別的地方。GCHQ 2008 年 10 月的會議記錄描述了一個「涉及阿富汗毒品交易的高層人員網路」的建立過程,這個網路後來被「投入到意想不到的應用之中」。分析員甚至「在毒品流量較大的區域進行了一次地毯式搜尋」來識別更多的目標。

從戰場上到機構中

別隻盯著谷歌亞馬遜,美國國安局才是聲紋識別的「無形之手」

伺服器機房裡的網路裝置


NSA 很快意識到,他們的錄音處理能力可以用來識別 NSA 內部的員工。正如 2006 年 1 月那篇討論 Ronald Pelton 的音訊的備忘錄所解釋的那樣,「聲音匹配技術正被應用到新提出的內部威脅(Insider Threat)計劃中,企圖捉住『我們中的間諜』。」

在美國軍方告密者 Chelsea Manning 洩密之後,該計劃由奧巴馬政府公開宣佈,其內容是密切監視政府僱員的生活。但這份檔案似乎表明,該舉措在 2011 年奧巴馬頒發行政命令之前就已經開始實行了。

據新聞自由基金會的 Trevor Timm 的分析,NSA 將用於檢測外部威脅人員的生物技術運用到檢測內部成員中的異見人士身上這一手段並不新鮮。「在過去 15 年中,我們已經看到了一連串這樣的例子:執法機構把那些侵犯式的、本來作用於恐怖分子身上的工具——無論是定位跟蹤還是人臉識別,或者是像這種聲紋識別技術——用於其它各種犯罪調查中。」

Timm 指出,在過去幾年中,告密者,情報人員以及記者都採取了更嚴密的安全措施來避免暴露身份。但是,「如果記者使用的電話號碼並未與其身份關聯,那麼政府就會通過許可證等方式來掃描他們通話,這項技術也將潛在被用於抑制新聞業的發展。」

對於情報圈的民權律師第一人 Timothy Edgar 來說,這些「風險」可以歸為這樣一個問題:「他們是在尋找正當目標,還是在濫用權力?比如試圖監控記者或告密者這樣的做法?」

Edgar 說,在某些方面,聲紋識別或有助於保護個人隱私。這項技術允許分析員來篩選電話,這樣他們就可以專注於目標人物的聲音,從而剔除掉其他人的聲音。一份 2010 年度的 SIDtoday 備忘錄強調,通過確保「該名說話人是某國領導人而非甜甜圈店的某個服務員,」該技術可以降低情報人員所需監聽的通話量。

「事實上,」這一級別的精確度,成為了「NSA 解釋當初大量收集後設資料的做法的擋箭牌」,Edgar 解釋說。「他們為專案進行辯護的手段之一,就是自稱沒有收集所有的資料,而是通過篩選器來收集資訊。」

同時,從大量資料中識別特定個體的目標,常常證明了繼續收集更多資料的必要性。識別可以幫助分析人員縮小電話接聽的範圍,但這項技術似乎會鼓勵他們在更大範圍內進行搜尋,因為本質上這項任務的目標是監聽目標聲音出現的對話,無論他用什麼號碼撥出。或如 Pelton 備忘錄所指出的那樣,這項技術使得分析員能夠「在任何地方辨別出那個聲音。」

雖然這些檔案表明,該機構確實試圖在其員工身上運用這項技術,但 The Intercept 所查閱的檔案並沒有明確表明,該機構是否已經在美國普通公民的對話資料中進行聲紋建立。

外國人情報監視法案(Foreign Intelligence Surveillance Act,FISA)規定,機構可以自由收集在國外伺服器和基礎設施上傳輸的音訊資料,以及美國人與外國人的語音交流資料。因為項規定,Edgar 稱,越洋電話「基本上」是被系統錄過聲紋了。「如果他們沒對越洋電話使用這些技術手段,我才會感到驚訝。在某種程度上,這就是他們的工作內容。」

然而專家們對「NSA 是否有權利在沒有許可的情況下掃描美國公民在美國領土上進行的通話並製作聲紋」這一議題表現出了分歧的態度。這種分歧部分源自監督相關法律的不完備,這方面的法律未能跟上聲紋與語音識別等數字技術的發展。

雖然美國已經制定了嚴格的法律,禁止在沒有許可證的情況下對美國領土上進行的電話內容進行記錄,但也沒有任何聯邦機構負責監管聲音資料的採集和處理事宜。

監管缺失的部分原因是,雖然政府需要許可才能獲得「內容」,但聲紋應該被歸類為「內容」嗎?或者像 NSA 聲稱的那樣,聲紋不過是「後設資料」——這部分資訊所受的法律保護就少多了。在這個問題上,法律基本上沒有做對這部分資訊做任何具體的規定,這導致一些專家推測,NSA 正在利用這一法律灰色地帶實行聲紋建立。

針對一系列詳細的問題,NSA 給出瞭如下的回應:「根據長期政策,NSA 將不確認也不否認該文所指的涉及的美國政府資訊的準確性。」

無所不用其極

別隻盯著谷歌亞馬遜,美國國安局才是聲紋識別的「無形之手」


星期四,參議院投票通過擴大外國人情報監視法案(FISA)的 702 條,這使得 NSA 有權對那些與外國人溝通的美國人進行暗中監視,且不需要許可證。這種再授權行為,與上週在眾議院的行動類似,證實了那些評論家的觀點,他們認為 NSA 對其法律權力的解釋整日益強硬——同時日益模糊。

電腦科學家和監控研究專家 Andrew Clement 在斯諾登披露相關資訊之前就已經在調查 NSA 的無許可竊聽活動。他堅信,該機構對美國公民的聲紋識別的利用並未收到任何限制。他解釋說,該機構經常選擇將收集到的所有資訊進行分類,直到達到人類分析員能夠將其作為後設資料來進行聽或讀為止。「那只是一個巨大的漏洞,」他解釋說,「看來,他們會把通過演算法方式從內容中獲取到的任何資訊,都簡單地歸類為後設資料。」

Clement 類比了 NSA 對待電話號碼和電子郵件地址的方式,來類比 NSA 會如何將建立聲紋的行為合法化。斯諾登在 2013 年披露的 XKeyscore 專案,就允許工作人員從截獲的電郵中提取出電郵地址(它們被歸類為後設資料)。這些工作人員還可以對關鍵字進行全文搜尋,它們同樣被歸類為上下文資訊而不是內容。

然而 Edgar 認為,如果政府把我們的聲音也算作後設資料,那麼他會大吃一驚。「你可以試著辯解說,聲音特點不等於說話內容,」Edgar 說,「但是為了做聲紋識別,你還是得收集一通國內電話的內容,並對其進行分析以便提取出聲音。」

目前還不知道 NSA 收集、取樣或保留了多少國內的通話內容。但 EFF 的 Jamie Williams 指出,NSA 不一定非得通過收集美國人的電話錄音來製作美國人的聲紋庫,因為民營企業就一直在記錄我們的聲音。他們正擁有越來越多的音訊資源。汽車、恆溫器、冰箱、電燈泡,甚至是垃圾桶,都已變成了「智慧的」(即網際網路化的)語音裝置。Gartner 預測,今年有三分之一的人機互動將通過與語音系統的對話來進行。最近,谷歌和亞馬遜的「智慧音響」都推出了聲紋識別系統,用以區分家庭成員的聲音。「一旦公司擁有這些聲音資料,」Williams 說,「在理論上,執法機構就能拿到它,只要他們有一個有效的法律程式。」

這位前政府官員指出,原始語音資料可以儲存在民營企業那裡,並供 NSA 通過祕密協議進行訪問。比如在 Fairview 計劃中,該機構與 AT&T 是合作伙伴關係。儘管美國國會試圖控制 NSA 對國內電話記錄的收集行為,但該機構一直在尋求獲得我們提供給企業資料庫的原始資料。(例如與 Verizon 和 AT&T 的合作伙伴關係,對 Xbox 遊戲系統的滲透,以及對萬千網友的線上後設資料的暗中收集,這些只是幾個最近的例子。)「電信公司持有資料,而沒有什麼可以阻止他們執行一個演算法,」這位前官員說。

Clement 想知道的是,對於 NSA 而言,可能聲紋識別能力比其內容識別能力更為重要。「這可以讓他們把你和你自己的其他身份聯絡起來,並確定你和其他人的關係,」他說。

這似乎才是 NSA 的最終目標。在 2010 年的一次關於「一次前所未有的機會,瞭解 NSA 如何將其創造性的能量用於個人跟蹤」的會議上,NSA 的高層領導談到如何將「全生活(whole life)」戰略納入他們的目標。他們描述了將生物特徵資料(比如聲紋)與傳記資料(如社交網路和個人歷史)進行整合的需求。用該機構自己的話說,「一切都是關於在空間和時間上進行個人定位、跟蹤和維護的連續性。我們不侷限於傳統的通訊方式——我們無所不用其極。」
別隻盯著谷歌亞馬遜,美國國安局才是聲紋識別的「無形之手」

相關文章