2015 年 2 月,三名英國少女取道土耳其遠赴敘利亞,成為「聖戰新娘」。半年後,其中一位少女 Kadiza Sultana 在交戰中喪生。
據反恐專家估計,當時已有約 50 名女子從英國赴敘利亞加入極端組織 ISIS。ISIS 在西方有大批擁躉,其通過 Facebook、Twitter、YouTube 和手機 App 等社交平臺釋出的煽動性極強的宣傳、招募視訊,對極端主義分子具有極大的吸引力。
網際網路豐富了人們資訊溝通的同時,也充斥著大量不良甚至危害性極強的資訊,網際網路的便利條件加速了這類有害資訊的傳播速度和傳播範圍。針對網際網路上存在的涉恐、涉暴、涉黃等有害資訊,各國政府在不斷完善法律、制度等約束手段的同時,正在尋求技術上的解決方案。
極限元則是國內首家採用音視訊雙通道檢測技術實現網際網路涉恐、涉暴、涉黃等有害資訊監測的供應商,使用人工智慧技術針對不同資料型別進行有害資訊特徵提取,訓練檢測識別所需的聲學、影像模型,對視訊中的聲音、標誌物、標誌性場景等要素進行語音與影像的雙維度檢測,極限元已為相關部門及需要自檢的網際網路資訊釋出平臺網站提供了這項技術解決方案。
應用於安全領域的語音技術
與國外網際網路上頻繁出現的極端主義視訊相比,中國社會的一大頑疾則是電話詐騙。
據統計,2011-2015 年,全國電信詐騙案數量從 10 萬增長至 60 萬,飆升 6 倍,每天至少有 14 萬人在進行電話詐騙。在被成功詐騙的人群中,中老年人佔比 41.32%,而這對正在步入老齡化的社會來說,極為不利。
於 2014 年正式運營的極限元由來自華為、搜狗、中科院等企業、科研機構的語音專家創立,安全領域的語音識別、語音關鍵詞檢索技術則是極限元商業化落地比較成熟的專案。
針對電話詐騙層出不窮的亂象,極限元推出了反電信電話詐騙系統,幫助電信運營商和地方公安部門有效檢測、識別出詐騙電話及詐騙型別。目前,反電信電話詐騙系統已成功應用在全國十幾個省、市、自治區。
作為三大移動運營商和地方公安部門的語音技術供應商,極限元綜合應用了語音識別、語音關鍵詞檢索等技術,推出詐騙電話檢測技術解決方案。
電信運營商會監測每天外呼頻次異常的情況,統計外呼頻次過高的主叫電話號碼並抽樣採集部分通話錄音用於自動檢測,詐騙電話監測系統會分析錄音資料,並進行指定關鍵詞檢測,判斷是否滿足各種詐騙型別的匹配條件,對確認的詐騙錄音會輸出詐騙型別和告警提示,由相關部門做進一步處理。而目前,極限元的詐騙電話檢測方案能識別包括郵包快遞、社保卡、信用卡等 11 種詐騙類別。
另一個實際應用案例是公安技偵場景,針對技偵部門辦案時需要處理的海量通話錄音,極限元應用聲紋識別技術能找出某個犯罪嫌疑人相關的所有通話,同樣,極限元也能應使用者的要求,通過語音識別技術找出包含某些敏感關鍵詞的所有通話。
相比語音助手等其他語音互動相關應用,話務場景下的識別準確率更為關鍵。然而,在電話錄音識別檢測場景中,通話質量不佳會導致準確率下降。通常通話錄音內容稽核功能的實現方式普遍為,將通話語音轉化為文字,再基於文字資訊進行關鍵詞檢索,實現內容稽核。極限元則結合應用場景,使用語音關鍵詞檢索技術,將通話錄音識別結果輸出音訊檢索網路,將指定的語音關鍵詞轉換成音素在檢索網路中進行匹配,輸出檢索結果。
這種方式不僅繞開了生成文字所需的解碼過程,提高檢索效率,還能避免語音轉文字可能帶來的誤差,提高識別準確率。例如將人名「張珊」轉寫成「張山」後就無法準確的檢索正確的人名,而基於音素的檢索是使用「zhang shan」進行匹配,很大概率上可以命中關鍵詞。儘管由於語音關鍵詞檢索會造成同音字的誤判,但產生的誤差依然比語音轉文字,再進行關鍵詞匹配要小很多,而帶來的準確率提高和效率提升的優勢卻很明顯。對於海量錄音資料內容稽核的應用場景,也更為實用。
極限元聯合創始人馬驥表示,語音關鍵詞檢測技術應用場景還有很大的擴充空間,只要能產生大量音訊資料的行業都可以使用音訊稽核技術,比如對呼叫中心客服人員的錄音質檢、檔案館錄音資料的資訊檢索等。
在網際網路有害資訊音視訊雙通道檢測方面,除了暴恐類有害音視訊檢測,極限元的技術還能應用至直播平臺及網站、社群鑑黃工作,向其提供基於雲端的 SaaS 平臺介面,省去網站人力檢測所需的高昂成本。
語音與影像的跨界融合
據馬驥介紹,或許是語音安全領域屬於太細分的市場,因而,在目前主流的語音技術供應商中,涉足泛安全領域的並不多。
通過與客戶的不斷合作,極限元積累了自己獨有的優勢——響應及時,能夠滿足使用者的定製化需求。然而,在與客戶的一次次接觸中,極限元意識到,客戶的需求往往涉及文字、語音、影像、視訊中多個資料型別,客戶希望採用同一家公司的方案同時解決自身的所有需求。
但是人工智慧行業剛起步,市場上並沒有能夠同時提供智慧語音和計算機視覺解決方案的技術供應商。語音識別公司幾乎沒有涉及影像識別,而如果影像識別公司,要跨越到語音行業,也面臨著挑戰,首先是語音識別相關的人才極度匱乏,其次是技術難度會相對較高。
正是看到了客戶的需求以及這個市場空缺,極限元希望從語音識別跨界到影像識別,目前,極限元的影像識別技術已在泛娛樂領域有所應用,比如在直播過程中,識別主播的手勢並佐以特效,實時檢測視訊中的二維碼廣告並判斷進行遮蔽還是推薦導流。上文提到的網際網路有害資訊的音視訊雙通道檢測方案,也是語音和影像技術的綜合應用成功案例。
技術升級:實時識別是語音檢測的未來
目前,極限元與客戶的合作,是先錄音後檢測,對呼叫中心來說,不能及時響應客戶訴求或實施危機干預,對公安機關而言,這對抓捕不法分子等後續環節造成了時間上的滯後。因此,極限元希望將技術改良為實時通話檢測。但在實操環境下,檢測處理時間有限,傳輸音訊頻寬消耗大,而且語音安全行業資料併發量很高,這都是實時處理必須面臨的阻礙。
極限元的解決辦法是繞過頻寬瓶頸,直接將其實時方案部署到客戶的主機上。然而,這又會帶來另外一個問題,客戶的錄音採集伺服器普遍只能支援音訊的轉碼解碼的需求,極限元若想將其機器學習解決方案整合至客戶方,則需要客戶的裝置擁有載入幾百 G 的機器學習模型的能力,客戶以及客戶的裝置供應商都需要做出改變。
而在技術的實現層面,實時檢測也與當前的存量錄音檢測有著本質上的區別。實時檢測考驗極限元的「當前識別+記憶修正」的語義理解能力,即如何動態合理地優化快取空間。在實時對話中,很有可能前 5 秒的對話表達一個意思,結合後 5 秒之後,表達意思就完全不同。這需要機器在理解一句話時,具備綜合考慮,甚至是理解兩三句話之前某句話的能力。
另一方面,由於有著巨大的資料量,通過存量錄音檢測的方式,不需要對場景進行精細分析,只需匹配關鍵音素即可。實時檢測則不同,實時發生的對話意味著極少的已知資訊,因此在監測過程中需要對場景進行分析,理解上下文。這需要極限元放棄音素識別法,在通用的語音轉文字匹配關鍵詞並進行語義理解層面繼續打磨。而且對於存量錄音檢測,極限元能夠對音訊進行降噪和格式處理,而在實時檢測中,這些功能的實現也提出了更高的技術要求。
馬驥介紹,目前,極限元正在攻克以上難關,同時,馬驥認為,攻克難關還不夠,做音訊技術的解決方案,一定要結合使用者現場資料。他說,「在實驗室攻關成功,並不意味著到使用者現場就一定好用,我們還需要結合使用者資料進行優化。」而這正是他們的努力方向。
此外,除了安全領域中一些智慧語音技術的成功應用,極限元還是國內為數不多幾家可以提供語音合成定製化服務的公司,從錄音人選型、錄音採集、語料標註、模型訓練,到合成引擎優化、跨平臺移植開發等語音合成個性化音庫定製開發全流程,為使用者提供個性化的發音人音庫定製開發服務,相關技術已成功應用於搜狗、360 的多款智慧軟、硬體產品中。成熟的語音合成定製化解決方案為極限元帶來了穩定的銷售收入。
目前,極限元有相當一部分營收來自人工智慧綜合定製化技術服務,使用者來自政府職能部門、傳統企事業單位以及網際網路科技企業,涉及教育、交通、安全等多個領域,馬驥預測未來的業務增長點會集中在泛娛樂行業。