揭秘語音識別演算法的神奇之處

幂简集成發表於2024-08-28

現在,似乎所有的商用裝置都在使用或嘗試使用語音識別技術。從跨平臺語音助手到轉錄服務和無障礙工具,再到最近的 LLMs- 聽寫功能已成為日常的使用者介面。預計從 2023 年到 2028 年,語音使用者介面 (VUI) 的市場規模將以 23.39% 的複合年增長率增長,我們可以預期會有更多技術先行的公司採用這種技術。但是,您對這項技術瞭解多少呢?

首先,讓我們對實現語音識別的最常見技術進行剖析和定義。

語音識別的原理:它是如何工作的?

特徵提取

在進行任何 “識別 “之前,機器必須將我們產生的聲波轉換成它們能夠理解的格式。這一過程稱為預處理和特徵提取。最常見的兩種特徵提取技術是梅爾 - 頻率倒頻譜系數(MFCC)和感知線性預測係數(PLP)。

梅爾頻率倒頻譜系數(MFCCs)

MFCC 可捕捉音訊訊號的功率譜,從根本上識別出每種聲音的獨特之處。該技術首先會放大高頻,以平衡訊號並使其更加清晰。

然後,訊號會被分成 20 至 40 毫秒的短幀或聲音片段。然後對這些幀進行分析,以瞭解其頻率成分。

透過應用一系列模仿人耳感知音訊方式的濾波器,MFCC 可捕捉語音訊號的關鍵、可識別特徵。最後一步是將這些特徵轉換成聲學模型可以使用的資料格式。

感知線性預測 (PLP) 係數

PLP 係數旨在儘可能模擬人類聽覺系統的反應。與 MFCC 類似,PLP 對聲音訊率進行過濾,以模擬人耳。

經過濾波後,動態範圍–樣本的 “響度 “範圍–被壓縮,以反映我們的聽覺對各種音量的不同反應。

在最後一步,PLP 估算 “頻譜包絡”,這是捕捉語音訊號最基本特徵的一種方法。這一過程提高了語音識別系統的可靠性,尤其是在嘈雜的環境中。

聲學建模

聲學建模是語音識別系統的核心。它形成了音訊訊號(聲音)和語音單位(構成語言的不同聲音)之間的統計關係。

最廣泛使用的技術包括隱馬爾可夫模型(HMM)和最近的深度神經網路(DNN)。

隱馬爾可夫模型(HMM)

自 20 世紀 60 年代末以來,HMM 一直是模式識別工程的基石。由於 HMM 將口語分解成更小、更易於管理的部分(即音素),因此對語音處理特別有效。

提取的每個音素都與 HMM 中的一個狀態相關聯,模型計算從一個狀態過渡到另一個狀態的機率。

這種機率方法使系統能夠從聲音訊號中推斷出單詞,即使在存在噪音和不同個體語音差異的情況下也是如此。

深度神經網路(DNN)

近年來,隨著人工智慧和機器學習的發展和人們對它們的興趣日益濃厚,DNN 已成為自然語言處理(NLP)的首選。與依賴預定義狀態和轉換的 HMM 不同,DNN 直接從資料中學習。DNN 由多層相互連線的神經元組成,可逐步提取資料的高層表示。

透過關注上下文以及某些單詞和聲音之間的關係,DNN 可以捕捉語音中更為複雜的模式。

因此,與 HMM 相比,它們在準確性和魯棒性方面表現得更好,而且還能透過額外的訓練來適應口音、方言和說話風格–這在一個多語言日益普及的世界中是一個巨大的優勢。

展望未來:挑戰與創新

語音識別技術已經取得了長足的進步,但任何使用者都會認識到,它還遠未達到完美的程度。背景噪音、多人講話、口音和延遲都是尚未解決的難題。

隨著工程師們逐漸認識到網路模型的潛力,一種很有前途的創新是使用混合解決方案,充分利用 HMM 和 DNN 的優勢。擴充套件人工智慧研究的另一個好處是跨領域應用深度學習,傳統上用於影像分析的卷積神經網路(CNN)在語音處理方面取得了可喜的成果。另一個令人興奮的發展是遷移學習的使用,在遷移學習中,在大型資料集上訓練的模型可以透過相對較小的伴生資料集針對特定任務和語言進行微調。

這就減少了為新應用開發高效能語音識別所需的時間和資源,從而以更環保的方式進行重複模型部署。

如何找到語音識別 API

冪簡整合是國內領先的API 整合管理平臺,專注於為開發者提供全面、高效、易用的 API 整合解決方案。冪簡API 平臺提供了多種維度發現 API 的功能:透過關鍵詞搜尋’ 語音識別 API’、從 API Hub 分類瀏覽 API AI 語音 - 語音識別、從 開放平臺 分類瀏覽企業間接尋找 API 等。

語音識別 API 替代品

語音識別

短語音識別極速版

短語音識別【有道】

智慧語音服務

長語音識別

智慧語音驗證

將一切融為一體:實際應用

概括地說,特徵提取和聲學建模相互配合,形成了所謂的語音識別系統。這一過程首先是透過預處理和特徵識別將聲波轉換為可管理的資料。

然後將這些資料點或特徵輸入聲學模型,由聲學模型進行解釋並將輸入轉換成文字。在此基礎上,其他應用程式就可以隨時使用語音輸入。

從最嘈雜、對時間最敏感的環境,如汽車介面,到個人裝置上的無障礙替代品,我們正逐步信任這項技術,讓它發揮更多關鍵功能。

作為一個深入參與改進這項技術的人,我認為了解這些機制不僅僅是學術性的,還應該激勵技術人員欣賞這些工具,以及它們在改善使用者體驗的無障礙性、可用性和效率方面的潛力。

隨著 VUI 越來越多地與大型語言模型(LLM )聯絡在一起,工程師和設計師應該熟悉這種可能成為生成式人工智慧實際應用中最常見的介面。

原文連結:https://wpadmin.explinks.com/blog/an-inside-look-at-speech-recognition-algorithms/

相關文章