深度瞭解語音識別之發音詞典及語音資料採集標註

景聯文科技發表於2023-02-03

“隨著語音助手在生活中的不斷普及,其中配備的發音詞典的準確性受到越來越多企業的重視。景聯文科技採集標註大量高質量語音資料集,可全方便滿足發音詞典的採標需求,為語音採集標註提供資料支援。”

語音助手是一種智慧型的應用,透過智慧對話與即時問答的智慧互動,可以幫助使用者解決問題,生活中常見的語音助手有“Siri”、“小度”等。這些語音助手中配備了相應的發音詞典庫,庫中包含了它們能識別出的所有語音。

什麼是發音詞典?

深度瞭解語音識別之發音詞典及語音資料採集標註

透過發音字典得到聲學模型的建模單元和語言模型建模單元間的對映關係,把聲學模型和語言模型連線起來。形成一個搜尋的狀態空間,可以將其用於解碼器進行解碼工作。

一個句子可以用若干個單片語合起來,每個單詞都可以在發音詞典中查詢到該單詞發音的音素序列。相鄰單詞的轉移機率可以透過語言模型來獲取,音素的機率模型主要透過聲學模型獲取,從而組成一句話的一個機率模型。

在語音識別系統中,發音詞典涵蓋的資料量越大,對於提升語音識別的準確率就越高。當遇到新詞彙時,我們可以把這些詞彙和它對應音標新增進發音詞典當中,從而不斷增加詞典中的詞彙數量。可以說,衡量發音詞典質量的三大點主要為詞彙量、音標標註和校對的準確性。

資料處理的重要性

目前,由於發音詞典的蒐集、標註、清洗都需要經過專業的把控,如果沒有大量準確率高且涵蓋詞彙量較廣的發音詞典,就會影響到語音識別系統的效能。

資料經過清洗、標註等一系列處理後,投入發音詞典模型中才能顯示出更大的意義。只有對發音詞典中的每個單詞經過嚴格的標註,才能構建更全面、更精確的發音詞典庫,從而更好地提高語音識別的準確率。

景聯文科技提供語音採集標註服務

景聯文科技作為長三角地區最大的AI基礎資料服務商之一,收集了大量語音資料集。針對人工智慧語音工程演算法模型訓練提供資料定製採集標註服務,擁有豐富的語音資料採集標註專案經驗,也自建了專業的語音採集錄音室,有高度還原真實場景能力,在全國30多個省市有近一萬人的被採集人員儲備,全球範圍內也有采集渠道,支援多語種、多方言語音採集。支援語音識別ASR採集、語音合成TTS採集、喚醒詞采集、多人對話採集、車載語音採集、普通話採集、方言採集、英語採集、小語種採集、近遠場採集、語音VAD採集等,採集終端支援大屏、手機、平板、PC、智慧音響、專業錄音裝置等。可以根據具體的採集標註專案書,對目標領域、場景的特定資料進行採集。自建資料標註基地、先進的資料標註平臺和全品類標註工具,支援語音工程,包括語音切割、ASR語音轉寫、語音情緒判定、聲紋識別標註等多種標註型別,可全方位滿足合作方各類資料標註需求,為行業賦能。

深度瞭解語音識別之發音詞典及語音資料採集標註

語音採集標註案例:

需求:使用車機在車內採集喚醒詞和車載語音指令資料,用於訓練語音識別模型。

專案難點:需要全國不同區域、不同口音的錄音者;演算法輔助標註對部分重口音資料的效果不明顯,人工識別也較為困難。

解決方案:景聯文在全國範圍內都建設有資料採集基地,能夠快速組織各地語符合要求的錄音者;對同一句多種類重口音資料進行多重多人質檢。

深度瞭解語音識別之發音詞典及語音資料採集標註

景聯文科技|Al基礎資料服務|資料採集|資料標註|假指紋製作|指紋防偽演算法

助力人工智慧技術加速數字經濟相關產業質量變革,賦能傳統產業智慧化轉型升級


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70025739/viewspace-2933811/,如需轉載,請註明出處,否則將追究法律責任。

相關文章