詳解ASR語音轉寫場景下的應用

景聯文科技發表於2023-01-10

近幾年隨著ASR語音轉寫的出現,錄音筆市場開始翻天覆地的變化,科大訊飛研發了高智慧的錄音筆,該錄音筆提供了360°全向收音與120°指向收音,前者適合多人會議或是多人受訪的場合中使用,後者則適合單人採訪或是視訊會議中使用。相比傳統錄音筆,造型無疑是非常簡潔,大量按鍵放在機身兩側,小尺寸的螢幕也沒法顯示太多資訊,與此同時機身內部卻具備藍芽、Wi-Fi功能,深藏了各種“武藝”,擁有強大的智慧能力。

ASR就是自動語音識別技術,是一種將人的語音轉換成文字的技術。

語音識別是以語音為研究物件,透過語音訊號處理和模式識別讓機器可以自動識別和理解出人類口述的語言。ASR語音轉寫就是透過理解把語音訊號轉變為相應的文字或命令的過程的高技術。

詳解ASR語音轉寫場景下的應用

ASR語音轉寫的工作過程

預處理:

1. 首尾端的靜音切除,降低干擾,靜音切除的操作一般稱為VAD。

2. 聲音分幀,就是把聲音切開成一小段一小段,每小段稱為一幀,使用移動窗函式來實現,不是簡單的切開,各幀之間一般是有交疊的。

特徵提取:

主要演算法有線性預測倒譜系數(LPCC)和Mel 倒譜系數(MFCC),目的是把每一幀波形變成一個包含聲音資訊的多維向量;

聲學模型(AM):

透過對語音資料進行訓練獲得,輸入是特徵向量,輸出為音素資訊;

字典:

字或者詞與音素的對應, 簡單來說, 中文就是拼音和漢字的對應,英文就是音標與單詞的對應;

語言模型(LM):

透過對大量文字資訊進行訓練,得到單個字或者詞相互關聯的機率;

解碼:

就是透過聲學模型,字典,語言模型對提取特徵後的音訊資料進行文字輸出。

ASR語音轉寫的應用場景

1、 客服

企業設定的呼叫中心的智慧轉寫功能,可實時記錄客戶詢問問題。語音客服機器人可更好地查詢和匹配來回答問題,可以有效地解決簡單又重複性的工作。

2、 教育培訓機構

語音轉寫在教育培訓機構中的應用包括中英文的口語評測。

3、 醫療

在醫療領域中的應用主要是用於電子病歷錄入,醫生在臨床診斷時可將診斷資訊實時轉化成文字,自動錄入醫院診療系統,有效地提高了醫生的效率。

4、 金融

現階段,已有一些銀行透過運用ASR語音轉寫,實現了語音導航、語音交易、辦理業務等基礎服務。

詳解ASR語音轉寫場景下的應用

資料標註對ASR語音轉寫的重要性

人工智慧的發展離不開資料標註,資料標註作為人工智慧發展中的基石,成為了眾多重要環節之中的重中之重。要想實現人工智慧,我們就需要使計算機能夠理解我們的語言。資料標註就是把需要計算機識別和分辨的語音打上特徵,讓計算機不斷的識別這些特徵語音,從而最終實現計算機能夠自主識別語音並轉換成文字。

ASR的本質是一種模式識別系統,包括了特徵提取、模式匹配、參考模式等三個基本單元。

我們首先要對輸入的語音進行預處理,然後提取語音的特徵,在此基礎上建立語音識別所需要用到的模板。而計算機在識別過程中要根據語音識別的模型,將計算機中原先存放的語音模板與輸入的語音訊號的特徵進行比較,根據一定的搜尋和匹配策略,找出一系列最佳的與輸入語音相匹配的模板。然後根據此模板的定義,透過查表就可以給出計算機的識別結果。

這種最優的結果與特徵的選擇、語音模型的好壞、模板是否準確都有直接的關係。而這需要大量標註資料進行不斷訓練才能得到。

可以說資料決定了AI的落地程度,更具前瞻性的資料集產品和高度定製化資料服務成為了行業發展的主流。

詳解ASR語音轉寫場景下的應用

景聯文科技為ASR語音轉寫提供資料支援

技術的發展離不開資料的支援,景聯文科技作為一家專業的資料採集標註公司,採集了《20000段ASR語音轉寫資料集》、《200個id20000段中文喚醒詞資料集》、《50800段車內錄音採集資料集》等可用於研究語音識別技術的演算法的資料集,可有效的提升企業的測試效率。

景聯文科技作為專業的資料採集標註公司,有專業的聲音資料採集錄音室,擁有高度場景搭建能力,在全國52個國家中有近一萬人的被採集人員儲備,支援多語種、多方言、多環境的語音採集。

景聯文科技還自建了資料標註平臺,涵蓋了絕大多數主流標註工具,支援聲紋識別、ASR轉寫、語音工程(語音切割、ASR語音轉寫、語音情緒判定、聲紋識別標註等)標註。

景聯文科技還一直致力於採用自建資料標註基地和定製化搭建的資料採集服務,有極高的資料安全合規意識,願為 AI 企業提供全流程一體化的高精、高質資料服務解決方案。

資料採集標註需求聯絡我們~


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70025739/viewspace-2931531/,如需轉載,請註明出處,否則將追究法律責任。

相關文章