編者按:你會用英語說繞口令嗎?現在微軟亞洲研究院推出的智慧英語私教“微軟小英”可以教你說英文繞口令啦!一直以來,“微軟小英”口語訓練裡的實時打分和針對性反饋功能都獲得了大家的許多好評,現在在新上線的“繞口令”裡,“微軟小英”將為口語練習者語調的抑揚頓挫提出建議。今天我們來為大家揭秘小英背後“功臣”——口語韻律分析與評測技術。
由微軟亞洲研究院推出的智慧英語學習應用“微軟小英”又添新功能啦!現在,你除了可以用“微軟小英”進行跟讀訓練、口語評測、作文自動打分之外,還可以跟著它的新功能——“繞口令”,在工作和學習之餘和朋友battle一下英文繞口令。
這項“繞口令”功能也和此前的“跟讀訓練”一樣,在跟讀繞口令後,“微軟小英”能為你的繞口令水平給出一個評測分數,不同的是,這次的發音指導將針對跟讀錄音給出語調和停頓建議,讓你更自然連貫地說出“地道”的繞口令。
那麼,AI如何評測英語學習者口語的抑揚頓挫呢?
口語訓練是語言學習中的一大重要環節。傳統口語教學模式是教師授課、學生自主練習,教師的適時指導和及時反饋往往能大大提高學生的學習效率。但這一模式有明顯的侷限性:由於學生數量眾多,而有相應專業技能的老師的數量往往供不應求;每個學習者能夠負擔的學習成本(比如學習費用)也不盡相同;最重要的是,人工教學存在時間和地點的限制,學習者難以得到即時的反饋和幫助。因此在有關口語訓練的計算機輔助語言教學研究中,我們希望計算機能儘可能地扮演好教師在整個學習過程中的角色。
傳統教學中,教師的核心功能包括標準示範和實時反饋。如果由計算機來輔助教學,標準示範比較簡單,可以播放預先錄製的標準示範音訊,也可以透過高質量的語音合成技術提供標準範本。而如何為學習者提供關於其發音標準程度的實時評價反饋(發音質量評測),是該領域的研究重點之一。
口語發音質量評測可以在兩個維度上進行分析:音段發音和語句韻律。
音段是口語發音質量評測中一個基本單位,音段發音考察的是說話人的音素、音節、字詞發音的標準程度。在微軟小英的跟讀任務場景中,學習者會依照文字內容和標準錄音進行跟讀。透過分析學習者的跟讀錄音,對該文字中的每一單詞、每一音標的發音,都提供評價與反饋。通常的分析方法是將錄音中的頻譜資訊與標準發音進行比對,得到評分。
語句韻律的抑揚頓挫則是更加高階的技巧,包括音調高低、上揚下抑、頓挫起伏等,這也是第二語言學習者極為頭疼的問題。我們發表在語音領域國際會議Interspeech 2017上的文章“Proficiency Assessment of ESL Learner's Sentence Prosody with TTS Synthesized Voice as Reference”就是針對這一問題,提出了第二語言學習者在口語訓練中的韻律分析與評測方法。
與音段相同,韻律評測也是基於語言學習者與標準範本的韻律的對比分析。
我們需要解決的第一個問題是韻律的表徵。由於韻律比基本發音更為抽象和複雜,過去的很多相關工作在構造韻律表徵時,會提取很多繁瑣的特徵,比如重音與重音之間的距離均值及方差、母音子音等時長資訊、訊號能量相關資訊等,不僅繁瑣冗餘,而且嚴重依賴許多領域的先驗知識。
韻律表徵其實可以歸納為兩個維度,一個是語調(抑揚),一個是連讀與停頓(頓挫)。因此我們也從這兩個方面入手,計算語言學習者與標準範本的“語調相似度”和“韻律相似度”,以此作為評估韻律的標準。
語調相似度
語調通常指音調的高低起伏,語調分析通常是基於語音中的音高資訊(指聲帶振動的頻率)。人們在發聲時,從聲帶開始到嘴唇之間的聲道可以看作一個發音系統,從氣管出來的氣體經過這一系統產生的語音訊號,會因為系統結構不同而產生不同的發音與韻律。
在我們發濁音時,聲帶振動,每一次振動,氣流經過聲道會產生週期性的變化,我們稱之為基音週期。因此,週期性的聲帶振動將會產生週期性的語音訊號,音高即為基音週期的倒數。下圖左側第二欄中的藍色線條,代表的就是這句錄音裡音高的高低變化。
在提取音訊中的音高資訊以後,面臨的是分析兩段不等長的序列之間的相似程度,因為標準錄音與使用者錄音的長度不同。為了使兩者可比,首先我們使用文字資訊和預訓練的聲學模型對兩條錄音進行強制對齊,得到音節層面的音段分割。接下來用動態時間規整演算法(Dynamic Time Warping)進行音節內部的對齊。此外,由於不同說話者的音高變化範圍也不相同,比如男性與女性的音高,差異就非常明顯,因此,我們需要對音高序列做規整化處理,使得兩者可比。
停頓相似度
在上圖中可以看到,代表音高的藍色線條並不是連續的,存在很多“斷開”的部分,其中有些是語音的停頓,有些則是清音段(聲帶不振動)。停頓是韻律的另一主要特徵,它影響著整個語句的流暢和自然度,不同的停頓還可能會造成語義理解的不同。
我們透過兩個方面考察停頓相似度,一是停頓的位置,二是停頓的時長。在強制對齊的過程中,我們可以找到發音單元對應的起止位置,也就獲取了停頓的起止位置和時長資訊。接下來我們根據獲取到的資訊進行相似度的衡量。在分析停頓時長時,最關鍵的問題在於語速。由於不同的人說話時有著不同的語速,因此直接比較兩段停頓的絕對時長將導致很大的偏差,因此我們要對說話者的語速做規整化處理,才能使停頓時長具有可比性。
實驗結果
我們在兩個不同的資料集上進行了韻律相似度的分佈情況比對,這兩個資料集分別為CMU-Arctic資料集(以英語為母語的說話者錄製)和 微軟小英授權使用者的資料集(以漢語為母語的英語學習者錄製)。左圖是語調相似度的分佈情況,右圖是停頓相似度的分佈情況。從兩幅圖的分佈情況可以看出,同一句話由兩位不同母語的人朗讀,韻律表達會有一定的差異,母語者之間的韻律相似程度比母語者與非母語者之間的韻律相似程度要高,且停頓相似度比語調相似度有更強的區分能力,這也說明相比語調,停頓節奏的掌握對非母語語言學習者而言難度更大。
更客觀的韻律評價指標
目前衡量發音評測演算法有效性,主要方法是對比機器與人工打分,計算其相關度。但對韻律分析的人工打分來說,音段的人工標註較為確定,韻律的人工標註就會有標準不統一的問題。即使讓兩位母語者錄製同一段話,韻律變化也很難完全一致。因此韻律的人工標註不僅對標註者的專業知識有嚴苛的要求,而且標註過程相當繁雜,也易受主觀性的影響。
但是,資料錄製者是否是母語使用者,這一標籤資訊是客觀且容易得到的。因此,我們構造了一個二分類的網路來區分測試語句是否來自於母語說話人,從而得到在一定程度上反應說話者的韻律標準程度的機率值。對於網路的輸入,我們採用混合高斯模型對若干個具有大量資料的說話人的韻律相似度分佈情況進行建模,使得評估語句有了更多的參照物件,可以得到一個相對客觀的得分,用於對學習者的反饋。
更靈活的應用場景
由於在進行韻律評估的過程中,每一條待評估錄音都需要對應一條由母語使用者錄製的相同文字資訊的錄音作為標準參考,這一錄製過程將消耗大量時間和資金成本,大大限制發音質量評測演算法的應用場景。因此我們嘗試使用高質量的語音合成技術(TTS)來製作與文字對應的語音,代替標準錄音來完成韻律相似度的比對計算。這一方案在我們的資料集上得到了與直接使用真人語音的方案相當接近的效果。這說明微軟高品質的語音合成能使發音質量評測演算法更加靈活地應用在不同的場景。