還在糾結抑揚頓挫？讓AI教你像native一樣說英語

微软研究院AI头条發表於2018-08-29

原文網址 : http://www.jiqizhixin.com/articles/2018-08-29-13

編者按：你會用英語說繞口令嗎？現在微軟亞洲研究院推出的智慧英語私教“微軟小英”可以教你說英文繞口令啦！一直以來，“微軟小英”口語訓練裡的實時打分和針對性反饋功能都獲得了大家的許多好評，現在在新上線的“繞口令”裡，“微軟小英”將為口語練習者語調的抑揚頓挫提出建議。今天我們來為大家揭祕小英背後“功臣”——口語韻律分析與評測技術。

由微軟亞洲研究院推出的智慧英語學習應用“微軟小英”又添新功能啦！現在，你除了可以用“微軟小英”進行跟讀訓練、口語評測、作文自動打分之外，還可以跟著它的新功能——“繞口令”，在工作和學習之餘和朋友battle一下英文繞口令。

這項“繞口令”功能也和此前的“跟讀訓練”一樣，在跟讀繞口令後，“微軟小英”能為你的繞口令水平給出一個評測分數，不同的是，這次的發音指導將針對跟讀錄音給出語調和停頓建議，讓你更自然連貫地說出“地道”的繞口令。

那麼，AI如何評測英語學習者口語的抑揚頓挫呢？

還在糾結抑揚頓挫？讓AI教你像native一樣說英語

計算機技術助力口語教學

口語訓練是語言學習中的一大重要環節。傳統口語教學模式是教師授課、學生自主練習，教師的適時指導和及時反饋往往能大大提高學生的學習效率。但這一模式有明顯的侷限性：由於學生數量眾多，而有相應專業技能的老師的數量往往供不應求；每個學習者能夠負擔的學習成本（比如學習費用）也不盡相同；最重要的是，人工教學存在時間和地點的限制，學習者難以得到即時的反饋和幫助。因此在有關口語訓練的計算機輔助語言教學研究中，我們希望計算機能儘可能地扮演好教師在整個學習過程中的角色。

傳統教學中，教師的核心功能包括標準示範和實時反饋。如果由計算機來輔助教學，標準示範比較簡單，可以播放預先錄製的標準示範音訊，也可以通過高質量的語音合成技術提供標準範本。而如何為學習者提供關於其發音標準程度的實時評價反饋（發音質量評測），是該領域的研究重點之一。

口語發音質量評測可以在兩個維度上進行分析：音段發音和語句韻律。

音段是口語發音質量評測中一個基本單位，音段發音考察的是說話人的音素、音節、字詞發音的標準程度。在微軟小英的跟讀任務場景中，學習者會依照文字內容和標準錄音進行跟讀。通過分析學習者的跟讀錄音，對該文字中的每一單詞、每一音標的發音，都提供評價與反饋。通常的分析方法是將錄音中的頻譜資訊與標準發音進行比對，得到評分。

語句韻律的抑揚頓挫則是更加高階的技巧，包括音調高低、上揚下抑、頓挫起伏等，這也是第二語言學習者極為頭疼的問題。我們發表在語音領域國際會議Interspeech 2017上的文章“Proficiency Assessment of ESL Learner's Sentence Prosody with TTS Synthesized Voice as Reference”就是針對這一問題，提出了第二語言學習者在口語訓練中的韻律分析與評測方法。

口語訓練中的韻律分析與評測

還在糾結抑揚頓挫？讓AI教你像native一樣說英語

與音段相同，韻律評測也是基於語言學習者與標準範本的韻律的對比分析。

我們需要解決的第一個問題是韻律的表徵。由於韻律比基本發音更為抽象和複雜，過去的很多相關工作在構造韻律表徵時，會提取很多繁瑣的特徵，比如重音與重音之間的距離均值及方差、母音子音等時長資訊、訊號能量相關資訊等，不僅繁瑣冗餘，而且嚴重依賴許多領域的先驗知識。

韻律表徵其實可以歸納為兩個維度，一個是語調（抑揚），一個是連讀與停頓（頓挫）。因此我們也從這兩個方面入手，計算語言學習者與標準範本的“語調相似度”和“韻律相似度”，以此作為評估韻律的標準。

語調相似度

語調通常指音調的高低起伏，語調分析通常是基於語音中的音高資訊（指聲帶振動的頻率）。人們在發聲時，從聲帶開始到嘴脣之間的聲道可以看作一個發音系統，從氣管出來的氣體經過這一系統產生的語音訊號，會因為系統結構不同而產生不同的發音與韻律。

在我們發濁音時，聲帶振動，每一次振動，氣流經過聲道會產生週期性的變化，我們稱之為基音週期。因此，週期性的聲帶振動將會產生週期性的語音訊號，音高即為基音週期的倒數。下圖左側第二欄中的藍色線條，代表的就是這句錄音裡音高的高低變化。

還在糾結抑揚頓挫？讓AI教你像native一樣說英語

在提取音訊中的音高資訊以後，面臨的是分析兩段不等長的序列之間的相似程度，因為標準錄音與使用者錄音的長度不同。為了使兩者可比，首先我們使用文字資訊和預訓練的聲學模型對兩條錄音進行強制對齊，得到音節層面的音段分割。接下來用動態時間規整演算法（Dynamic Time Warping）進行音節內部的對齊。此外，由於不同說話者的音高變化範圍也不相同，比如男性與女性的音高，差異就非常明顯，因此，我們需要對音高序列做規整化處理，使得兩者可比。

停頓相似度

在上圖中可以看到，代表音高的藍色線條並不是連續的，存在很多“斷開”的部分，其中有些是語音的停頓，有些則是清音段（聲帶不振動）。停頓是韻律的另一主要特徵，它影響著整個語句的流暢和自然度，不同的停頓還可能會造成語義理解的不同。

我們通過兩個方面考察停頓相似度，一是停頓的位置，二是停頓的時長。在強制對齊的過程中，我們可以找到發音單元對應的起止位置，也就獲取了停頓的起止位置和時長資訊。接下來我們根據獲取到的資訊進行相似度的衡量。在分析停頓時長時，最關鍵的問題在於語速。由於不同的人說話時有著不同的語速，因此直接比較兩段停頓的絕對時長將導致很大的偏差，因此我們要對說話者的語速做規整化處理，才能使停頓時長具有可比性。

實驗結果

還在糾結抑揚頓挫？讓AI教你像native一樣說英語

我們在兩個不同的資料集上進行了韻律相似度的分佈情況比對，這兩個資料集分別為CMU-Arctic資料集（以英語為母語的說話者錄製）和微軟小英授權使用者的資料集（以漢語為母語的英語學習者錄製）。左圖是語調相似度的分佈情況，右圖是停頓相似度的分佈情況。從兩幅圖的分佈情況可以看出，同一句話由兩位不同母語的人朗讀，韻律表達會有一定的差異，母語者之間的韻律相似程度比母語者與非母語者之間的韻律相似程度要高，且停頓相似度比語調相似度有更強的區分能力，這也說明相比語調，停頓節奏的掌握對非母語語言學習者而言難度更大。

韻律分析與評測的優勢

更客觀的韻律評價指標

目前衡量發音評測演算法有效性，主要方法是對比機器與人工打分，計算其相關度。但對韻律分析的人工打分來說，音段的人工標註較為確定，韻律的人工標註就會有標準不統一的問題。即使讓兩位母語者錄製同一段話，韻律變化也很難完全一致。因此韻律的人工標註不僅對標註者的專業知識有嚴苛的要求，而且標註過程相當繁雜，也易受主觀性的影響。

但是，資料錄製者是否是母語使用者，這一標籤資訊是客觀且容易得到的。因此，我們構造了一個二分類的網路來區分測試語句是否來自於母語說話人，從而得到在一定程度上反應說話者的韻律標準程度的概率值。對於網路的輸入，我們採用混合高斯模型對若干個具有大量資料的說話人的韻律相似度分佈情況進行建模，使得評估語句有了更多的參照物件，可以得到一個相對客觀的得分，用於對學習者的反饋。

還在糾結抑揚頓挫？讓AI教你像native一樣說英語

更靈活的應用場景

由於在進行韻律評估的過程中，每一條待評估錄音都需要對應一條由母語使用者錄製的相同文字資訊的錄音作為標準參考，這一錄製過程將消耗大量時間和資金成本，大大限制發音質量評測演算法的應用場景。因此我們嘗試使用高質量的語音合成技術（TTS）來製作與文字對應的語音，代替標準錄音來完成韻律相似度的比對計算。這一方案在我們的資料集上得到了與直接使用真人語音的方案相當接近的效果。這說明微軟高品質的語音合成能使發音質量評測演算法更加靈活地應用在不同的場景。

還在糾結抑揚頓挫？讓AI教你像native一樣說英語

AirBuddy讓你在Mac上像iPhone一樣使用AirPods
2021-10-22
AIMaciPhone
選英音還是美音，到底值不值得糾結？
2018-11-20
資源畫像，讓容器資源規格的填寫不再糾結
2022-04-28
讓eclipse像idea一樣炫起來
2018-11-27
EclipseIdea
macw資訊——AirBuddy讓你在Mac上像iPhone一樣使用AirPods
2021-10-23
MacAIiPhone
拒絕啞巴英語，升級版有道少兒英語讓孩子“說”出來
2020-07-14
讓AI像人類一樣操作手機，華為也做出來了
2024-10-25
AI
讓 UIView 像 UINavigationController 一樣支援 push 和 pop
2019-07-20
UIViewNavigationController
AirBuddy for Mac(讓Mac像iPhone一樣使用AirPods)
2022-09-12
AIMaciPhone
讓 Android 開發像 web 開發一樣爽
2018-11-18
AndroidWeb
React Native 樣式總結
2018-07-11
React Native
Python 資料分析：讓你像寫 Sql 語句一樣，使用 Pandas 做資料分析
2019-06-14
PythonSQL
AirBuddy for Mac讓你的Mac像iPhone一樣使用AirPods
2022-07-15
AIMaciPhone
流利說 AI 劉揚：從教授到「AI 虛擬老師」
2018-11-27
AI
“新基建”開始引領風向，而你還在糾結5G？
2020-03-19
Vland：像樂高一樣搭建元宇宙｜開發者說
2023-03-04
元宇宙
如何讓ESP8266板子像APP開發一樣方便
2023-05-16
APP
MagicArray:像php一樣，讓Go業務程式碼不再卷！
2023-12-26
PHPGo
手把手讓你像使用vuex一樣測試vuex
2019-07-21
Vue
像SpringMVC一樣在Android上做Web開發
2018-09-25
SpringMVCAndroidWeb
Gitee熱榜第一！讓你可以像操作SQL一樣操作ES
2022-02-25
GiteeSQL
Redis 資料結構之字串的那些騷操作 -- 像讀小說一樣讀原始碼
2020-11-16
Redis資料結構字串原始碼
《FIFA 20》：轉折的一年在糾結中前行
2019-10-22
SnippetsLab - 像納博科夫寫小說一樣寫程式碼
2018-06-14
Vimium外掛讓鍵盤黨像操作Vim一樣操作Chrome
2020-04-07
Chrome
2022 SDC 議題 | Dumart fuzz：讓黑盒像白盒一樣fuzz
2022-10-19
EluxJS-讓你像切蛋糕一樣拆解前端巨石應用
2022-11-22
UXJS前端
怎麼還在糾結學Java還是python，未來大資料才是王道，附學習教程
2019-08-27
JavaPython大資料
歸納+記憶：讓機器像人一樣從小樣本中學習
2021-01-18
mustafaquraish/cup：簡單的像C一樣的程式語言
2022-02-18
AI
像FIFA一樣踢球的AI，比打遊戲更強嗎？
2019-08-26
AI遊戲
演算法入門，其實可以像讀小說一樣有趣
2019-04-08
演算法
我TM都快30歲了，還像個小孩子一樣！
2020-07-29
Easy New File|讓Mac像Windows一樣可以右鍵新建檔案
2020-07-20
MacWindows
讓你的ubuntu像windows一樣絲滑的小工具們
2024-08-15
UbuntuWindows
8個酷炫的GitHub技巧，讓你看起來像大佬一樣！
2022-06-01
Github
英語流利說今日IPO AI能否成其順利上市的救命稻草？
2018-09-27
AI
英語流利說今日IPO AI能否成其順利上市的救命稻草
2018-09-27
AI

還在糾結抑揚頓挫？讓AI教你像native一樣說英語

相關文章