百度賈磊迴歸後首度揭秘語音佈局:推出地圖語音定製功能

新聞助手發表於2019-09-20

人工智慧技術的落地應用正在向各行業襲來。9月19日,百度地圖“‘音’為有你,更有‘AI’”語音定製功能釋出會召開,重磅推出全球首個地圖語音定製產品。該功能科技範兒十足,使用者只需在百度地圖App上錄製20句話,最快20分鐘,即可生成個人完整語音包。換句話說,當你之後出行使用地圖功能時,就可以用自己的家人甚至寶寶的定製化語音導航,十一旅遊還可以聽自己的聲音景區解讀。

百度賈磊迴歸後首度揭秘語音佈局:推出地圖語音定製功能(喊“小度小度”開啟語音包錄製)這是百度語音技術與百度地圖的又一次重要融合,讓普通大眾都可以切身體驗科技的酷炫。可體驗的科技背後,依賴的是百度大腦全球領先的語音技術打造。AI的加持讓地圖語音包生產實現了從月級別到分鐘級別的突破性進展,也重新定義了語音包的生產模式。那麼百度地圖國民級眾多使用者,大家都可以同時發起語音定製需求嗎?百度語音如何實現在15分鐘這麼短的時間內合成定製語音包?為什麼百度語音能夠實現全球首個地圖語音定製?

現場,百度語音首席架構師賈磊揭秘了這背後的技術:“百度地圖語音定製功能基於百度獨創的風格遷移技術Meitron模型,其特點主要體現在音色轉換、多情感朗讀和韻律遷移三個方面,從而讓語音合成的門檻大大降低,相信百度語音技術在AI時代擁有無限可能。”

百度賈磊迴歸後首度揭秘語音佈局:推出地圖語音定製功能百度語音首席架構師賈磊)具體來說,多情感朗讀是指透過MEITRON技術,合成的語音可以注入不同的情感,韻律遷移是指同一個人的聲音可以講出不同風格的文字,音色轉換是指可以用少量語音就可以合成一個人的專屬音庫。因此,語音合成效果變得更加逼真、豐富,使用者體驗也得到了提升。Meitron技術能夠實現個性化的聲音跟共有聲音空間資訊的完美分離和完美重合再現,是個性化語音合成成功的關鍵。在今年的5月份,基於百度大腦的這一語音技術合成了一位已故老排長的聲音,讓消逝的聲音重現世間,抗戰老兵們在分別64年後首次實現了“重逢”。

眾所周知,語音合成技術發展已有數年,至今合成的工業級應用並不成熟,在百度地圖這類國民級應用中實現定製化更屬首次。此次百度語音技術“一騎絕塵”,推出全球首個地圖語音定製產品,其背後的技術進步路徑也再次向業界顯露。

百度賈磊迴歸後首度揭秘語音佈局:推出地圖語音定製功能

從2012年起,百度把深度學習技術DNN技術用於語音搜尋,是全世界最早把深度學習技術落地工業化產品的企業之一。到2019年1月,百度在世界範圍內首次提出了截斷注意力模型SMLTA。這是國際上第一個實現了語音識別領域注意力模型的大規模工業線上產品落地。SMLTA實現從語音的聲音訊號到輸出文字的直接對映,使得句子的整句識別率、方言的識別以及中英文混合的識別率顯著提升,從而也讓端側的語音識別成為可能。目前,SMLTA語音模型已在百度輸入法和小度智慧音響兩款產品上線,使得識別準確率分別提升15%和20%。從2012年DNN的深度學習技術落地百度語音搜尋,到SMLTA技術率先解決注意力模型的線上使用問題,概括了百度語音識別技術從跟隨世界AI技術浪潮發展,到領跑世界的整個過程。

端到端建模的注意力模型具有語言語音一體化建模的優勢,識別率較高,同時在嵌入式場合具有很高的應用前景。因此,百度攻克的注意力模型的線上使用的技術難題,也是行業巨頭紛紛投入精力研發的領域,但注意力模型一直從未在各大公司的主流產品上廣泛使用過。百度公司目前是世界範圍內,唯一一家全線產品均採用了基於注意力機制的端到端語音識別建模的高科技公司。

除了語音識別領域的重大技術突破,在語音合成領域也是行業領先。

百度賈磊迴歸後首度揭秘語音佈局:推出地圖語音定製功能

從2016年開始,百度在基於深度學習的語音合成產品落地上持續發力,逐漸開始採用深度學習的離線引數合成、全面深度學習的EMPHASIS聲學建模、Tacotron+WaveRNN的聯合訓練等新技術,最終逐漸開始獲得行業領先的語音合成產品體驗。百度的雲端語音深度學習系統,是世界上第一個能在雲端提供大規模WaveRNN實時語音合成服務的系統。

百度語音資訊流的一些音庫,已經採用百度領先的線上實時合成WaveRNN技術。百度相對於學術界廣泛研究的WaveRNN深度學習技術有一系列的創新。百度的WaveRNN語音生成過程是並行進行的。技術圈眾所周知,RNN技術是單點遞推的,只有計算完當前的音訊點,才能計算下一個音訊點。因此WaveRNN的技術本質是一個單點遞推的序列過程,是不可並行的。所以在waveRNN技術付諸於線上部署的時候,通常由於計算時間較長、使用者等待時間過長,無法線上實時使用。

百度賈磊迴歸後首度揭秘語音佈局:推出地圖語音定製功能

百度創新的並行WaveRNN技術,把一句話分成若干個音節,每個音節同時並行合成,從而實現了WaveRNN技術可以線上大規模使用。由於傳統WaveRNN合成時候,會有一些的Badcase,比如個別音有一些丟音、爆音或者破音。百度創新了WaveRNN和tacotron模型聯合訓練的方法,比較好地解決了這一問題,使得WaveRNN的Badcase率大幅度下降。目前這套系統應該說代表了整個中文語音合成的最先進水平。

相對於傳統的語音合成,2016年以前,百度的線上語音合成是有兩三個語音庫,一男一女,都是新聞腔,並沒有懸疑、有聲,或是脫口秀。如今的語音合成技術,覆蓋了從通用、新聞、有聲書、評書、情感電臺、北京話等方方面面。聲音更加清晰、情感更加自然,多場景、多角色,風起雲湧的合成系統提供了全方位的聲音服務。

除了語音合成技術本身,能夠基於百度深度學習平臺飛槳(PaddlePaddle)實現純端側的廉價GPU部署,也是百度地圖語音定製功能得以上線的重要原因。邏輯也非常明瞭,一項技術的工業化應用除了頂級的演算法,還要有算力的極大支撐。

基於深度學習的定製化語音合成產品,需要大量的訓練,大量的GPU做算力支撐。如果幾百萬人同時提出GPU需求,採用大伺服器也很難應對。百度把深度學習部署到廉價的GPU卡上,一個GPU卡可能兩千塊錢,就可以做深度學習,而且是大規模分佈部署,實現全景化服務,這也是個性化語音合成技術得以落地的核心和關鍵。

一直以來,百度大腦語音技術對內支援語音搜尋、資訊流、智慧音響、輸入法等核心產品,實現了前沿技術的突破與工業級應用的結合。就在上個月,百度智慧音響出貨量躍升為全球第二,優質的語音互動能力成為其制勝王牌;今天,百度語音技術再次在地圖場景中上線語音定製化產品,這不是第一次語音技術為百度地圖賦能。百度語音技術多年的積累和沉澱或正進入爆發期。

相關文章