微軟利用AI技術使文字轉語音只需20分鐘

dicksonjyl560101發表於2019-05-28


微軟利用AI技術使文字轉語音只需20分鐘

  文字到語音的轉換正變得越來越簡單,但有一個問題:仍然需要大量的培訓時間和資源來生成自然聲音輸出。微軟和中國的研究人員可能有一個更有效的方法。他們設計了一種文字到語音的人工智慧,只需200個語音樣本(約20分鐘)和匹配的轉錄,就能生成逼真的語音。

  該系統部分依賴於變壓器,或深度神經網路,大致模擬大腦中的神經元。變壓器像突觸連結一樣,動態地衡量每一個輸入和輸出,幫助它們非常高效地處理即使是很長的序列,比如一個複雜的句子。再加上一個去噪編碼器元件,人工智慧可以用相對較少的資源做很多事情。

  這一結果並不完美,雖然有輕微的機器人聲音,但它們非常準確,文字的清晰度為99.84%。更重要的是,這可以使文字到語音更容易訪問。你不需要花太多精力去獲得真實的聲音,讓小公司甚至業餘愛好者都能做到。這對未來也是一個好兆頭。研究人員希望對不匹配的資料進行訓練,因此創造現實對話所需的工作可能更少。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2645834/,如需轉載,請註明出處,否則將追究法律責任。

相關文章