11月10日,網易有道正式上線“易魔聲”開源語音合成(TTS)引擎,所有使用者可免費在開源社群GitHub進行下載使用,透過其提供的web介面及批次生成結果的指令碼介面,輕鬆實現音色的情感合成與應用。
據悉,“易魔聲”是一款有道自研TTS引擎,目前支援中英文雙語,包含2000多種不同的音色,更有特色的情感合成功能,支援合成包含快樂、興奮、悲傷、憤怒等廣泛情感的語音。
(GitHub開源介面)
在過往的回憶裡,總會有一些特別的聲音,比如:偶像的聲音激勵人心、媽媽的聲音讓我們一秒回憶起小時候……聲音,作為語言維度的一種,總是蘊含著人類充沛的情感表達。而富有情感的合成語音,是能夠為應用和內容增色的AI功能。有道“易魔聲”則為開發者和內容創作者提供了一些解決思路——只需簡單透過在文字中加入情感的描述提示,就可以自由合成符合自己需求的帶有情感的語音,比傳統TTS更加自然逼真。
隨著基於GAN等現代AI技術的語音能力越來越成熟,實現一個質量較高的TTS系統的門檻越來越低。但即使如此,中英雙語的高質量、現代TTS模組還是不易找到,要在自己的應用與內容中加入高逼真度且高度可控的語音,特別是中英雙語的語音,也依然比較麻煩。
“目前該專案還處於初期階段,現在將這個專案開源,也是希望能幫助到有需求的開發者與內容創作者,並不斷擴大高質量TTS的應用範圍,讓產品及應用更好地落地。也期待大家試用後給我們提供更多反饋與建議。”網易有道CEO周楓介紹道。
有道在 TTS 領域耕耘多年,始終以場景為導向,不斷推動技術落地,為使用者帶來諸多高效便捷的應用和產品。例如,推出教育領域首個明星語音功能,將王源、歐陽娜娜、馬伯騫等明星的聲音內建在網易有道詞典中,陪伴使用者共同學習英語;提供聲音定製和聲音復刻功能,僅需 5 分鐘即可完成個性化聲音定製;近期推出的 Hi Echo 虛擬人口語私教,藉助有道「子曰」教育大模型、語音和虛擬人技術,幫助使用者隨時隨地輕鬆練習英語口語。
從2008年起,網易有道便開始佈局AI,多年來一直致力於基於Transformer模型進行創新和應用,並在神經網路翻譯、計算機視覺、高效能運算、智慧語音AI技術等方面都具備了核心技術,為應用的實際落地打下了堅實的技術基礎。
此外,使用者還可透過有道智雲官網,體驗已經對開發者透過API等形式開放的文字和影像翻譯、文字和各類圖片識別、作文批改等各類AI技術。
有道智雲AI開放平臺,是網易有道旗下一站式人工智慧服務提供商,為開發者、企業和政府機構等提供自然語言翻譯、文字識別、OCR、語音識別等服務以及行業解決方案,致力於提供安全、可靠和高效的雲服務。