前不久，中央廣播電視總檯（CCTV）首個AI主播“AI王冠”透過一欄真人主播與AI主播首次同框互動的特別節目與大家正式見面，引發了社會各界的廣泛關注。這名AI主播擁有十分自然的聲音和麵部表情，採用DeepBrain AI的深度學習技術製作。而製作DeepBrain AI的AI虛擬流程，其中就採用了包括AI語音合成、影片合成和自然語言處理技術。

　　俗話說“聽聲識人。”這句話在以前或許實用，但在AI人工智慧技術迅猛發展的當今，這句話或已落伍。這主要就是得益於語音合成技術的發展。那麼，什麼是語音合成呢？語音合成一般會經過文字與韻律分析、聲學處理與聲音合成三個步驟，分別依賴於文字與韻律分析模型、聲學模型與聲碼器。其中文字與韻律分析模型一般被稱為“前端”，聲學模型和聲碼器被稱為“後端”。如今語音合成廣泛應用於智慧客服、語音互動、導航播報等眾多領域中。

　　提到國內AI語音合成的發展，過去10年，語音合成首次超過了人類水平，不僅是中文，英文也首次超過了人類說話水平；語音識別轉寫準確率超過了人類水平……而在國內眾多的AI人工智慧企業當中，作為頭部人工智慧獨角獸企業的雲知聲可謂是在這一領域中畫上了濃墨重彩的一筆。

　　創立於2012年的雲知聲以人工智慧語音技術為核心，透過全棧式技術鏈條，為企業和使用者提供智慧語音技術和綜合解決方案。雲知聲推出了AI開放平臺，提供AI語音技術方案，其中的產品之一就是語音合成，主要包括短文字語音合成、長文字語音合成以及音庫定製三大產品服務，可為多個不同場景需求提供個性化、專業化的智慧語音合成服務。

　　以雲知聲新推出的音庫定製為例，該產品能夠面向企業對接定製音庫服務，透過深度學習技術建模，生成逼真的專屬IP發音人。其最大的優勢和亮點在於：由專業團隊對接，可為客戶提供專業定製化製作流程，有效保障服務質量和音庫定製質量；基於雲知聲最新語音合成深度學習技術，對原音的音色和風格全面學習，合成效果貼近真人；透過私有化部署語音服務，可將定製發音人部署到客戶自身的伺服器上，使用更安全、更私密。

　　未來已來，作為AI獨角獸企業的雲知聲，用過硬的AI語音合成技術為開發者個人和企業提供智享未來的視窗。未來，語音合成技術的發展方向應該是讓聲音達到真人說話的水準，並逐漸加入音色、情感方面的合成，使之更具特色，更加個性化。相信這也是未來雲知聲語音合成技術的發展方向。

雲知聲AI開放平臺之語音合成技術：讓AI人工智慧照亮智慧生活

相關文章