“聽聲知著”|雲知聲AI開放平臺,打造有情感有溫度的定製音庫

ningxueqin528發表於2022-04-26

  隨著時代的高速發展和人工智慧技術的愈加完善,智慧家居、智慧客服、電臺等具有AI智慧化特徵的應用場景在生活中隨處可見。其實,語音智慧互動功能的實現,和人與人間的互動十分類似,均需滿足三個條件,即耳朵聽、大腦理解、嘴巴回答,分別對應著語音識別技術(ASR)、自然語言處理技術(NLP)、語音合成技術(TTS)這“三大技術”。在其中的語音合成技術中,想要讓聲音富有情感和表現力,一直是一大難點。雲知聲AI開放平臺面向企業對接定製音庫服務,透過定製化專屬IP發音人讓原本冰冷生硬的合成語音有了情感與溫度。

  與市面上傳統的TTS產品所不同,雲知聲推出的“定製音庫”是一款面向企業做個性化語音定製的產品。雲知聲AI開放平臺不僅可以根據企業的個性化場景需要定製專屬的IP發音人,還可以透過私有化部署語音服務,將定製發音人部署到客戶自身的伺服器上,使用更私密、更安全。

  現如今,TTS技術不斷髮展進步,使用者不再滿足於沒有情感的機械聲,而是對於語音合成的音質質量提出了更高要求,因此,最佳化語音合成中的聲音風格和音色、讓智慧客服更具人情味的生命力、讓智慧接待更加真情實感、讓聲音形象與使用者產生更多情感互動,成為了業界的難點和共同追求的方向。

  為了使合成發音更具專屬發音人特點,雲知聲AI開放平臺音庫定製功能中使用的端到端合成技術,更加重視個性化與情感共鳴,合成效果也具有更高的自然度、辨識度。它透過端到端聲學模型將輸入文字轉換成聲學引數,然後透過神經網路聲碼器將聲學引數轉換成語音,對原音的音色和風格全面學習,合成效果貼近真人1:1還原的真人數字聲音,實現真實還原個人音色,實現有溫度、有感情、零距離感的真實分享。

  在現有的技術基礎上,更多個性化場景也將運用到語音合成技術,雲知聲AI開放平臺音庫定製功能的應用場景將極具想象力,為工作和生活提供更多種可能的表達方式。根據使用主體的不同,應用場景從技術層面可以分為“大眾應用級”和“專業應用級”。

  大眾應用級主要適用於C端客戶在無干擾噪音的純靜錄音環境,自行錄製不同情感表達的語音資料,上傳到相關語音製作平臺即可,在基礎模型訓練和調優具有一定的還原性,適用於個人娛樂等場景;專業應用級是則更需要專業TTS資料製作機構進行高質量語料採集,透過專業技術調優後合成效果無限貼近真人,適用於企業做個性化的TTS定製服務。

  樣本的獲取在機器學習領域是很重要的環節,TTS技術同樣如此,想要發出更有情感表現力和精準韻律的聲音,資料的採集與模型訓練至關重要。雲知聲AI開放平臺音庫定製功能由專業團隊對接服務,基於客戶的實際使用場景,為客戶提供定製化製作流程。採用標準模型訓練、最終模型訓練多重非實時語音模型訓練方案,定製企業的“專屬IP發音人”,從而有效保障服務質量和音庫定製質量。

  技術的種子已然落地,科幻影片中描述的未來已來。雲知聲AI開放平臺將在TTS技術能力上區別低程度復刻,娛樂化的應用領域,憑藉過硬的實力突破語言與文字的邊界,用技術為聲音溫暖賦能。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69979405/viewspace-2888878/,如需轉載,請註明出處,否則將追究法律責任。

相關文章