開源語音合成庫 coqui TTS 使用記錄

天地辽阔發表於2024-07-31

原文網址 : https://www.cnblogs.com/inchbyinch/p/18335636

UITTS

1 介紹

功能：可以克隆聲音；可以轉換聲音。支援多語言。

GitHub https://github.com/coqui-ai/TTS

線上試玩（效果不如本地demo） https://huggingface.co/spaces/coqui/xtts

2 本地搭建demo

搭建環境

conda create -n coqui python=3.10

conda activate coqui

pip install TTS （可以自動安裝需要的依賴包，也可以根據requirements.txt逐個安裝依賴包）

執行時其他缺的包直接pip即可（貌似就只有一個）

下載原始碼和模型

GitHub https://github.com/coqui-ai/TTS 版本dbf1a08

模型地址 https://huggingface.co/coqui/XTTS-v2/tree/main

測試指令碼

import torch
from TTS.api import TTS

## 檢視模型列表
# for name in TTS().list_models().list_models():
#     print(name)

## Init TTS 初始化，傳入模型和配置檔案路徑
device = "cuda" if torch.cuda.is_available() else "cpu"  # Get device
tts = TTS(model_path="/home/ze/coqui/mypath/models/model.pth", 
          config_path="/home/ze/coqui/mypath/models/config.json", 
          progress_bar=True).to(device)

## Text to speech to a file
# ## 英文
# tts.tts_to_file(text="A short story is a piece of prose fiction. It can typically be read in a single sitting and focuses on a self-contained incident or series of linked incidents, with the intent of evoking a single effect or mood.", 
#                 speaker_wav="mypath/audio/samples_en_sample.wav", 
#                 language="en", 
#                 file_path="output.wav")
# ## 中文
# tts.tts_to_file(text="龍能大能小，能升能隱；大則興雲吐霧，小則隱介藏形；升則飛騰於宇宙之間，隱則潛伏于波濤之內。方今春深，龍乘時變化，猶人得志而縱橫四海。", 
#                 speaker_wav="mypath/audio/samples_zh-cn-sample.wav", 
#                 language="zh-cn", 
#                 file_path="output.wav")
## 指定中文音色，輸出英文
tts.tts_to_file(text="A short story is a piece of prose fiction. It can typically be read in a single sitting and focuses on a self-contained incident or series of linked incidents, with the intent of evoking a single effect or mood.", 
                speaker_wav="mypath/audio/dragon.wav", 
                language="en", 
                file_path="output.wav")

遇到問題

報錯 NotADirectoryError: [Errno 20] Not a directory: '/home/ze/coqui/mypath/models/model.pth/model.pth’

原因：程式碼介面存在bug，在/home/ze/coqui/TTS-dev/TTS/utils/synthesizer.py line192載入模型時沒有按照介面定義。

解決：將home/ze/coqui/TTS-dev/TTS/utils/synthesizer.py line192呼叫語句self.tts_model.load_checkpoint()中引數tts_checkpoint改為模型所在路徑，比如"/home/ze/coqui/mypath/models”

Coqui TTS合成語音
2024-12-03
UITTS
文字到語音(tts)
2024-05-02
TTS
語音合成（TTS）技術在有道詞典筆中的應用實踐
2021-12-20
TTS
口播神器,基於Edge,微軟TTS(text-to-speech)文字轉語音免費開源庫edge-tts實踐(Python3.10)
2023-03-07
微軟TTSPython
ChatTTS,語氣韻律媲美真人的開源TTS模型,文字轉語音界的新魁首,對標微軟Azure-tts
2024-05-31
TTS模型微軟
耳朵沒錯，是聲音太真了，位元組豆包語音合成成果Seed-TTS技術揭秘
2024-06-26
TTS
小程式--語音合成tts 對接多平臺（訊飛，思必馳，百度）
2019-01-18
TTS
正式開源！網易有道上線“易魔聲”語音合成引擎
2023-11-10
C# TTS-文字轉語音
2018-03-28
C#TTS
AI 聲音：數字音訊、語音識別、TTS 簡介與使用示例
2024-11-28
AI音訊TTS
騰訊雲語音合成TTS的優勢和場景介紹以及優惠套餐推薦
2020-11-21
TTS
如何用Python語音合成，以及文字轉語音~
2022-09-23
Python
開源記錄
2024-07-26
記錄兩個群音影片開源框架LiveKit和mediasoup
2024-06-13
框架
C語言學習筆記01--C開源庫uthash的使用
2020-12-26
C語言筆記
F5-TTS語音克隆漢化整合包1016
2024-10-16
TTS
GPT-SoVITS語音合成模型實踐
2024-09-29
GPT模型
TTS 擂臺: 文字轉語音模型的自由搏擊場
2024-03-16
TTS模型
使用 SpeechT5 進行語音合成、識別和更多功能
2023-03-14
上海交大開源超逼真聲音克隆 TTS；微軟探索音生圖 AI 模型丨 RTE 開發者日報
2024-10-15
TTS微軟AI模型開發者日報
【開源系列】專案開源實戰記錄-序
2020-11-30
開源日誌記錄元件Log4Net的使用
2019-12-22
元件
HTML5語音合成Speech Synthesis API簡介
2019-03-08
HTMLAPI
Langchain-Chatchat開源庫使用的隨筆記（一）
2024-03-14
LangChain筆記
jsqlparser使用記錄---生成sql語句
2020-11-19
JSSQL
吾劍未嘗不利,國內Azure平替,科大訊飛人工智慧免費AI語音合成(TTS)服務Python3.10接入
2023-02-08
人工智慧AITTSPython
golang常用庫：日誌記錄庫-logrus使用
2021-11-12
Golang
Hume 語音模型 OCTAVE：實現情感語音合成、聲音克隆和多角色對話生成；通義開源多模態說話人識別專案 3D-Speaker
2024-12-24
模型3D
如何使用華為機器學習服務和Kotlin實現語音合成
2020-08-17
機器學習Kotlin
微信下載錄音檔案(音軌分離 ffmpeg視訊合成)
2019-01-09
新一代 Kaldi: 支援 JavaScript 進行本地語音識別和語音合成啦！
2024-03-17
JavaScript
含辭未吐,聲若幽蘭,史上最強免費人工智慧AI語音合成TTS服務微軟Azure(Python3.10接入)
2022-12-25
人工智慧AITTS微軟Python
5 款不錯的開源語音識別/語音文字轉換系統
2019-06-22
基於語音識別的會議記錄系統
2024-07-18
go開源庫之cron使用
2021-04-14
Go
音訊處理開源庫webrtc(1)簡介
2019-04-05
音訊Web
CosyVoice 2.0 支援雙向流式語音合成；無問芯穹開源全模態理解端側模型丨 RTE 開發者日報
2024-12-16
模型開發者日報
AVFoundation 文字轉語音和音訊錄製播放
2019-04-19
音訊

開源語音合成庫 coqui TTS 使用記錄

1 介紹

2 本地搭建demo

相關文章