教程|騰訊雲高效能應用服務(HAI)搭建多音色控制的TTS引擎

粤海科技君發表於2024-03-14

在這篇文章中,我們將介紹如何使用騰訊雲的高效能應用服務(HAI)來搭建一個具有多音色控制的文字轉語音(TTS)引擎,具體操作步驟如下:

登入高效能應用服務 HAI 控制檯

點選 新建 選擇 AI 框架,選擇算力方案、輸入 例項名稱、選擇數量 後立即購買

開啟學術加速功能

完成建立,檢視執行狀態

進入 jupyter_lab 環境

安裝 git-lfs:

apt-get clean && apt-get update
apt-get install git-lfs

克隆 EmotiVoice 倉庫:

cd /root && git clone https://github.com/netease-youdao/EmotiVoice

下載預訓練模型檔案:

cd /root/EmotiVoice
git lfs install
git lfs clone https://www.modelscope.cn/syq163/WangZeJun.git


下載 ckpt 模型:

cd /root/EmotiVoice
git lfs clone https://www.modelscope.cn/syq163/outputs.git

安裝 EmotiVoice 依賴:

pip install numpy numba scipy transformers==4.26.1 soundfile yacs g2p_en jieba pypinyin


執行 UI 互動介面:

pip install streamlit
cd /root/EmotiVoice && streamlit run demo_page.py --server.port 6889 --logger.level debug

啟動命令中的 6889 埠是 高效能應用服務預設開放的埠之一,如果修改了啟動命令中的埠,需要手動配置 HAI 的安全組策略,將服務埠放行

執行類 OpenAI TTS 的 API

# 安裝ffmpeg
apt-get clean && apt-get update
apt-get install ffmpeg

# 安裝API所需的依賴
pip install fastapi
pip install pydub
pip install uvicorn[standard]

# 執行服務
cd /root/EmotiVoice
uvicorn openaiapi:app --reload --host 0.0.0.0 --port 6006

啟動後可以透過/docs 檢視介面文件

相關文章