在這篇文章中,我們將介紹如何使用騰訊雲的高效能應用服務(HAI)來搭建一個具有多音色控制的文字轉語音(TTS)引擎,具體操作步驟如下:
登入高效能應用服務 HAI 控制檯
點選 新建 選擇 AI 框架,選擇算力方案、輸入 例項名稱、選擇數量 後立即購買
開啟學術加速功能
完成建立,檢視執行狀態
進入 jupyter_lab 環境
安裝 git-lfs:
apt-get clean && apt-get update
apt-get install git-lfs
克隆 EmotiVoice 倉庫:
cd /root && git clone https://github.com/netease-youdao/EmotiVoice
下載預訓練模型檔案:
cd /root/EmotiVoice
git lfs install
git lfs clone https://www.modelscope.cn/syq163/WangZeJun.git
下載 ckpt 模型:
cd /root/EmotiVoice
git lfs clone https://www.modelscope.cn/syq163/outputs.git
安裝 EmotiVoice 依賴:
pip install numpy numba scipy transformers==4.26.1 soundfile yacs g2p_en jieba pypinyin
執行 UI 互動介面:
pip install streamlit
cd /root/EmotiVoice && streamlit run demo_page.py --server.port 6889 --logger.level debug
啟動命令中的 6889 埠是 高效能應用服務預設開放的埠之一,如果修改了啟動命令中的埠,需要手動配置 HAI 的安全組策略,將服務埠放行
執行類 OpenAI TTS 的 API
# 安裝ffmpeg
apt-get clean && apt-get update
apt-get install ffmpeg
# 安裝API所需的依賴
pip install fastapi
pip install pydub
pip install uvicorn[standard]
# 執行服務
cd /root/EmotiVoice
uvicorn openaiapi:app --reload --host 0.0.0.0 --port 6006
啟動後可以透過/docs 檢視介面文件