ChatTTS 是一個專為互動式語音準備的AI語音合成專案,特點是自然,逼真,可把控聲音細節,能說能笑能停頓。
音訊播放器
00:00 00:00 使用上 / 下箭頭鍵來增高或降低音量。
具體內容,已經在另外的文章中介紹過。
本文主要是關注兩個點。
-
如何在Windows上安裝這個專案。
-
分享一個已經制作好的一鍵執行包。
本地安裝
準備工作
硬體:帶英偉達顯示卡(視訊記憶體4G+)的電腦
系統:Windows10/11
軟體:git,miniconda,魔法工具
本文針對有一定基礎的人,所以預設大家清楚知道上面的軟硬體配置,預設大家能理解CMD命令。這些文章我就不寫廢話了,專注於核心內容。
如果對一些基礎知識不瞭解的可以檢視以往的基礎知識類文章。
配置過程
克隆專案
git clone https://github.com/2noise/ChatTTS.git
開啟CMD,進入一個檔案,執行上面的命令。
建立虛擬環境
使用miniconda建立一個Python的虛擬環境,並啟用。
conda create -n chattts python=3.10
裝了miniconda的話,系統中就無需單獨安裝Python了。只要透過命令建立一個虛擬環境即可。
安裝過程比較依賴網路,需要全包網路通暢。
安裝依賴
啟用虛擬環境之後,就可以安裝Python的依賴包了。
先安裝一下torch
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
然後安裝requirements檔案裡的依賴。
pip install -r requirements.txt
為了在本地執行.ipynb(Jupyter Notebook)檔案,還需要安裝一個依賴。
pip install notebook
執行Jupyter 筆記本
jupyter notebook
啟動成功之後,瀏覽器會自動開啟。
在下方的檔案列表中雙擊開啟inter.ipynb檔案。
然後依次執行程式碼塊。
執行過程中會使用本地的顯示卡,另外會去HF上下載模型,所以包保證硬體夠用,網路通暢。
執行成功的話,會自動播放生成的語音。
輸出一堆日誌的問題
wavs = chat.infer(texts, use_decoder=True)
首次執行會出現很多日誌,看起來像是出錯了,這個不用管!等待底部進度條不動了,就證明已經執行完成。
修改語音內容
texts = ["So we found being competitive and collaborative was a huge way of staying motivated towards our goals, so one person to call when you fall off, one person who gets you back on then one person to actually do the activity with.",]*3 \
只要修改這裡的列表內容就可以了。這裡總共有六段語音,前三段是重複的英語,後三段是重複的中文。
播放語音
Audio(wavs[0], rate=24_000, autoplay=True)
執行這兩行命令,就會自動播放語音了。第一個命令播放列表裡的第一段語音,第二個命令播放列表裡的第四段語音。
自定義引數
params_infer_code = {'spk_emb' : rand_spk, 'temperature':.3} params_refine_text = {'prompt':'[oral_2][laugh_0][break_6]'} wav = chat.infer('四川美食可多了,有麻辣火鍋、宮保雞丁、麻婆豆腐、擔擔麵、回鍋肉、夫妻肺片等,每樣都讓人垂涎三尺。', params_refine_text=params_refine_text, params_infer_code=params_infer_code) wav = chat.infer('四川美食確實以辣聞名,但也有不辣的選擇。比如甜水麵、賴湯圓、蛋烘糕、葉兒粑等,這些小吃口味溫和,甜而不膩,也很受歡迎。', params_refine_text=params_refine_text, params_infer_code=params_infer_code)
透過params_infer_code和params_refine_text可以自定義引數,這裡包
括聲音的設定,斷句,笑聲等的自動插入。
注意點
程式碼和依賴更新之後,可能安裝過程會有差異。
torch2.0.1版本會報錯,我改成了目前最新的2.3.0版本。
inter.ipynb檔案已經變成了example.ipynb檔案。
Windows上安裝的核心配置都在上面了,下面說下一鍵執行包。
一鍵執行包
一鍵執行包,遵循 ALL IN PC的原則。
就是所有的東西都在一個包裡,無需聯網,無需單獨配置,在個人電腦中,可以一鍵啟動,快速使用。
為了讓大家使用更加方便,一件包不需要執行程式碼塊,而是會用WEBUI。
獲取壓縮包後,輸入解壓密碼解壓,然後雙擊“啟動.exe”啟動程式。
啟動之後,跳出黑色命令視窗。
這個視窗上會顯示執行日誌。
當出現,Runing on local URL:xxxx之後,代表啟動成功。
程式會自動呼叫本地預設瀏覽器,開啟本地的指定網址。
然後按下圖的步驟,點一下就可以完成AI語音生成了。
-
輸入想要合成的文字內容
-
點選合成
-
線上試聽合成效果
-
點選下載到本地
介面上還有一些引數,一般不用動,懂得可以根據自己需求,做適當調整。
這個UI還有很大升級空間,比如目前只有一個聲音,比較合理的是,多個發音人可選。
這種就慢慢搞了,今天先這樣。
收工收工,大家記得動動手指!
獲取軟體包
見部落格文章底部:ChatTTS:Win11本地安裝和一鍵執行包! – 託尼不是塔克