VoiceCraft: 文字生成任何人的語音技術

VoiceCraft 能夠複製或克隆或甚至編輯你從未聽過的語音。

它是一種token填充神經編解碼語言模型，在有聲讀物、網路影片和播客等野生資料的語音編輯和零鏡頭文字到語音（TTS）方面都達到了最先進的效能。

VoiceCraft 採用 Transformer 解碼器架構，並引入了令牌重排過程，該過程結合了因果遮蔽和延遲堆疊，以實現在現有序列中生成。

在語音編輯任務中，VoiceCraft 生成的經過編輯的語音在自然度方面與未經編輯的錄音幾乎沒有區別（經人類評估）；
對於零樣本 TTS，我們的模型優於之前的 SotA 模型，包括 VALL-E 和流行的商業模型 XTTS v2。

至關重要的是，這些模型是在具有挑戰性和現實的野生資料集上進行訓練的，這些野生資料集包括不同的口音、說話風格、錄音條件以及背景噪音和音樂，並且與其他模型和真實錄音相比，我們的模型始終表現良好。

能夠複製或克隆或甚至編輯你從未聽過的語音，VoiceCraft 只需幾秒鐘的參考時間。

更多案例演示參考這裡，論文

訓練
為了訓練VoiceCraft模型，您需要準備以下部分：

話語及其文字記錄
使用例如 Encodec 將話語編碼為程式碼
將轉錄文字轉換為音素序列和音素集（我們將其命名為 vocab.txt）
清單（即後設資料）

環境設定

conda create -n voicecraft python=3.9.16
conda activate voicecraft

pip install torch==2.0.1 # this assumes your system is compatible with CUDA 11.7, otherwise checkout https://pytorch.org/get-started/previous-versions/v201
apt-get install ffmpeg # if you don't already have ffmpeg installed
pip install -e git+https://github.com/facebookresearch/audiocraft.git@c5157b5bf14bf83449c17ea1eeb66c19fb4bc7f0egg=audiocraft
apt-get install espeak-ng # backend for the phonemizer installed below
pip install tensorboard==2.16.2
pip install phonemizer==3.2.1
pip install torchaudio==2.0.2
pip install datasets==2.16.0
pip install torchmetrics==0.11.1
# install MFA for getting forced-alignment, this could take a few minutes
conda install -c conda-forge montreal-forced-aligner=2.2.17 openfst=1.8.2 kaldi=5.5.1068
# conda install pocl # above gives an warning for installing pocl, not sure if really need this

# to run ipynb
conda install -n voicecraft ipykernel --update-deps --force-reinstall

執行示例：

conda activate voicecraft
export CUDA_VISIBLE_DEVICES=0
cd ./data
python phonemize_encodec_encode_hf.py \
--dataset_size xs \
--download_to path/to/store_huggingface_downloads \
--save_dir path/to/store_extracted_codes_and_phonemes \
--encodec_model_path path/to/encodec_model \
--mega_batch_size 120 \
--batch_size 32 \
--max_len 30000

網友討論：

網友生成了川普的一段聲音，聽起來就像川普談論愛潑斯坦島的那段老喜劇影片。
3080 上的 8 秒太瘋狂了

VoiceCraft: 文字生成任何人的語音技術

相關文章