pyttsx3 and its alternatives

lightsong發表於2024-10-05

pyttsx3

https://github.com/nateshmbhat/pyttsx3

效果太差。

pyttsx3 is a text-to-speech conversion library in Python. Unlike alternative libraries, it works offline.

  • ✨Fully OFFLINE text to speech conversion
  • 🎈 Choose among different voices installed in your system
  • 🎛 Control speed/rate of speech
  • 🎚 Tweak Volume
  • 📀 Save the speech audio as a file
  • ❤️ Simple, powerful, & intuitive API

Linux installation requirements :

If you are on a linux system and if the voice output is not working , then :

Install espeak , ffmpeg and libespeak1 as shown below:

 sudo apt update && sudo apt install espeak ffmpeg libespeak1

Included TTS engines:

  • sapi5
  • nsss
  • espeak

推薦其他的引擎

當然可以推薦其他的語音引擎。如果對pyttsx3的語音引擎不滿意,以下是一些替代方案,它們提供了更高質量的語音合成服務:

  1. Google Text-to-Speech (gTTS)

    • 簡介:Google提供了一個強大的文字到語音轉換服務,可以透過gTTS庫在Python中使用。
    • 特點:支援多種語言和聲音效果,具有良好的語音質量。
    • 使用場景:適用於需要高質量語音合成的應用場景,如語音助手、語音導航等。
  2. Microsoft Azure Cognitive Services

    • 簡介:Azure提供了一系列的認知服務,其中包括語音服務。可以使用Azure的語音服務API來實現文字到語音的轉換。
    • 特點:支援多種語言和聲音效果,具有高質量的語音合成能力。
    • 使用場景:適用於企業級應用,特別是需要與Azure其他服務整合的場景。
  3. Baidu Text-to-Speech (Baidu TTS)

    • 簡介:百度提供了一個文字到語音的轉換服務,可以透過Baidu TTS庫在Python中使用。
    • 特點:支援多種語言和聲音效果,具有良好的語音質量和自然度。
    • 使用場景:適用於需要中文語音合成的應用場景,如中文語音助手、中文語音導航等。
  4. EmotiVoice

    • 簡介:EmotiVoice是一款來自GitHub的強大開源TTS引擎,完全免費,支援中英文雙語。
    • 特點:包含2000多種不同的音色,以及特色的情感合成功能,支援合成包含快樂、興奮、悲傷、憤怒等廣泛情感的語音。
    • 使用場景:適用於需要多角色、多語言和多種情緒語音合成的應用場景,如角色扮演遊戲、情感化語音助手等。
  5. ekho

    • 簡介:ekho是一個免費、開源的中文語音合成軟體,支援Linux、Windows和Android平臺。
    • 特點:支援粵語、普通話(國語)、詔安客語、藏語、雅言(中國古代通用語)和韓語(試驗中),英文則透過eSpeak或者Festival間接實現。
    • 使用場景:適用於需要在多個平臺上進行中文語音合成的應用場景。

在選擇替代方案時,建議根據具體需求和場景進行評估和決策。同時,也需要注意不同語音引擎的相容性、效能以及成本等因素。

當然,除了之前提到的語音引擎外,還有以下一些選項可供選擇:

  1. Amazon Polly
    • 簡介:Amazon Polly是亞馬遜雲提供的一項服務,可將文字轉換為逼真的語音。
    • 特點:支援多種語言和聲音(包括男聲和女聲),具有高質量的語音合成效果。
    • 使用場景:適用於需要高質量語音合成的企業級應用,特別是與亞馬遜雲其他服務整合的場景。
  2. IBM Watson Text to Speech
    • 簡介:IBM Watson Text to Speech是IBM Watson平臺提供的一項服務,可將文字轉換為自然流暢的語音。
    • 特點:支援多種語言和聲音,具有高度的自然度和可定製性。
    • 使用場景:適用於需要高質量、高度定製化的語音合成的企業級應用。
  3. 百度語音合成技術(Baidu Speech Synthesis)
    • 簡介:百度語音合成技術是百度AI開放平臺提供的一項服務,可將文字實時轉換為流暢的語音。
    • 特點:支援多種語言和聲音效果,具有高質量的語音合成能力和良好的自然度。
    • 使用場景:適用於需要中文語音合成的各種應用場景,如語音助手、語音導航、有聲閱讀等。
  4. 阿里雲語音合成(Alibaba Cloud Text to Speech)
    • 簡介:阿里雲語音合成是阿里雲提供的一項服務,可將文字轉換為語音,支援多種語言。
    • 特點:具有高質量的語音合成效果,支援多種聲音和語速調節。
    • 使用場景:適用於需要高質量語音合成的企業級應用,特別是與阿里雲其他服務整合的場景。
  5. 科大訊飛語音合成(iFLYTEK Text to Speech)
    • 簡介:科大訊飛是中國領先的智慧語音技術提供商,其語音合成技術具有高度的自然度和準確性。
    • 特點:支援多種語言和聲音效果,具有高質量的語音合成能力和豐富的定製選項。
    • 使用場景:適用於需要高質量中文語音合成的各種應用場景,如語音助手、語音導航、有聲閱讀等。

在選擇語音引擎時,建議根據具體需求、應用場景、預算以及相容性等因素進行綜合考慮。同時,也需要注意不同語音引擎的效能、自然度、聲音種類以及可定製性等方面的差異。

EmotiVoice 一分鐘完美克隆你的聲音!完全開源、多音色、多情感、可提示、可控制的文字生成語音工具

https://github.com/netease-youdao/EmotiVoice/tree/main

EmotiVoice is a powerful and modern open-source text-to-speech engine that is available to you at no cost. EmotiVoice speaks both English and Chinese, and with over 2000 different voices (refer to the List of Voices for details). The most prominent feature is emotional synthesis, allowing you to create speech with a wide range of emotions, including happy, excited, sad, angry and others.

An easy-to-use web interface is provided. There is also a scripting interface for batch generation of results.

https://zhuanlan.zhihu.com/p/678600601

https://zhuanlan.zhihu.com/p/669118264

VALL-E X: 多語言文字到語音合成與語音克隆

      VALL-E X 是一個強大而創新的多語言文字轉語音(TTS)模型,最初由微軟釋出。雖然微軟最初在他們的研究論文中提出了該概念,但並未釋出任何程式碼或預訓練模型。我們認識到了這項技術的潛力和價值,復現並訓練了一個開源可用的VALL-E X模型。

預訓練模型現已向公眾開放,供研究或應用使用

      ,讓每個人都能體驗到

次世代

TTS的威力。

      • 專案原始碼:
      • 線上體驗:
pyttsx3 and its alternatives

VALL-E X 配備有一系列尖端功能

    1. 多語言 TTS: 可使用三種語言 - 英語、中文和日語 - 進行自然、富有表現力的語音合成。
    2. 零樣本語音克隆: 僅需錄製任意說話人的短短的 3~10 秒錄音,VALL-E X 就能生成個性化、高質量的語音,完美還原他們的聲音
  1. 語音情感控制: VALL-E X 可以合成與給定說話人錄音相同情感的語音,為音訊增添更多表現力。
  2. 零樣本跨語言語音合成: VALL-E X 可以合成與給定說話人母語不同的另一種語言,在不影響口音和流利度的同時,保留該說話人的音色與情感。
  3. 口音控制: VALL-E X 允許您控制所合成音訊的口音,比如說中文帶英語口音或反之。
  4. 聲學環境保留: 當給定說話人的錄音在不同的聲學環境下錄製時,VALL-E X 可以保留該聲學環境,使合成語音聽起來更加自然。

GPT-SoVITS只需1分鐘語音即可訓練一個自己的TTS模型

https://github.com/RVC-Boss/GPT-SoVITS

GPT-SoVITS是一個聲音克隆和文字到語音轉換的開源 Python RAG框架。 5秒資料就能模仿你,1分鐘的聲音資料就能訓練出一個高質量的TTS模型

,完美克隆你的聲音! 根據演示來看完美適配中文,應該是目前中文支援比較好的模型。

pyttsx3 and its alternatives

介面也易用。主要特點:

1、零樣本 TTS: 輸入5 秒的聲音樣本即可體驗即時的文字到語音轉換。

2、少量樣本訓練: 只需 1 分鐘的訓練資料即可微調模型,提高聲音相似度和真實感。模仿出來的聲音會更加接近原聲,聽起來更自然。 跨語言支援: 支援與訓練資料集不同語言的推理,目前支援英語、日語和中文。

3、易於使用的介面:整合了聲音伴奏分離、自動訓練集分割、中文語音識別和文字標籤等工具,幫助初學者更容易地建立訓練資料集和 GPT/SoVITS 模型。

4、適用於不同作業系統: 專案可以在不同的作業系統上安裝和執行,包括 Windows。

5、預訓練模型: 專案提供了一些已經訓練好的模型,你可以直接下載使用。

coqui-ai/TTS

https://github.com/coqui-ai/TTS

Features

  • High-performance Deep Learning models for Text2Speech tasks.
    • Text2Spec models (Tacotron, Tacotron2, Glow-TTS, SpeedySpeech).
    • Speaker Encoder to compute speaker embeddings efficiently.
    • Vocoder models (MelGAN, Multiband-MelGAN, GAN-TTS, ParallelWaveGAN, WaveGrad, WaveRNN)
  • Fast and efficient model training.
  • Detailed training logs on the terminal and Tensorboard.
  • Support for Multi-speaker TTS.
  • Efficient, flexible, lightweight but feature complete Trainer API.
  • Released and ready-to-use models.
  • Tools to curate Text2Speech datasets underdataset_analysis.
  • Utilities to use and test your models.
  • Modular (but not too much) code base enabling easy implementation of new ideas.

相關文章