Python 文字轉語音

weixin_33782386發表於2017-10-07

文字轉語音,一般會用在無障礙開發。下面介紹如何使用Python實現將文字檔案轉換成語音輸出。


[toc]


準備

我測試使用的Python版本為2.7.10,如果你的版本是Python3.5的話,這裡就不太適合了。
在windows上進行測試的話,這裡有兩種可選的方式:

使用Speech API

原理

我們的想法是藉助微軟的語音介面,所以我們肯定是要進行<font color="red" size="5">呼叫</font> 相關的介面。所以我們需要安裝pywin32來幫助我們完成這一個底層的互動。

示例程式碼

import win32com.client
speaker = win32com.client.Dispatch("SAPI.SpVoice")
speaker.Speak("Hello, it works!")

小總結

是的,呼叫介面來實現語音功能就是這麼簡單,但是我們不得不來聊一聊這種方式的缺點。

  • 對中文支援的不夠好,僅僅是這一點,估計在中國沒幾個用它的了。

  • 還有就是語速不能很好的控制,詳細的API介紹可以參照這裡API參考

pyttsx方式

原理

pyttsx 是Python的一個關於文字轉語音方面的很不錯的庫。我們還可以藉助pyttsx來實現線上朗讀rfc檔案或者本地檔案等等,最為關鍵的是,它對中文支援的還是不錯的。

示例程式碼

# coding:utf-8
import sys

reload(sys)
sys.setdefaultencoding('utf8')
#    __author__ = '郭 璞'
#    __date__ = '2016/8/6'
#    __Desc__ = 文字轉語音輸出

import pyttsx
engine = pyttsx.init()
engine.say('hello world')
engine.say('你好,郭璞')
engine.runAndWait()
# 朗讀一次
engine.endLoop()

小總結

使用pyttsx,我們可以藉助其強大的API來實現我們基本的業務需求。很酷吧。

pyttsx深入研究

做完上面的小實驗,你肯定會覺得怎麼這麼不過癮呢?
別擔心,下面我們就一起走進pyttsx的世界,深入的研究一下其工作原理吧。

語音引擎工廠

類似於設計模式中的“工廠模式”,pyttsx通過初始化來獲取語音引擎。當我們第一次呼叫init操作的時候,會返回一個pyttsx的engine物件,再次呼叫的時候,如果存在engine物件例項,就會使用現有的,否則再重新建立一個。

pyttsx.init([driverName : string, debug : bool]) → pyttsx.Engine

從方法宣告上來看,第一個引數指定的是語音驅動的名稱,這個在底層適合作業系統密切相關的。如下:

  • drivename:由pyttsx.driver模組根據作業系統型別來呼叫,預設使用當前作業系統可以使用的最好的驅動

    • sapi5 - SAPI5 on Windows
    • nsss - NSSpeechSynthesizer on Mac OS X
    • espeak - eSpeak on every other platform
  • debug: 這第二個引數是指定要不要以除錯狀態輸出,建議開發階段設定為True

引擎介面

要想很好的運用一個庫,不瞭解其API是不行的。下面來看看pyttsx。engine.Engine的引擎API。

| 方法簽名| 引數列表 |返回值|簡單釋義|
|---|---|---|
|connect(topic : string, cb : callable)|topic:要描述的事件名稱;cb:回撥函式 |→ dict|在給定的topic上新增回撥通知|
|disconnect(token : dict)|token:回撥失聯的返回標記| Void| 結束連線|
|endLoop() |None|→ None|簡單來說就是結束事件迴圈|
|getProperty(name : string)|name有這些列舉值“rate, vioce,vioces,volumn| → object|獲取當前引擎例項的屬性值|
|setProperty(name : string)|name有這些列舉值“rate, vioce,vioces,volumn| → object|設定當前引擎例項的屬性值|
|say(text : unicode, name : string) | text:要進行朗讀的文字資料; name: 關聯發音人,一般用不到|→ None| 預設要朗讀的文字資料,這也是“萬事俱備,只欠東風”中的“萬事俱備”|
|runAndWait() |None|→ None|這個方法就是“東風”了。當事件佇列中事件全部清空的時候返回|
|startLoop([useDriverLoop : bool])|useDriverLoop:是否啟用驅動迴圈| → None| 開啟事件佇列|

後設資料音調

在pyttsx.voice.Voice中,處理合成器的發音。

  • age
    發音人的年齡,預設為None

  • gender
    以字串為型別的發音人性別: male, female, or neutral.預設為None

  • id
    關於Voice的字串確認資訊. 通過 pyttsx.engine.Engine.setPropertyValue()來設定活動發音簽名. 這個屬性總是被定義。

  • languages
    發音支援的語言列表,如果沒有,則為一個空的列表。

  • name
    發音人名稱,預設為None.

更多測試

朗讀文字

import pyttsx
engine = pyttsx.init()
engine.say('Sally sells seashells by the seashore.')
engine.say('The quick brown fox jumped over the lazy dog.')
engine.runAndWait()

事件監聽

import pyttsx
def onStart(name):
   print 'starting', name
def onWord(name, location, length):
   print 'word', name, location, length
def onEnd(name, completed):
   print 'finishing', name, completed
engine = pyttsx.init()
engine.say('The quick brown fox jumped over the lazy dog.')
engine.runAndWait()

打斷髮音

import pyttsx
def onWord(name, location, length):
   print 'word', name, location, length
   if location > 10:
      engine.stop()
engine = pyttsx.init()
engine.say('The quick brown fox jumped over the lazy dog.')
engine.runAndWait()

更換髮音人聲音

engine = pyttsx.init()
voices = engine.getProperty('voices')
for voice in voices:
   engine.setProperty('voice', voice.id)
   engine.say('The quick brown fox jumped over the lazy dog.')
engine.runAndWait()

語速控制

engine = pyttsx.init()
rate = engine.getProperty('rate')
engine.setProperty('rate', rate+50)
engine.say('The quick brown fox jumped over the lazy dog.')
engine.runAndWait()

音量控制

engine = pyttsx.init()
volume = engine.getProperty('volume')
engine.setProperty('volume', volume-0.25)
engine.say('The quick brown fox jumped over the lazy dog.')
engine.runAndWait()

執行一個事件驅動迴圈

engine = pyttsx.init()
def onStart(name):
   print 'starting', name
def onWord(name, location, length):
   print 'word', name, location, length
def onEnd(name, completed):
   print 'finishing', name, completed
   if name == 'fox':
      engine.say('What a lazy dog!', 'dog')
   elif name == 'dog':
      engine.endLoop()
engine = pyttsx.init()
engine.say('The quick brown fox jumped over the lazy dog.', 'fox')
engine.startLoop()

使用一個外部的驅動迴圈

engine = pyttsx.init()
engine.say('The quick brown fox jumped over the lazy dog.', 'fox')
engine.startLoop(False)
# engine.iterate() must be called inside externalLoop()
externalLoop()
engine.endLoop()

總結

看完了上面的講述,是不是感覺Python實現文字轉語音還是蠻簡單的?

那麼,快來嘗試嘗試吧。

相關文章