有這5款開源軟體,語音轉文字很簡單!

視學演算法發表於2020-04-06

來自:開源最前線(ID:OpenSourceTop) 

連結:https://fosspost.org/lists/open-source-speech-recognition-speech-to-text

語音文字轉換(STT)系統,一種能夠將語音單詞轉換成文字的方法,用途十分廣泛,比如我們經常在用的微信聊天中語音轉文字功能。

過去,語音轉文字技術由專有軟體和庫控制;開源替代方案不存在或存在極端侷限,如今這種形勢已經發生變化,今天你可以使用許多開源的語音轉文字工具和庫,今天,我們就舉5個好用的開源語音識別庫。

1、DeepSpeech專案

有這5款開源軟體,語音轉文字很簡單!

該專案由Mozilla開發,這是一個100%免費的開源語音轉文字庫,它使用了 TensorFlow 機器學習框架實現去功能。

你可以使用它自己構建訓練模型,以增強語音轉換到文字的效果,你還可以根據自己的需要引入其他語言,甚至可以輕鬆把它整合到TensorFlow上的其他機器學習專案中。唯一可惜的是,該專案目前預設情況下僅支援英語。

它也支援多種語言,例如Python(3.6)。執行十分簡單:

pip3安裝deepspeech
deepspeech --model模型/output_graph.pbmm --alphabet模型/alphabet.txt --lm模型/lm.binary --trie模型/ trie --audio my_audio_file.wav

你也可以使用npm安裝它:

npm安裝deepspeech

近日,DeepSpeech還登上Github Trending周榜:

有這5款開源軟體,語音轉文字很簡單!

Github地址:https://github.com/mozilla/DeepSpeech

2、Kaldi

有這5款開源軟體,語音轉文字很簡單!

Kaldi是用C++編寫的開源語音識別軟體,遵循Apache公共許可協議,支援Windows,macOS和Linux,2009年就已經發布了。

與其他語音識別軟體相比,Kaldi的主要功能是可擴充套件和模組化。社群提供了大量的第三方模組,Kaldi還支援深度神經網路,並在其網站上提供了完整的使用文件。

雖然程式碼主要是用C++編寫的,但是它通過 Bash 和 Python 指令碼進行了封裝。因此,如果你只是想實現基本的語音轉換成文字功能,那通過Python或Bash就可以輕鬆實現這一點。

專案主頁:http://kaldi-asr.org/

3、Julius

有這5款開源軟體,語音轉文字很簡單!

這可能是有史以來最古老的語音識別軟體之一;京都大學在1991年的時候開發的,然後於2005年將它移交給一個獨立的專案團隊。

Julius 的主要特點包括了執行實時 STT 的能力,低記憶體佔用(20000 單詞少於 64 MB),能夠輸出最優詞N-best word和詞圖Word-graph,能夠作為伺服器單元執行等等。這款軟體主要為學術和研究所設計。它是由C 語言寫成,並且可以執行在 Linux、Windows、macOS 甚至 Android(在智慧手機上)。

目前,它僅支援英語和日語,該軟體可能很容易安裝在Linux發行版的倉庫中。只需在軟體包管理器中搜尋julius包即可。

專案主頁:https://github.com/julius-speech/julius

4、Wav2Letter ++

有這5款開源軟體,語音轉文字很簡單!

Wav2Letter ++是一款開源語音識別軟體,在今年由Facebook的AI研究團隊釋出。該程式碼在BSD許可下發布。Facebook將其倉庫描述為“當下最快、最先進的語音識別系統”,預設情況下,構建此工具所基於的概念使其針對效能進行了優化,Wav2Letter ++是基於FlashLight構建,它也是Facebook最新的機器學習庫。

使用Wav2Letter ++,你首先需要為你自己想要的語言構建訓練模型,以便於訓練演算法,沒有任何一種語言(包括英語)的預訓練模型,它僅僅是個機器學習驅動的文字語音轉換工具,它用 C++ 寫成,因此被命名為 Wav2Letter++。

專案主頁:https://github.com/facebookresearch/wav2letter

5、DeepSpeech2

有這5款開源軟體,語音轉文字很簡單!

百度的研究人員也在研究自己的語音轉文字引擎DeepSpeech2。這是一個端到端的開源引擎,它使用“ PaddlePaddle”深度學習框架將英語和普通話的語音轉換為文字。該專案在BSD許可下發布。

該引擎可以針對任何模型和所需的任何語言進行培訓。模型不隨程式碼一起釋出;就像其他軟體一樣,你必須自己構建它們。DeepSpeech2的原始碼是用Python編寫的;因此,如果這是你使用的語言,你應該很快就能使用上手

專案地址:https://github.com/PaddlePaddle/DeepSpeech

語音識別類別主要還是由專有軟體巨頭(例如Google和IBM)來主導(它們確實為此提供了自己的閉源商業服務),但是開源替代方案是有希望的。這5個開源語音識別引擎讓你可以自己著手構建應用程式,不知道有沒有你用過的呢?

- END -

如果看到這裡,說明你喜歡這篇文章,請轉發、點贊掃描下方二維碼或者微信搜尋「perfect_iscas」,新增好友後即可獲得10套程式設計師全棧課程+1000套PPT和簡歷模板向我私聊「進群」二字即可進入高質量交流群。

送幾本書《Pytorch深度學習入門》《演算法交易員》等

有這5款開源軟體,語音轉文字很簡單!

掃描二維碼進群↓

有這5款開源軟體,語音轉文字很簡單!

有這5款開源軟體,語音轉文字很簡單!

有這5款開源軟體,語音轉文字很簡單!

在看 有這5款開源軟體,語音轉文字很簡單!

相關文章