1400小時開源語音資料集,你想要都在這兒

AI科技大本營發表於2019-03-01

640?wx_fmt=jpeg


整理 | 一一

出品 | AI科技大本營(ID:rgznai100)


3 月 1 日,由 Mozilla 基金會發起的 Common Voice 專案,釋出新版語音識別資料集,包括來自 42000 名貢獻者,超過 1400 小時的語音樣本資料,涵蓋包括英語、法語、德語、荷蘭語、漢語在內的 18 種語言。


(資料集連結:https://voice.mozilla.org/zh-CN/datasets


Common Voice 專案可以整合到由 DeepSpeech,也就是基於 DeepSpeech 語音識別框架的一套語音轉文字的開源語音識別引擎。它不僅包括語音片段,還包括對訓練語音引擎有用的後設資料,如說話者的年齡、性別和口音,收集這些語音片段需要做大量的工作。目前 DeepSpeech 專案已在GitHub上獲得了 9418 個 Star,1674 個 fork。


(GitHub 傳送門:https://github.com/mozilla/DeepSpeech)


640?wx_fmt=png


它目前是同類專案中最大的多語言資料集之一,Mozilla 聲稱,此次釋出的資料集比八個月前公開發布的 Common Voice 語料庫要更加龐大,其中包含來自 20,000 名英語志願者的 500 小時語音資料(400,000 條錄音),而且語料庫還將進一步擴充。該基金會表示,通過 Common Voice 網站和移動應用,他們正在積極開展 70 種語言的資料收集工作。


640?wx_fmt=png


2017 年 6 月,Mozilla 宣佈推出 Project Common Voice 眾包計劃,旨在為語音識別應用構建開源資料集。他們邀請來自世界各地的志願者通過網路和移動應用貢獻語音記錄的文字片段,當然,他們會非常嚴格地保護專案貢獻者的隱私。


2017 年 11 月,Mozilla 基金會發布了第一批 Common Voice 英語資料整合果,該資料集包括大約 500 個小時的語音資料,以及來自 20,000 個志願者貢獻的 400,000 條錄音。2018 年 6 月,Mozilla 開始收集法語、德語和威爾士語等 40 多種語種的眾包語音資料。


為了簡化流程,Mozilla 本週還推出了一款改進的 Common Voice web 工具,其可以對不同的語音剪輯進行更改,還增加了用於檢視、重新錄製和跳過剪輯的新控制元件,一個可以快速切換儀表板的“說話”和“收聽”模式的開關,以及選擇退出語音會話的選項。此外,它正在推出新的配置檔案功能,允許使用者跨語言跟蹤他們的語言進度和指標,並新增人口統計資訊。


未來幾個月裡,Mozilla 表示將嘗試不同的方法來增加資料收集的數量,提升資料質量,並且最終計劃使用部分錄音資料來開發語音產品。


640?wx_fmt=png


語音技術將是一大科技技術革新,但可惜的是,目前操縱這場革新遊戲的只有大型科技公司。


首先,科技巨頭一般都來自科技強國,而用於訓練機器的語音資料目前更偏向於英語、中文等一些特定的語言,在多樣性方面,顯然這並不適合全人類。


其次,像亞馬遜、谷歌、蘋果這樣的科技巨頭正在大力投資他們的智慧助手,但由此產生的資料集並不對外開放,而像學生、創業公司和對構建語音裝置感興趣的人只能訪問非常有限的資料集,而且可能還需要付費購買。


基於此,Mozilla 基金會認為,沒有足夠的資料開放給公眾使用,將會扼殺科技創新,開放語音資料集則可以讓更多人蔘與進來,讓任何人都可以自由地使用該資料集,將語音技術嵌入到各種應用和服務中。這類似於 OpenStreetMap 這樣的開放眾包專案,該專案為開發人員提供開放且可自由使用的世界地圖。


在新的資料集釋出後,外國網友們也對此進行了評價:


看到開放資料領域的創新真是太好了。最近有許多斷言認為,質量更高的 ML 資料將要比 ML 演算法更重要,這麼說是對的,特別是在語音識別等領域。然而,要趕上科技巨頭還有很長的路要走。因為在 15 年前,就有公司每年會處理 100 萬分鐘的標籤語音資料。


除非我們在這方面進行投資,否則老牌企業和新進入這個市場的企業之間的資料差距將繼續擴大。


另有網友花了時間驗證了一些語音,他在評論中表達了質疑稱:


至少在我能聽出來的範圍內,我沒有聽到任何句子說錯了。不過,我確實遇到了大量非常糟糕的樣本,以至於有些難以理解。比如口音重、有背景噪音或者非常安靜,而且他覺得一些“機械的”樣本是通過文字轉語音軟體生成的。所以 Common Voice 能提供優質資料嗎?


還有網友拿開源資料集 LibriSpeech 做了對比:


ASR 訓練的有聲讀物是絕對不錯的。事實上,在 Common Voice 之前,最大的 ASR 公開訓練資料集是 LibriSpeech (http://www.openslr.org/12/)。同樣值得注意的是,Mozilla 的 DeepSpeech 模型的第一個版本使用 LibriSpeech 進行了訓練和測試。但是正如其他人提到的由於一些資料集不夠好,由 Common Voice 的資料集訓練的有聲讀物存在一些瑕疵。


但是 Common Voice 的目標不是取代 LibreSpeech 或其他開放資料集(如 TED 演講)作為訓練資料集,而是它們的有益補充。


總之,相較於目前已開源的其他語音資料集型別單一,資料量不足,資料雜亂的情況,雖然而 Common Voice 的資料集有不足,但在綜合多樣性、豐富性和質量方面都遙遙領先。它有望被全世界更大範圍內的開發者們所關注並受益,也將為語音技術的發展帶來不可估量的價值。


連結:

https://blog.mozilla.org/blog/2019/02/28/sharing-our-common-voices-mozilla-releases-the-largest-to-date-public-domain-transcribed-voice-dataset/


(本文為AI科技大本營整理文章,轉載請微信聯絡 1092722531)


群招募


掃碼新增小助手微信,回覆:公司+研究方向(學校+研究方向),邀你加入技術交流群。技術群稽核較嚴,敬請諒解。

640?wx_fmt=jpeg

推薦閱讀:

                         640?wx_fmt=png

點選“閱讀原文”,檢視歷史精彩文章。

相關文章