1400小時開源語音資料集,你想要都在這兒
整理 | 一一
出品 | AI科技大本營(ID:rgznai100)
3 月 1 日,由 Mozilla 基金會發起的 Common Voice 專案,釋出新版語音識別資料集,包括來自 42000 名貢獻者,超過 1400 小時的語音樣本資料,涵蓋包括英語、法語、德語、荷蘭語、漢語在內的 18 種語言。
(資料集連結:https://voice.mozilla.org/zh-CN/datasets)
Common Voice 專案可以整合到由 DeepSpeech,也就是基於 DeepSpeech 語音識別框架的一套語音轉文字的開源語音識別引擎。它不僅包括語音片段,還包括對訓練語音引擎有用的後設資料,如說話者的年齡、性別和口音,收集這些語音片段需要做大量的工作。目前 DeepSpeech 專案已在GitHub上獲得了 9418 個 Star,1674 個 fork。
(GitHub 傳送門:https://github.com/mozilla/DeepSpeech)
它目前是同類專案中最大的多語言資料集之一,Mozilla 聲稱,此次釋出的資料集比八個月前公開發布的 Common Voice 語料庫要更加龐大,其中包含來自 20,000 名英語志願者的 500 小時語音資料(400,000 條錄音),而且語料庫還將進一步擴充。該基金會表示,通過 Common Voice 網站和移動應用,他們正在積極開展 70 種語言的資料收集工作。
2017 年 6 月,Mozilla 宣佈推出 Project Common Voice 眾包計劃,旨在為語音識別應用構建開源資料集。他們邀請來自世界各地的志願者通過網路和移動應用貢獻語音記錄的文字片段,當然,他們會非常嚴格地保護專案貢獻者的隱私。
2017 年 11 月,Mozilla 基金會發布了第一批 Common Voice 英語資料整合果,該資料集包括大約 500 個小時的語音資料,以及來自 20,000 個志願者貢獻的 400,000 條錄音。2018 年 6 月,Mozilla 開始收集法語、德語和威爾士語等 40 多種語種的眾包語音資料。
為了簡化流程,Mozilla 本週還推出了一款改進的 Common Voice web 工具,其可以對不同的語音剪輯進行更改,還增加了用於檢視、重新錄製和跳過剪輯的新控制元件,一個可以快速切換儀表板的“說話”和“收聽”模式的開關,以及選擇退出語音會話的選項。此外,它正在推出新的配置檔案功能,允許使用者跨語言跟蹤他們的語言進度和指標,並新增人口統計資訊。
未來幾個月裡,Mozilla 表示將嘗試不同的方法來增加資料收集的數量,提升資料質量,並且最終計劃使用部分錄音資料來開發語音產品。
語音技術將是一大科技技術革新,但可惜的是,目前操縱這場革新遊戲的只有大型科技公司。
首先,科技巨頭一般都來自科技強國,而用於訓練機器的語音資料目前更偏向於英語、中文等一些特定的語言,在多樣性方面,顯然這並不適合全人類。
其次,像亞馬遜、谷歌、蘋果這樣的科技巨頭正在大力投資他們的智慧助手,但由此產生的資料集並不對外開放,而像學生、創業公司和對構建語音裝置感興趣的人只能訪問非常有限的資料集,而且可能還需要付費購買。
基於此,Mozilla 基金會認為,沒有足夠的資料開放給公眾使用,將會扼殺科技創新,開放語音資料集則可以讓更多人蔘與進來,讓任何人都可以自由地使用該資料集,將語音技術嵌入到各種應用和服務中。這類似於 OpenStreetMap 這樣的開放眾包專案,該專案為開發人員提供開放且可自由使用的世界地圖。
在新的資料集釋出後,外國網友們也對此進行了評價:
看到開放資料領域的創新真是太好了。最近有許多斷言認為,質量更高的 ML 資料將要比 ML 演算法更重要,這麼說是對的,特別是在語音識別等領域。然而,要趕上科技巨頭還有很長的路要走。因為在 15 年前,就有公司每年會處理 100 萬分鐘的標籤語音資料。
除非我們在這方面進行投資,否則老牌企業和新進入這個市場的企業之間的資料差距將繼續擴大。
另有網友花了時間驗證了一些語音,他在評論中表達了質疑稱:
至少在我能聽出來的範圍內,我沒有聽到任何句子說錯了。不過,我確實遇到了大量非常糟糕的樣本,以至於有些難以理解。比如口音重、有背景噪音或者非常安靜,而且他覺得一些“機械的”樣本是通過文字轉語音軟體生成的。所以 Common Voice 能提供優質資料嗎?
還有網友拿開源資料集 LibriSpeech 做了對比:
ASR 訓練的有聲讀物是絕對不錯的。事實上,在 Common Voice 之前,最大的 ASR 公開訓練資料集是 LibriSpeech (http://www.openslr.org/12/)。同樣值得注意的是,Mozilla 的 DeepSpeech 模型的第一個版本使用 LibriSpeech 進行了訓練和測試。但是正如其他人提到的由於一些資料集不夠好,由 Common Voice 的資料集訓練的有聲讀物存在一些瑕疵。
但是 Common Voice 的目標不是取代 LibreSpeech 或其他開放資料集(如 TED 演講)作為訓練資料集,而是它們的有益補充。
總之,相較於目前已開源的其他語音資料集型別單一,資料量不足,資料雜亂的情況,雖然而 Common Voice 的資料集有不足,但在綜合多樣性、豐富性和質量方面都遙遙領先。它有望被全世界更大範圍內的開發者們所關注並受益,也將為語音技術的發展帶來不可估量的價值。
連結:
https://blog.mozilla.org/blog/2019/02/28/sharing-our-common-voices-mozilla-releases-the-largest-to-date-public-domain-transcribed-voice-dataset/
(本文為AI科技大本營整理文章,轉載請微信聯絡 1092722531)
群招募
掃碼新增小助手微信,回覆:公司+研究方向(學校+研究方向),邀你加入技術交流群。技術群稽核較嚴,敬請諒解。
推薦閱讀:
點選“閱讀原文”,檢視歷史精彩文章。
相關文章
- 這是一份非常全面的開源資料集,你,真的不想要嗎?
- 小程式開發框架資源集合,你想要的元件化開發小程式的框架都在這裡了。。。框架元件化
- 【Spring】IOC容器註解彙總,你想要的都在這兒了!!Spring
- 關於Flutter你要知道的可能都在這兒Flutter
- 【Java新特性】Lambda表示式典型案例,你想要的的都在這兒了!!Java
- Nice!JavaScript基礎語法知識都在這兒了JavaScript
- 你要的介面資料都在這裡了
- 前端開發面試題——HTML篇(你想要的,都在這裡)前端面試題HTML
- 【Java8新特性】冰河帶你看盡Java8新特性,你想要的都在這兒了!!(文字有福利)Java
- 想要流暢體驗 TDengine 3.0 資料訂閱功能?要點都在這裡
- 清華、北大、浙大的計算機課程資源集都在這裡了計算機
- 資源 | Hinton、LeCun、吳恩達......不容錯過的15大機器學習課程都在這兒了LeCun吳恩達機器學習
- 2018年最強幹貨!年薪80萬+的大資料開發【教程】都在這兒!大資料
- 【Java8新特性】Lambda表示式基礎語法,都在這兒了!!Java
- 影像處理開源資料集
- 深度瞭解語音識別之發音詞典及語音資料採集標註
- pytorch載入語音類自定義資料集PyTorch
- 首次公開課語音同步直播——2小時《大資料視覺化》課程免費聽大資料視覺化
- 有這5款開源軟體,語音轉文字很簡單!
- 語音識別開源專案
- WinJS 開源和 TypeScript?這事兒有模板JSTypeScript
- 訊息語音播報,微信語音自動播放,有點兒意思,可以看看這個應用
- Cloutflare:TLS 1.3解讀 你想了解的都在這兒TLS
- 面試官:小夥子,夠了夠了,一個工廠模式你都在這說半個小時了!面試模式
- 資源 | 25個深度學習開源資料集,have fun !深度學習
- 快來,你想要的koa知識幾乎都在這裡了!
- 想要做好資料視覺化?你需要關注這三個問題!視覺化
- 10天100小時學資料科學,我推薦你這樣學!資料科學
- iPhone X Plus的傳聞最全彙總 都在這兒了iPhone
- 這兒有一個資料連線,大家看這兒有哪些問題
- 時序資料庫TDengine的叢集使用經驗分享,附上開源版本資料庫
- 你所不知道的阿里開源那些事兒阿里
- iOS開發資源彙總肯定有你想要的資源(Continuouslyupdated)iOS
- 這些開源CMS,你敢用嗎?
- [英語流利說]管理資料採集需求~在英語流利說,我們這樣管理資料採集需求...
- 計算機視覺學習之路------你想要的都在這裡了計算機視覺
- 你想要知道的Python日期格式化知識都在這!Python
- 蘋果OpenELM:開源小語言模型蘋果模型