資料庫開源 | 200人中英文混說資料庫開放申請

量子位發表於2018-04-18

各位語音識別領域的攻城獅小夥伴們,福利來啦!

量子位將與衝浪科技共同開放開源資料庫:200人中英文混說資料庫衝浪科技為本次資料提供方。此外,我們還將共同打造一個語音識別技術社群,邀請語音領域的研究者進入,為大家打造一個技術交流平臺。進入社群的同學,在下次資料開源時可優先申請。

資料集詳細資訊

採集語言:中英文混讀
總人數:200人(約120小時)
發音人:中國人, 口音涵蓋中國主要方言區
性別比例:男女各50%
錄製規格:16,000Hz, 16bit, mono, 無壓縮wav
採集裝置:Android和iOS各50%, 涵蓋主流手機
採集時間:2017年
採集單位:衝浪科技
市場參考價格:100000人民幣

開放人群

參加物件:高校學生、老師及非盈利科研機構研究人員

資料使用:資料僅供科研使用嚴禁外傳,當研究成果進行公開發表時若使用到本資料庫應將在文章內引用“ST-CMSD”、“衝浪科技中文普通話語音資料庫”或“SurfingTech Chinese Mandarin Speech Dataset”,具體引用位置將在資料發放時一併告知。

如何申請

量子位公眾號(QbitAI)介面回覆“中英混說資料”,即可領取報名表單。

領取資料的具體流程如下:

1、回覆“中英混說資料”,領取表單填寫相關資訊;

2、報名通過我們會傳送確認郵件,並邀請進入語音識別技術社群;

3、申請者確認後傳送協議及協議填寫說明;

4、收到協議之後傳送下載連結給各位申請者。

一些重要的補充說明

資訊說明:要免費領取本次開源的資料,需要各單位提供以下資訊:單位名稱及相關資訊、單位負責人聯絡方式等,待稽核完畢及完成相關檔案簽署後統一發放。

資料使用:資料僅供科研使用嚴禁外傳,當研究成果進行公開發表時若使用到本資料庫應將在文章內引用“ST-CMSD”、“衝浪科技中文普通話語音資料庫”或“SurfingTech Chinese Mandarin Speech Dataset”,具體引用位置將在資料發放時一併告知。

資料發放:經稽核通過後,資料將通過線上發放;下載困難的申請單位可申請線下發放,但需自行承擔儲存裝置及物流費用。

注意事項:各位申請人請儘量使用聯通網路下載,而不是校園網路下載,這樣下載速度最快。

備註:衝浪科技已經發現少量文字標註不準確。如果大家在使用時發現更多文字標註不準確的地方也請及時告知,衝浪科技正在對所有資料繼續校對,後續會定期給大家更新標註文字。

如果始終存在資料下載困難,死活也無法下載的小夥伴,可能是折翼的天使,那麼可以自費寄給我們一個硬碟,我們負責幫忙拷貝;或者提供硬碟的費用,我們幫忙京東上購買,拷貝。總之,不能讓大家拿不到資料就對了。

以上,祝各位使用愉快~

介紹一下資料提供方

640?wx_fmt=png

衝浪科技

北京衝浪科技有限公司為本次開源資料提供方,成立於2017年初,創始團隊均來自國內外頂尖高校和知名人工智慧公司,聘請Andreas Geiger作為首席科學家,力求在自動駕駛汽車、人臉識別、語音識別領域內開發高質量的人工智慧訓練資料集。

作為全球最大的人工智慧資源開放平臺,衝浪科技樂意分享每一個有價值的資料集,以提高全球人工智慧基礎能力。

640?wx_fmt=png

量子位

量子位是國內領先的專業人工智慧垂直媒體,全網使用者超過50萬。報導方向覆蓋新聞資訊和技術發展趨勢,為人工智慧從業者和愛好者持續輸出高質量內容,為普通大眾提供看得懂的AI資訊。線上打造萬人AI社群,不定期舉辦AI技術分享、論文解讀、行業熱點討論等多項活動。

活動報名

640?wx_fmt=jpeg

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。

640?wx_fmt=jpeg

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態


相關文章