OpenAI 釋出新語音系統「Whisper 」,英文識別能力可接近人類水平
9月21日,OpenAI 釋出了一個名為「Whisper 」的神經網路,聲稱其在英語語音識別方面已接近人類水平的魯棒性和準確性。
「Whisper 」式一個自動語音識別(ASR)系統,研究團隊透過使用從網路上收集的68萬個小時多語音和多工監督資料,來對其進行訓練。
訓練過程中研究團隊發現,使用如此龐大且多樣化的資料集可以提高對口音、背景噪音和技術語言的魯棒性。
此前有不同研究表明,雖然無監督預訓練可以顯著提高音訊編碼器的質量,但由於缺乏同等高質量的預訓練解碼器,以及特定於資料集中的微調協議,因此在一定程度上限制了模型的有效性和魯棒性;而在部分有監督的方式預訓練語音識別系統中,其表現會比單一源訓練的模型呈現出更高的魯棒性。
對此,在「Whisper 」中,OpenAI 在新資料集比現有高質量資料集總和大幾倍的基礎上,將弱監督語音識別的數量級擴充套件至68萬小時;同時,研究團隊還演示了在這種規模下,所訓練模型在轉移現有資料集的零射擊表現,可消除任何特定於資料集微調的影響,以實現高質量結果。
在許多不同的語音處理任務中訓練一個序列到序列的轉換器模型,包括多語言語音識別、語音翻譯、口頭語言識別和語音活動檢測;所有任務都表示為要由解碼器預測的標記序列,允許單一模型取代傳統語音處理管道的不同階段;多工訓練格式使用一組特殊的標記,作為任務指定者或分類目標。
圖注:Whisper 架構
值得一提的是,由於「Whisper 」是在一個龐大且多樣的資料集上進行,沒有針對任何特定的資料集進行微調,因此它不會擊敗專門研究 LibriSpeech 效能的模型。
此外研究團隊還發現,當在許多不同的資料集上測量「Whisper 」的零樣本效能時,「Whisper 」相比其他模型表現更加穩健,錯誤率降低了 50%。
除了足夠大的資料集規模外,「Whisper 」還支援多種語言的轉錄,以及將這些語言翻譯成英語。
「Whisper 」會交替執行以原始語言轉錄或翻譯成英語的任務,對此研究團隊發現,這種方法在學習語音到文字的翻譯方面特別有效,並且優於 CoVoST2 到英語翻譯零樣本的監督 SOTA。
目前,「Whisper 」已開源,可用於對語音識別方面的進一步研究。
前特斯拉人工智慧和自動駕駛部門負責人 Andrej Karpathy 也轉發了這一訊息稱“OpenAI 正處於最好的狀態中”。
但對使用 Whisper 上,有不少使用者也還存在疑慮。
本文轉載於公眾號:BFT機器人,更多機器人資訊請關注。
BFT白芙堂機器人是一站式機器人工業網際網路平臺,能為客戶提供一站式機器人系統採購,包括協作機器人、工業機器人、移動機器人、服務機器人、3D機器視覺產品、工業相機、鏡頭、3D印表機等產品,也為客戶提供演算法及系統定製、職校教學、K12教育及科研實驗室平臺、機器人展廳,線上機械機加工等服務。透過BFT平臺,客戶可以快速找到合適的機器人本體、夾具及相關應用等產品和服務。目前,BFT機器人已與大量國內外機器人知名公司建立戰略合作或代理關係。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70019748/viewspace-2915905/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 如何識別人的技術能力和水平?
- 語音識別進入IVR系統 (轉)VR
- 谷歌再獲語音識別新進展:利用序列轉導來實現多人語音識別和說話人分類谷歌
- Windows10系統如何禁用語音識別功能Windows
- Win10系統如何關閉語音識別Win10
- PocketSphinx語音識別系統的安裝和使用
- 5 款不錯的開源語音識別/語音文字轉換系統
- 語音識別--kaldi環境搭建(基於Ubuntu系統)Ubuntu
- Win10系統如何啟動語音識別 win10啟動語音識別的兩種方法Win10
- 谷歌釋出TTS新系統Tacotron 2:直接從文字生成類人語音谷歌TTS
- 語音識別CTC演算法原理解釋演算法
- Win7系統怎麼開啟語音識別功能Win7
- 你的英語不行!微軟亞研自動語法糾錯系統達到人類水平微軟
- Kaldi搭建語音識別系統—發音詞典相關檔案準備
- JavaScript的語音識別JavaScript
- 語音識別技術
- 極速進化,光速轉錄,C++版本人工智慧實時語音轉文字(字幕/語音識別)Whisper.cpp實踐C++人工智慧
- 人臉識別智慧考勤系統開發_人臉識別考勤管理系統開發
- 語音識別技術與政務資訊系統結合
- 新型語音協處理器提升快速精確語言識別及處理能力
- 谷歌開放語音識別API 釋出機器學習雲平臺谷歌API機器學習
- 樹莓派語音互動--語音輸入識別樹莓派
- win10系統下語音識別打不開的解決方法Win10
- 公子小白機器人釋出:聲音識別國內最強機器人
- 智慧人臉識別門禁系統開發,人臉識別開鎖流程
- 人工智慧 (08) 語音識別人工智慧
- Swift-語音識別、翻譯Swift
- 語音識別----音高的處理
- 語音識別開源專案
- 語音識別方向的資料
- 霍尼韋爾推出新家用安防系統 可接受語音命令
- win10系統如何通過qq語音讓別人聽到電腦放歌的聲音Win10
- win10系統如何透過qq語音讓別人聽到電腦放歌的聲音Win10
- 升級win10系統後QQ語音別人聽不到我的聲音怎麼辦Win10
- 基於深度學習的人臉識別系統系列(Caffe+OpenCV+Dlib)——【六】設計人臉識別的識別類深度學習OpenCV
- Facebook開源端到端自動語音識別系統wav2letter
- win10系統語音聲音小怎麼設定 win10系統語音聲音特別小處理方法Win10
- 低延遲流式語音識別技術在人機語音互動場景中的實踐