百度展現多終端一體“音入口”佈局能力

佚名發表於2016-06-25

  2016年6月23日,百度語音技術媒體溝通會在北京百度大廈召開,百度語音技術部總監高亮、高階經理劉洋、技術架構師謝延,及百度語音開放平臺高階產品經理何蕩向與會媒體及專家講解和演示了百度語音技術的最新進展。與此同時,小度機器人和搭載百度車聯網CarLife的2016款途勝亮相現場,展現了百度語音技術多終端一體“音入口”的未來佈局。未來的人機互動將更多透過聲音進行,任何終端都“一音進入”。

  

  百度語音技術:識別準確率達97%,請求量每天過億

  在語音技術最為核心的語音識別、語義解析、語音合成三種技術之中,百度語音不但在技術上處於業界領先地位,同時也是業界最為開放的免費語音技術服務供應商。目前,百度安靜環境下普通話語音識別準確率已達到97%,超過正常人的聽力水平;百度語音合成技術亦引入了深度學習技術,可根據大資料情感合成明星個性音;百度語義理解技術支援超過56個領域自定義適配。

  

  目前,使用百度語音的App數量8萬+,每天語音識別請求量1億+,每天語音合成請求量2.5億+。重量級行業使用者包括智慧手機領域的聯想、中興、魅族等;智慧家居領域的聯想、康佳、SONY等;汽車行業的特斯拉、比亞迪等;智慧裝置領域的惠普、三諾、艾米通訊等。

  超越蘋果與谷歌:百度語音技術國際領先

  會上,百度語音向眾多媒體代表展示了技術實力。在語音識別領域,不論是童聲發音或者是方言,百度語音均能準確識別,令人印象深刻;在語音合成領域,情感小說合成、明星語音、名人聲音均惟妙惟肖,令人嘖嘖稱奇。

  據瞭解,這些令人拍案叫絕的效果,源於百度語音的技術積累。2014年12月,百度稱語音識別技術取得重大突破,語音識別效果超過谷歌和蘋果。在嘈雜的背景中進行測試的結果顯示,百度的DeepSpeech語音識別技術DeepSpeech的錯誤率比谷歌語音API、wit.ai、微軟必應語音和蘋果Dictation低了10%。2015年11月,百度矽谷實驗室推出新一代深度語音識別系統(Deep Speech 2),被美國權威雜誌《麻省理工評論》列為2016年十大突破技術之一,也是唯一來自中國科技公司的科技成果。

  在語音合成技術上,百度已實現了業界領先的拼接合成和引數合成兩項技術的研發。拼接式合成,基於海量文字語料的自然語言理解技術和深度加工的專業發音庫,經過多層次的建模讓韻律表現更穩健又有表現力。而其智慧的彈性單元挑選策略,能從大規模錄音語料庫中找到所求。由於拼接合成所需資源較多,所以透過線上合成的方式提供服務。引數合成則來源於高質量聲學建模和模型壓縮技術,以及音質優良的聲碼器技術,在大大降低資源的同時,可以離線生成接近真人發聲的合成效果。

  開放兩項重要語音技術:未來任何終端將“一音進入”

  會上,百度語音宣佈進一步對外開放兩項重要語音技術,即喚醒技術與自定義語義技術。透過小度機器人和搭載百度車聯網CarLife系統的2016款途勝演示,與會者見證了百度語音合成和基於自然語言理解的強大互動能力。

  百度喚醒技術喚醒率達95%,支援自定義喚醒詞和連續表達,輕量級、易整合。不論使用者是透過語音說出“小度你好,請播放一首古典音樂”的指令,或者“小度你好,帶我去附近的加油站”的請求,都能得到迅速響應,除了應用於車聯網外,還可以廣泛應用於手機、電視等不同終端。而自定義語義功能,則開放了語義和語音的對映能力,能幫助眾多開發者和第三方廠商更快更準地提升識別率。

  提及百度免費開放兩項語音技術的意義,百度負責人表示,這些能力背後是百度的人工智慧和大資料能力支撐,是百度“智慧+”戰略的落地。正如李彥宏在2014年百度大會上預言的那樣,未來五年語音影像搜尋會超過文字。自2014年第二季度起,百度語音輸入增長4倍以上,輸出增長26倍以上。無論是Carlife、還是小度機器人,乃至應用到搜尋、外賣等領域的語音技術,都極大最佳化了產品體驗並方便了人們生活。可以相信,未來的人機互動將更多透過聲音這種人類最自然的交流形式進行。

  百度語音的願景是透過智慧語音讓萬物互聯。百度在業界首創完全永久免費新形式,為開發者提供基於百度大腦的業界頂級聲學模型和語音模型。基礎服務免費,永久使用。在百度開放喚醒和自定義語義技術後,百度將進一步推動語音互動的普及。在未來,任何終端都將“一音進入”。

相關文章