SACC 2017:網際網路大廠語音識別如何?

趙鈺瑩發表於2018-05-07

  時光荏苒,轉眼間SACC已經是第9個年頭了,我們透過近十年的努力,逐漸成長為了技術人的饕餮盛宴!今年,雲已成為萬物智慧的數字化大腦,人工智慧方興未艾,語音識別也隨著這波浪潮成為了市場寵兒,佈局了這麼久,各大廠的語音識別做的咋樣呢?

  先聲教育秦龍:人工智慧助力新時代K12教育

  在人工智慧領域從業十餘年,秦龍對人工智慧在教育領域的應用有著自己獨特的心得。解決痛點是大多數技術研發的初衷,先聲教育正是抓準了教育領域的痛點,以期透過人工智慧的方式來解決。

SACC2017:網際網路大廠語音識別如何?

  先聲教育透過語音識別(LSTM)提取特徵、語音測評(LR、SVM、NN)估計打分和實時精準反饋三步實現了智慧口語測評;透過特徵—Word embedding,模型—Convolutional Layer + LSTM + Linear Layer with Sigmoid activation和語法檢錯—Rule-based, classifier-based, MT-based methods實現智慧寫作批改,秦龍表示,由於人為打分會受到很多主觀因素的影響,所以智慧打分系統的準確程度要更高一些。但秦龍強調,雖然對話機器人、自適應學習漸漸成為主流,但AI並不是未來智慧教育的全部,AI與老師的結合才是智慧教育的未來。

  搜狗陳偉:搜狗智慧語音之路

  從移動網際網路時代邁向智慧時代,從輸入法到搜尋再到知音OS,搜狗的技術研發從未掉隊。所有人都在追求人工智慧的時代,陳偉表示,語言才是人工智慧的核心,包括語音聽寫—ASR,語音翻譯—ASR+MT +TTS,語音互動—ASR+NLU+TTS。

SACC2017:網際網路大廠語音識別如何?

  搜狗的語音互動產品也在不斷演進,針對剛需場景提供更自然的互動體驗。目前,搜狗語音識別準確率已達97%,這遠遠超過了眾多大廠。據陳偉介紹,搜狗語音深度學習的規模經歷了從500小時到數萬小時,從單卡3TFlops到大於1PFlops的演進,目前的深度學習演算法應用了DNN、CNN、LSTM和Seq2Seq,整個深度學習平臺如下所示:

SACC2017:網際網路大廠語音識別如何?

  思必馳張順:可定製開發的語音互動技術

  PC時代,人類透過命令列與電腦交流;移動時代,圖形互動成為主流;iOT時代,眾多大廠紛紛加入語音互動的浪潮。

SACC2017:網際網路大廠語音識別如何?

  張順以《可定製開發的語音互動技術— DUI的全鏈路定製探索之路》為主題,從語音互動的探索經歷、DUI的可定製的語音互動以及問題與思考三個方向分享了思必馳在語音互動技術研發一路走來的實踐經驗。

  Siri剛出現時,似乎並沒有成為生活的剛需。同時,研發難度大,基於SDK/API自己實現需要了解語音對話相關知識,自己開發,這就讓很多人打了退堂鼓。這部分人當然不包括思必馳,思必馳透過對語音互動的持續探索,發掘了語音互動的剛需場景,比如車載、家居和等。該階段的特點是完整的互動系統整合簡單,但定製能力不足,出現了一些語音系統方案商。接下來,思必馳開始思考如何對Skill開發者更簡單,最好實現可自助式定製開發。DUI的可定製語音互動就在這種情況下誕生了。

  經過了多年打磨,思必馳通用模型識別率在97%以上,提出了VDCNN模型, 在Aurora4噪音測試集上的識別效能達到了7.09%詞錯誤率, 效能相對提高10%,CTC模型, 降低80%搜尋空間, 識別速度提高了7倍以上.......未來,思必馳將逐個解決語音互動領域的痛點,也希望可以和眾多開發者一起成長!

  滴滴研究院李秀林:智慧互動,美好出行

  滴滴一下,讓出行更美好!不知道從什麼時候開始,這句標語充斥了大街小巷,成為了人人熟知的一句話。作為今年全球獨角獸榜單的第二名,滴滴對技術的追求從不曾止步。李秀林表示,短短几年,滴滴已經從最初的只提供叫車服務演進為一站式的移動應用平臺。目前,滴滴每日新增軌跡資料達70TB+,每日處理資料達4500TB+,路徑規劃請求達200億餘次,日均定位資料多達150億次。

SACC2017:網際網路大廠語音識別如何?

       在海量資料的支援下,滴滴形成了資料-技術-產品的持續迭代;以SDK、線上服務等形式,對接業務線;與業務深度合作,共同探索核心技術的應用模式滴滴。滴滴本著安全第一,體驗第二,效率第三的原則,先後上線了眾多功能,比如安全層面的語音播報、語音操縱、聲紋認證;使用者體驗側的語音叫車、基於神經網路的高精度電話語音識別技術,基於深度學習的自然語言處理技術,融合電話資料處理和IM資料處理的多模態框架等。整體架構如下所示:

SACC2017:網際網路大廠語音識別如何?

  李秀林透露,未來,滴滴將以智慧互動,讓出行更安全、司乘體驗更好、運營更高效為目標,讓出行更美好!

  阿里人工智慧實驗室王天舟:語音識別技術回顧及應用

  王天舟首先從“人是如何理解語音的?”切入,將神經網路技術與人腦對語音的反應進行類比,對機器人自動值守訓練、語音識別相關應用等進行了介紹。

SACC2017:網際網路大廠語音識別如何?

  從有趣到實用,現在的語音識別已經從單純的娛樂轉向了教育、智慧家居控制、外賣充值購物、百科查詢等領域。阿里推出的天貓精靈從計算、演算法和資料三個層面都進行了相當大的最佳化。計算層面,FPGA 雲端硬體定製化邏輯電路加速,前端雲端聯合最佳化;演算法方面,全球領先的語言特徵表達,KDD收錄全球首創的混合神經網路,conv-RNN 的通用推理混合框架,深度最佳化的強化學習策略,個性化產生對話策略等;資料層面,AliGenie 認識的實體超過1 億+,中文語言標註標準CTB等。

SACC2017:網際網路大廠語音識別如何?
▲更多資訊盡在IT168現場報導專題  http://sacc.it168.com/topic2017/

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31077337/viewspace-2153944/,如需轉載,請註明出處,否則將追究法律責任。

相關文章