從研發到落地,細數微軟與ROOBO這場AI合作!

趙鈺瑩發表於2018-05-24

  近日,微軟在自家人工智慧大會上宣佈的18項核心技術持續刷屏,不少人可能還沒從微軟Build 2018開發者大會的餘溫中緩過來,緊接著又陷入“18項核心技術”的研究。自擁抱開源以來,微軟變得越來越開放,無論是對開發者還是合作伙伴。一貫從不預先宣佈產品,但峰會的研究演示進行了一上午,期間穿插著多位合作伙伴的落地產品分享,ROOBO就是其中一位。

從研發到落地,細數微軟與ROOBO這場AI合作!

  微軟是一家平臺型和工具型企業,ROOBO是一家智慧硬體科技平臺類公司,二者合作恰好從研發到落地,對於微軟推出的語音識別等人工智慧技術,ROOBO打算如何用?除了智慧音響,語音互動技術是否有更好的落地場景?多人語音互動場景還有哪些問題需要解決?微軟是如何做的?

  從研發到落地,微軟與ROOBO聯手可以為市場帶來哪些變化?

  在此前的Build 2018大會上,微軟CEO納德拉就曾正式釋出微軟語音團隊聯合ROOBO研發的多MIC語音開發板MSDDK(Microsoft Speech Device SDK),這也是微軟在AI領域提供的第一個開發者硬體平臺。微軟負責提供Speech Service開發平臺,ROOBO完成MSDDK在音訊,聲學及硬體上的設計和實現。微軟全球資深技術院士,微軟雲與人工智慧事業部黃學東表示,目前微軟已實現全線語音和翻譯的個性化定製,並加入喚醒詞。此外,微軟還公佈了最新的包括四麥線性和七麥原形的麥克風陣列技術,支援全雙工語音互動。

  作為一家平臺型和工具型的企業,微軟大中華區副總裁兼市場營銷及運營總經理康容表示,微軟一直以來提供各類平臺和工具,這些技術會慢慢落到產品中,但這件事情並不由微軟決定,而是廣大合作伙伴和開發者的需求。因為使用者對多人場景下語音互動解決方案的需求,微軟決定和ROOBO一起做這件事情。Roobo合夥人兼CTO雷宇表示,該方案所解決的就是多人場景下的語音對話及多模態問題,做到影像與聲音相結合,這對於整個市場而言是有革命性意義的,畢竟這將語音互動的使用場景從智慧拓寬至所有多人語音互動場景。

從研發到落地,細數微軟與ROOBO這場AI合作!
▲智慧會議場景演示

  除了智慧音響,我們是否可以用語音互動技術搞點別的?

  一提起語音互動技術的落地,大部分人的第一反應就是智慧音響。智慧音響確實是一個很棒的應用場景,但是已經“人滿為患”。除此之外,我們是否可以用語音互動技術搞點別的?

  ROOBO和微軟在這方面做了很多,思考了很多。雙方認為智慧音響主要面向的是成人市場,但兒童以及老年市場卻被忽略。面向兒童的陪伴或教育型智慧裝置以及面向老人的醫療或康復類智慧裝置都可以與智慧音響形成良好的市場互補。但是,最終的決定權還在使用者手裡,雖然雙方認可兒童及老年市場智慧語音互動裝置的發展前景,但使用者是否買單並不能確定。

  在商業場景中,雙方認為智慧會議將是語音互動技術生根的不錯選擇,畢竟在整個商業場景中,其他產品均已實現了數字化,只有會議語音目前還未實現。微軟也現場演示了多人會議場景下的語音記錄場景,對不同人物及其聲音進行標記,對會議中所有的對話進行標記和語音轉寫,對重點內容或待辦事項分開記錄。

  多人語音互動場景面對的痛點與對策!

  智慧會議場景基本代表了微軟和ROOBO在多人語音互動場景方面的實力,這個場景主要涉及兩大問題,一是多人對話場景下的噪音問題;二是多人對話場景下的語音分離及語音與影像技術的同步應用。透過兩次現場演示(微軟Build 2018大會),微軟基本解決了語音分離及語音和影像技術同步應用方面的問題,但對於多人場景下的噪音問題,業內一直沒有出現特別完美的解決方案。

  微軟推出的陣列技術在對抗噪音方面的效果很明顯,配合360度的攝像頭可以讓AI技術整體上一個臺階。雖然還未達到完美程度,但微軟認為解決這個問題的前景還是很樂觀的。

  細看涉足智慧語音互動領域的大小廠商,每一家都為市場貢獻了不少產品,但一款好的智慧語音互動產品的定義到底是什麼,沒人說得清楚。微軟一直以來都堅持與合作伙伴共同成長,每一場大會都會邀請眾多合作伙伴。對微軟而言,有多少開發者和企業願意使用其提供的平臺和工具研發解決方案和應用才是評判成功與否的標準。因為想法相同,微軟和ROOBO走到一起,剩下的事情就交給市場和使用者來檢驗吧!

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31077337/viewspace-2155070/,如需轉載,請註明出處,否則將追究法律責任。

相關文章