從聲學智慧到智慧助手,你需要Get哪些知識點?

聲學線上發表於2017-07-11

由中國計算機學會(CCF)主辦、雷鋒網與香港中文大學(深圳)全程承辦的 AI 盛會——全球人工智慧與機器人峰會(CCF-GAIR)在深圳大中華喜來登酒店如期召開。

從聲學智慧到智慧助手,你需要Get哪些知識點?

7月8日下午,進入“智慧助手”專場。在門羅機器人CEO楊興義先生的主持下,哈爾濱工業大學教授劉挺、驀然認知CEO戴帥湘、聲智科技CEO陳孝良、暴風TV CEO劉耀平四位業界大咖分享了“從聲學智慧”到“智慧助手”那些不可錯過的大咖乾貨。

劉挺:人機對話技術進展

從聲學智慧到智慧助手,你需要Get哪些知識點?

哈爾濱工業大學教授,社會計算與資訊檢索研究中心主任劉挺教授 :從人機對話技術概述、人機對話技術進展、人機對話評測等方面展開介紹。

Q:人機對話技術概述?

A:我更側重於語言的方面,這是對話的一個基本框架。人機對話技術的基本框架,包括三個重要的模組:語言理解,對話管理,語言生成。大致走過三個階段:2012-2014,語音助手;2014-至今,聊天機器人;2016-至今,場景化任務執行。

Q:做聊天機器人有沒有意義?

A:我認為有幾方面的用處,第一建立人和機器信任,不同於搜尋引擎機器可以向人發問,比如問你喜歡看哪類電影,你說我喜歡看動作片的機器人,他立刻推薦一個成龍的動作片,就是這個機器人的聊天機器人對使用者的畫像發問。另一個就是情緒撫慰的功能,對有情感障礙的,對寂寞的人機器有耐心可定製。你要願意定製一個就願意訓練你的機器人也沒問題。

Q:人機對話技術到底到了什麼程度?

A:剛才四個方面也選出了最重要的,一個是聊天,一個是任務執行。我聊天的是沒有明確的目標的,而任務有明確性,聊天的這個空間大。對話生成部分比較技術化,不僅僅是演算法,從重排序模型到層次化模型到DQN模型,怎樣形成一個一個完整的對話,這是很多技術,包括深度學習強化學習的結合。現在很多大企業不但做智慧助手而且提供對話平臺,上升到人工智慧層面。比如訂機票,很多細節需要填補,從CRF到LSTM發展。技術也在進步。中間的對話管理也在向強化學習發展。

Q:人機對話的評測發展如何?

A:評測驅動技術進步,沒有標準答案去評測。堅持的理念:自然語言處理,中文評測由中國人引導。評測有兩個任務:聊天和任務類第一任務是意圖的區分,第二是特定域任務型人機對話線上評測。而多輪分叉是評測的難點,主要看最短話論數內把問題解決掉。

戴帥湘:對話即應用,過去仍在,未來已來

從聲學智慧到智慧助手,你需要Get哪些知識點?

驀然認知 CEO 戴帥湘先生:網際網路領域人機互動的發展過程說明了語音互動時代已經來臨,介紹了對話即應用和互動方式融合的重要性以及對於對話應用未來的發展預測。

Q:為什麼“未來對話即應用”?

A:從貫穿網際網路發展過程中人機互動的階段來劃分,第一個階段,20年前,即網際網路剛剛普及時,使用者透過鍵盤、滑鼠實現與機器的互動。第二個階段是在觸控式螢幕手機出現以後,使用者摒棄了之前的鍵盤操作。這種變化也帶來了應用形態的轉化,行業從 Web 程式開發迅速轉入 APP 程式開發,也是在這一背景下,此後的10年間,網際網路幾大巨頭迅速經歷洗牌。到了今天,我們開始面對第三個階段,即語音互動的階段,眼下,各大公司紛紛推出自己的智慧音響品牌,硬體連線,行業稱之為“萬物互聯”時代。今天的裝置要想和人類進行大規模合作,對話式語音互動必不可少,並且必定成為主流。未來的IoT時代,語音互動將跨越軟體和硬體的邊界,在不同場景下,呈現不同的應用和服務,對話即應用。

Q:語音互動時代哪些場景是產品落地與市場化的核心?

A:家居場景下必然會有一個家居控制中心,連線接聽裝置,需要集中式的互動入口,讓它做集中式控制、使用、命令,電視是一個互動切入口。驀然針對電視進行了專門設計,使用者不僅可以獲取娛樂資訊,還能夠實現更多的生活需求:影片電話、訂票、查詢周邊、設定提醒、繳費等;同時為服務提供商帶來更多效益。另一個場景是車載,車載是最適合對話的語音互動場景,這是目前業界的一個基本共識。除了行車過程中的路線考察,路線規劃,行車導航等,驀然更關注的是行車目的地,因為後者直接連線服務,對互動的影響更大。上述這兩種場景是生活中非常重要的兩大場景,它們可以透過一個整體系統,融合成更大場景。而要融合如此多功能的場景,並達成各場景之間的自由切換,必須要有非常複雜的語音互動。對話式語音互動是多種技術融合的必然結果。

Q:對於語音互動時代新互動方式,哪些關鍵點是最重要的?

A:對於新的互動方式,融合現有的解決方案非常重要。5個層面來說:第一VUI + GUI 融合,GUI 本身是一種確定的、簡單的、沒有後效性的操作。VUI 是發散的、跳躍的,相對模糊,但是可以完成複雜任務的操作。GUI 是讓我們適應機器,VUI 是讓機器適應我們第二多場景融合,讓使用者感受到服務的意圖在各種地方得到滿足,才有可能成為很有效的互動方式。第三裝置之間的融合,按照現在的很多框架,實現這種方式會非常複雜,需要給使用者製造不同裝置之間遷移、無縫連線、包裹式的經驗。第四,知識+服務融合,真正有用的對話是雙向的。系統理解以後做適當的動作,不理解的話做推薦動作、反問動作和澄清動作,這樣才能形成完整的、任務式的、有目的、最佳化的對話,而不是隨意的。第五技術的融合,AI 本質上是技術的集合體,是多項關鍵技術的融合,不是單一的模型,也不是單一的方法。

陳孝良:人機語音互動的技術趨勢與商業機遇

從聲學智慧到智慧助手,你需要Get哪些知識點?

聲智科技創始人兼CEO陳孝良博士:從技術與商業趨勢、以及當前所面臨的技術挑戰與商業挑戰方面,帶給了我們更多關於語音互動的商業思考。

Q:為什麼人機互動的升級是國內外同步創新的機遇?

A:從互動方式來劃分呢,PC時代我們主要依賴的是鍵盤滑鼠,到了移動互聯時代,其實主要以智慧機為代表,因為在功能機時代,其實我們還是主要依賴於我們的鍵盤,但是在智慧機時代,我們大量依賴於觸控式螢幕。其實這是一種很大的變化,因為他已經解放了我們的一隻手。那到了AI的網際網路時代很可能我們會以語音互動作為一種資料方式,當然它不是唯一的,肯定還要和我們其他互動方式融合在一起。現在是國內外同步創新的一個機遇,因為語言它天生是一個壁壘,很大的挑戰,他將來會帶來全球生態的可能的一個重構。可以分為四個層次,底層包括器件、晶片、模組等,其上一層包括VOS、網路,然後再上上產品,最後到內容服務,可能都需要語音互動的變革來進行相應的改變。

Q:遠場語音互動技術有哪些挑戰?

A:遠場語音互動瓶頸在於聲學和場景。近場和遠場之間的區別是非常大的。當然還要涉及到我們的語義,到底我們語義應該理解到什麼程度?這也是我們現在非常迫切解決的問題。我們說帶動鏈條升級,那首先,我們得進行器件升級,向量麥克風是下一代的麥克風,可能會比較遙遠,中間可能會加一層智慧的麥克風。但現在國內這項技術還落後來一點。第二個挑戰是晶片,第三就是演算法。我們有一些原創的演算法,因為聲學也為軍工服務,各個國家相對保密,所以只能各自發展。但是比如我們現在大量使用的機器學習,事實上我們國內大量在做改進性的技術。

Q:遠場語音互動商業挑戰有哪些?

A:說現在的商業化挑戰,其風險在於不確定的啟動週期。更細緻化的劃分:第一就是產品,關於產品怎麼定義,怎麼挖掘痛點可能是一個比較大的問題。第二我們來看內容服務,國內的內容和服務比較割裂,我們知道騰訊在我們國內佔有了很大的音樂版權,百度上有很大量的搜尋,我們的交易大量在阿里。那我們關注國外亞馬遜做的事情天然有很多優勢集中在一起。這是單單某一家公司做是不可能的,得需要整個鏈條的合作。第三就是標準與智慧財產權。

Q:對於遠場語音互動未來的思考?

A:技術的發展趨勢,剛剛我們說到麥克風要從標量麥克風下一步做到智慧麥克風,下一代AI是要多感測融合的,麥克風、雷達等技術有聲、光、電這三個因素合在一起,到底該怎麼做,也是需要進一步研究的。演算法和模型也是要考慮的。另外就是產品。音響會不會死掉,這個問題沒有太大意義。國內外都在做的事情,本來就是一個現有的品類,不存在消亡。遠場語音互動,開始ren是智慧音響將來絕對不止於此,其他巨頭在定位時也不會把技術限定於智慧音響,想象一下後面產品,包括智慧耳機,智慧盒子,智慧車載等。

劉耀平:裝置時代結束,助手時代到來

從聲學智慧到智慧助手,你需要Get哪些知識點?

暴風TV CEO劉耀平先生:從AI使用者——助手思維講起,闡述從裝置到助手,如何突新的商業生態的建立和產業紅利的釋放,以及未來人工智慧助手的展望。

Q:為什麼未來AI使用者將是助手思維?

A:對於我們暴風tv來說,最重要的戰略思維是,以前的裝置與人的關係帶來的人與服務,人與資訊的關係,我認為很快就會結束了。AI時代會到來共建一個未來,開啟一扇新的大門,看到一個嶄新的賽道和新的世界。其中思維先行,對於TC端最重要的思維,也就是助手思維,是暴風tv做人工智慧產品時,是非常重要的指導性思維。

Q:從裝置到助手,為什麼AI助手率先解決人與人的互動突破?

A:解決從裝置到助手,我們從關係上來看,就是從人到裝置獲取資訊和服務的關係要變成人與人的關係。以前引爆服務的是觸覺,視覺和語言還沒有真正引爆。人與人的關係,這個一旦這種關係確定以後確定了以後,透過自然語音與助手的互動,以及在這個互動過程中建立的決策的互動機制,產生的服務的效率和能力是完全不一樣。新的商業生態的建立和產業紅利的釋放需要有些突破口。

Q:人工智慧助手的新湧現,哪些值得去關注?

A:從湧現的助手上來看這個市場的話,有三個湧現是值得去關注的。一多裝置協同計算(多助手),助手之間的協同,本質是多裝置之間的切換。未來一定是助手手與助手之間的聯網和協同。二多屏協同服務,這是現在的所有多屏,還是要靠人去操作。聲紋在多助手之間能夠協同,就大屏無處不在,把這個屏會以什麼方式呈現,是AR的方式還是其他的方式呈現,不一定,顯示技術可以再次一起發展。但重要的是它會帶來一個新的結果,就是跨空間的場景遷移。未來無處不在的助手,給你提供服務,助手之間可以協同,然後再做空間遷移的場景都可以連續服務。三未來會產生家庭社交平臺,無論是泛朋友還是陌生人關係,網際網路社交平臺都做得已經很不錯了。但家庭的這個社交平臺迄今為止沒有出現,關係是存在的,比如以孩子為紐帶,但是服務沒有做到很好。未來人與人,人與助手,助手與助手之間這種新型的關係產生後,我相信一定會產生家庭社交平臺。暴風也會做比較大的投入與準備。

相關文章