除了智慧音響,AI語音還可以用在哪裡?

dicksonjyl560101發表於2019-08-31
  2019-07-26 17:03:47


除了智慧音響,AI語音還可以用在哪裡?


source:apple

說起來可笑,每次我找不到眼鏡的時候,我都想拿出手機,給我的眼鏡“打個電話”,好聽聲辨位。

不知道有沒有人,開發這種功能?

不得不承認,在某些場景下,聲音具有很強的穿透力。也因此,智慧音響會被開發出來,一聲“小愛同學”省了我們不少力氣。

在智慧語音這條賽道,可發揮的場景,待開發的空間還很大,這裡列了幾個例子,供君參考。

1

充滿“人情味兒”的聲音

其實語音合成技術離我們很近,例如高德地圖裡志玲姐姐的聲音,讀書軟體裡有聲朗讀,科大訊飛研發的“訊飛留聲”還可以滿足你,10句話就可以復刻自己的聲音。

從早期“我-是-機-器-人”的機械聲,到如今我們聽到的Siri的回答,無論從音質、複雜度還是自然度上,都近乎無可挑剔。但是在技術迭代的過程中,表現力一直是語音合成技術亟待解決的問題。

唯真性高,但是“人情味”不足。

而提到“人性化”的聲音,最驚豔的莫過於去年驚豔亮相谷歌I/O開發者大會的智慧語音助手:

有沒有覺得,那句“Umm...”讓整個對話“真”了起來。

我們知道,人類在說話的時候會夾雜很多語氣詞,用來緩衝大腦思考問題。同樣,機器人進行資訊檢索的時候也需要時間,加入這些詞彙讓它們看起來更像人類。

一個會說人話的機器人,還是有機會殺一殺萌寵經濟的銳氣。

2

49秒,點了34杯咖啡

此前,《麻省理工科技評論》評選出的2019年“全球十大突破性技術”,“阿里AI 助手”是唯一上榜的國產技術。

原因在於專業技能過硬,僅49秒,點了34杯咖啡。

使用者只需要對點餐機進行與正常人一樣的對話就可以完成。

“五個巧克力、兩個香草拿鐵,巧克力加奶油。”“兩個中杯焦糖拿鐵,一個熱的一個冷的。”“算了巧克力不要了。”“再要六個小杯少冰摩卡,三杯加焦糖三杯加香草”“再加一個大的冷的拿鐵,去冰半糖加脫脂奶,打包。”

在雲棲大會現場,阿里語音互動首席科學家鄢志傑最快以每秒5個字的語速向一臺機器點單。

而人類咖啡師在第一次沒記住的情況下,重聽之後完成了訂單,用時2分37秒。

該系統不僅可以在公共場所強噪聲環境下進行訊號處理和語音識別,還融合了影片識別與面部識別、場景感知等多模態的感知技術,同時更增加了多輪多意圖口語理解、業務知識圖譜自適應等認知技能。

這項技術除了可以替代收銀員之外,還被應用在地鐵裡。

據悉,上海地鐵已經部署了這一技術,乘客直接說出目的地,售票機便可選擇合適的站點和路線。

3

“語音流”裡的廣告位

在語音助手界,最紅的莫過於微軟小冰,寫詩、唱歌、主持、嘮嗑無所不能。據悉,微軟小冰作為“社交化人工智慧”已經在全球積累了過億使用者,產生了300億條的對話記錄。


除了智慧音響,AI語音還可以用在哪裡?


source:微軟

如今的第六代微軟小冰,已上線全新的共感模型(即小冰可以透過自創回應,來牽引對話向她所希望的方向進行)。她可以實時預測人類即將說出的內容,實時生成回應,並控制對話節奏,從而使長程語音互動成為可能。

帶節奏,牽引對話,這是導購員最擅長的事情。

這是一個訊號。

品牌廣告主可以憑藉更具針對性、以語音為先的數字內容搶佔搜尋結果的位置。

也就是,“語音流”裡的廣告位。

這是是一片需要營銷人員去探索的空白區域。想想看,當語音助手的系統中,沒有資料來源或足夠深度的內容為問題提供答案時,品牌可以主動參與到對話中去。

4

生產力工具

在文章開篇,提到了給眼鏡“打電話”,那如果眼鏡可以自己發出聲音“我在這裡”會如何?

事實上,這件事情,已經有人做到了。

通用電氣開發出了一款原型機,它可以讓機車給維修技術人員傳送語音資訊,描述需要修理的東西。或者,它可以直接打電話給他,說“我的轉子有問題了,你快來修”。

其實,“機器自檢”這種模式,來自於通用電氣的Digital Twin。

專業術語小貼士(來自美國國防採辦大學DAU的術語):

Digital Twin,即數字孿生,指充分利用物理模型、感測器更新、執行歷史等資料,整合多學科、多物理量、多尺度、多機率的模擬過程,在虛擬空間中完成對映,從而反映相對應的實體裝備的全生命週期過程。

換句話說,就是在虛擬空間中對工廠進行模擬和模擬,並將真實引數傳給實際的工廠建設。

通用電氣的Digital Twin專案不僅實現了工業資產的3D顯示,還可以處理從全球各個機器收集到的資訊,從而更好地為決策提供資訊。

5

結語

更多的語音應用場景,還有老羅釋出的TNT工作站,用聲音控制電腦的操作,一度引起網友吐槽,最終寥寥收場。

作為對比,在今年的WWDC 2019上面世的macOS 10.15 系統,也實現了語音控制Mac 裝置,不禁令人感慨:

語音互動會成為下一代主流互動方式嗎?

記得科大訊飛AI產品副總裁陳亮在一次演講中說:“AI用得好不好,關鍵在於用的人的想象力”。

所以,我們其實要考慮的是:如何在合適的場景,選擇合適的互動方式。

當我在跑步的時候,如果有一個虛擬語音助手可以直接告訴我應該如何調整呼吸和步伐節奏,我是希望與“它”進行對話的。

又或許,還有“會說話”的眼鏡......

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2655650/,如需轉載,請註明出處,否則將追究法律責任。

相關文章