阿里AI收銀員上崗,49秒接單30多杯咖啡,人類又輸了?

AI前線發表於2018-05-23
阿里AI收銀員上崗,49秒接單30多杯咖啡,人類又輸了?
撰文 | Vincent
編輯 | Vincent
AI 前線導讀:人類又輸了?5 月 23 日舉行的阿里雲棲大會武漢峰會上,來自阿里巴巴的 AI 再次展現出了它的才能,僅用了 49 秒就搞定了 30 多杯咖啡的訂單。自從那個幾乎以假亂真的 Duplex 在月初的 Google I/O 大會上亮相後,全球 AI 企業,尤其是技術大廠們都開始炫起了自家語音領域的“肌肉”。

更多幹貨內容請關注微信公眾號“AI 前線”,(ID:ai-front)


AI 接單快而準,人類又輸了?

v.qq.com/x/page/s066…

“五個巧克力、兩個香草拿鐵,巧克力加奶油。” “兩個中杯焦糖拿鐵,一個熱的一個冷的。” ”算了巧克力不要了。” “再要六個小杯少冰摩卡,三杯加焦糖三杯加香草” “再加一個大的冷的拿鐵,去冰半糖加脫脂奶,打包。”

這是發生在 5 月 23 日雲棲大會武漢峰會上的一幕。阿里巴巴機器智慧技術實驗室語音互動首席科學家鄢志傑以最快每秒 5 個字的語速向一臺機器點單。機器對每一次對話都作出了精準響應,而站在一旁的資深咖啡師選擇了中途放棄,“太快了,記不下來”。

人類咖啡師在聽了鄢志傑第二次複述後完成了訂單,用時 2 分 37 秒,而機器只用了 49 秒

AI 收銀員上崗了,人類又輸了嗎?又要有一項工作要被 AI 替代了嗎?

如果你問出這個問題,那麼很多 AI 研究領域的專家會回答你:不,AI 是一種工具,它在很多場景裡存在的目的是用來輔助。

點餐本身,對於很多咖啡師來說,是一項相對枯燥而重複的工作,他們更願意將時間花在為顧客製作好的咖啡、製作咖啡的時候與顧客溝通了解需求和反饋,而不是將時間花在點餐這件事情上。而對於顧客來說,高峰期的排隊問題也讓一些顧客十分頭疼,很多時間都浪費在咖啡點餐的排隊等待上了。

市場上的點餐機,普遍都是觸控方式的,不便於顧客快速尋找商品。特別是對於一些客人比較客製化的需求,點起來比較麻煩。

市場上常見的語音互動產品,目前普遍都是“喚醒詞 + 語音指令”的形式,對於比較複雜的需求容易理解不了,並且無法真正像人與人交流那樣自然互動。

鄢志傑說,這種互動方式完全打破了"語音喚醒 + 語音指令"傳統命令式互動方式,我們首創的流式多意圖口語理解引擎,極大地提升了對人類隨意、自然的口語表達的理解力,能夠做到免喚醒的自然的人機交流式的語音互動。

在上面的演示環節中,包含了修改、刪除、加單等多輪對話,在整個交流過程中,顧客不需要說”hi,點單機“之類呆板的喚醒詞,可直接下單,更符合人與人的自然對話。

“炫技”的背後:多模態語音解讀

語音點餐機是基於阿里巴巴達摩院機器智慧技術實驗室的多模態人機語音互動方案的一款典型產品。該方案一方面通過語音、計算機視覺、觸控等多模態融合的技術,使得公眾空間的人機互動成為可能,並將之落地於業務場景,推進商業化;另一方面,阿里首創的流式多意圖口語理解引擎,極大地提升了對人類隨意、自然的口語表達的理解力,實現人機交流式的語音互動。

阿里AI收銀員上崗,49秒接單30多杯咖啡,人類又輸了?

流式多輪多意圖口語理解演算法架構圖

流式多輪多意圖口語理解技術涉及到多個子任務,包括:實體資訊抽取(例如產品名),長句語義分割 (即將流式口語輸入切分為語義完整的句子),意圖識別,多元的關係抽取 (譬如產品及其屬性之間的關係),實體連結,實體指代消解等。

多模態人機語音互動方案是一個端到端的模型,直接對從使用者的流式口語輸入到對使用者多個意圖的最終理解進行建模,不再依賴子任務的模型和它們的級聯,這樣極大地減少了各個子任務之間的錯誤積累和傳遞。

在架構上,該方案將演算法和業務分離,使用業務知識圖譜有效地表達業務相關的知識,利用序列到序列的深度學習模型自動學習出使用者口語輸入到意圖結構化表達的對映關係,利用業務知識圖譜表達業務邏輯,對於這個自動的對映學習模型進行強化學習以達到弱監督的目的。 這樣一方面整個系統只需要少量端到端的資料標註進行訓練,大大減少了標註壓力; 另一方面由於知識圖譜的鬆耦合度,使得擴充套件到新的業務變得更為便捷。

據瞭解,阿里雲這項解決方案除了可以做收銀員之外,還能在地鐵賣票。目前,上海地鐵已經部署了這一技術。乘客直接說出目的地,售票機便可選擇合適的站點和路線。這對於初到上海的乘客尤其幫助巨大,面對十幾條線路三百多個站點誰都會懵。測試資料顯示,普通買票耗時往往超過 30 秒,而語音購票全程只需要 10 秒左右。

細心的讀者應該看到了,以上所有的應用場景,不是在人多而嘈雜的咖啡廳,就是背景噪音巨大的地鐵站,噪聲問題怎麼解決?

AI 前線瞭解到,這次針對地鐵和咖啡館這類強噪聲環境,達摩院首次創新研發了基於機器學習的大型麥克風陣列技術,結合深度優化的聲學結構和多模態語音提取,能夠自動從強干擾背景語音中提取出目標說話人語音,實現嘈雜干擾環境下的語音識別。並且,針對咖啡館的咖啡磨豆聲和人聲,同時進行本地和雲端的動態全鏈路模型匹配,實現端到端的自適應優化,以保障每一次的語音互動。

目前阿里已經在園區內的咖啡廳進行了試點,不知道在真實的應用場景中這套系統表現如何,如果有讀者前往體驗,別忘了回來給我們留言,說出你的感想。

語音領域秀操作,技術大廠想幹啥?

有人曾這樣形容自然語言處理,說它是人工智慧皇冠上最為璀璨的一顆明珠,還有人這樣說:只要解決了 NLP,人工智慧領域 80% 的問題也就迎刃而解了。或許正是由於語音領域在 AI 研究歷程中的重要性,它才會顯得更加難以突破。在簡化後的場景裡,智慧語音應用的表現總能帶來各種驚喜;但到了複雜的真實環境中,它們似乎就沒有那麼好用了。

文章開頭我們提到了那個以假亂真的 Google Duplex,AI 前線也曾對這個讓人有些“毛骨悚然”的 AI 語音進行過一番解析。由於不是現場演示,看似高大上的 Duplex 近日被多方質疑造假,蒙上了陰影,不過谷歌暫時還沒有回應。

在和谷歌幾乎同時舉行的 Build 2018 開發者大會上,微軟同樣祭出了一款重量級語音產品:一套可以讓速記、同傳和祕書同時“下崗”的智慧增強會議記錄系統,360 度的相機與麥克風矩陣不僅能夠準確識別出所有的參會者,還可以實時記錄與翻譯每個人說話的內容,並且幫助你提取出重點。一旦有人說出“follow up”,都會被微軟的會議系統自動記錄在案。

在本月 21 日舉辦的微軟中國 AI 大會上,微軟展示了升級的中文版本,結結實實地秀出了自己在語音領域的能力。

連秀兩次操作,只不過兩次演示都是在封閉的模擬辦公室環境中進行,雖然能夠識別出說話人是誰,但是演示過程中,也並沒有出現現實會議中的多人同時說話以及噪聲干擾等場景。

除了 AI 大廠,不少初創公司也發現了語音領域的金礦。

羅永浩在錘子科技的釋出會上展示了其自研工作站 TNT 的語音操作功能,中途“偶爾”出現的幾次識別問題,不知道是因為老羅的普通話不過關,還是鳥巢那晚的風比較大,雖然褒貶不一,但也算是跨出了重要的一步。

至於未來如何,我們拭目以待。


相關文章