渡鴉音響獨家測評: 代表百度AI技術尊嚴的DuerOS, 使用者體驗真的能過關嗎?

微胖發表於2017-12-22

撰文 | 宇多田

在今年三個多小時的世界大會主論壇上,百度把一半時間都留給了渡鴉音響。

渡鴉音響獨家測評: 代表百度AI技術尊嚴的DuerOS, 使用者體驗真的能過關嗎?


這個造型極其吸睛的四色正方體,暫時代替了無人車,成為李彥宏唯一揣到兜裡帶到烏鎮網際網路大會的「百度技術代表作」。

渡鴉音響獨家測評: 代表百度AI技術尊嚴的DuerOS, 使用者體驗真的能過關嗎?


與其他重量級 AI 硬體廠商相比,百度推出這款音響的時間絕對不能算早。

在已經有了阿里、小米、京東等一眾巨頭搖旗吶喊的智慧音響市場,大概只有百度自己知道,這款姍姍來遲,且並不便宜的音響,到底能不能讓消費者買賬。

渡鴉音響獨家測評: 代表百度AI技術尊嚴的DuerOS, 使用者體驗真的能過關嗎?

渡鴉音響 Raven H,市場價格 1699 元


如何來衡量它呢?

對於一款普通音響來說,音質必然是重中之重;而智慧音響,標準則要複雜太多。

不過,各家廠商最不願聽的,其實不是「音質差」,而是被叫做「智障」。

雖然在某種程度上,截止目前,這個稱呼安在任何一家音響上都幾乎沒差(誰用誰知道)。但在一定範圍內,由於語音互動系統這個核心各不相同,各廠智慧的音響表現的確差異較大。

換句話說,在材質、音質、語音互動體驗以及內容資源等多個評測維度中,後兩者更為關鍵且聯絡緊密。

而對於要自稱要 All in AI 的百度,雖然在很久之前就開始把 DuerOS(語音互動開放平臺)嵌入到大大小小其他品牌的硬體產品中,而此次自家硬體的誕生,或許對於DuerOS繼續招攬硬體生意起到「樣板」作用。

沒錯,這是第一款可以讓大眾直接檢驗百度 AI 技術軟硬實力的消費級產品。

拿景鯤的話來說,百度就是要透過這個音響來告訴大眾,什麼才是不裹挾於成本與市場競爭的使用者體驗,為什麼 DuerOS 才是真正的產業領導者·。

「無論從顏值、聲音,還是內容和互動,渡鴉都是音響類產品的標杆。有眾多競品是非常好的,因為這樣市場會越來越大,但在音響市場,我們想著重使用者體驗的突破,也應該有 iPhone 這樣的定位。」

「軟」要做 AI 時代的安卓,「硬」要做音響界的 iPhone,百度的胃口不可謂不大。但這款音響能否承「使命之重」,以下評測,算是渡鴉正式進入市場前的一個「小測驗」吧。

渡鴉音響獨家測評: 代表百度AI技術尊嚴的DuerOS, 使用者體驗真的能過關嗎?

渡鴉 Raven H 由主機和 touch 兩部分組成。touch 就是手裡的這塊點陣屏,可單獨拆卸作為遠端觸控板進行主機的操控,譬如你上廁所,就可拿著這個小屏控制臥室音響


作為第一個拿到渡鴉音響的垂直新媒體,我們首先並沒有被它顏色鮮豔,且「風格清奇」的外觀所迷惑(據說直男相當喜歡)。

但把它拿在手上反覆摩挲,突然可以理解這番「想做音響界 iPhone」的野心。這種被稱為 Kalix 的箱體材料,有一種區別於常用普通硬體塑膠或網布的特別觸感(摻雜了顆粒感的順滑)。

渡鴉音響獨家測評: 代表百度AI技術尊嚴的DuerOS, 使用者體驗真的能過關嗎?

4 種顏色的搭配,是選擇了色彩學中的德國工業標準色 RAL 體系)


而這種特殊的觸感以及著色工藝,據稱是渡鴉團隊與比利時著名化學材料供應商 Solvey 的博士們協作幾個月後才最終拍板的方案。

還有這個酷似樂高玩具的奇特造型,則在很大程度上出自瑞典著名消費品設計公司 Teenage Engineering 的手筆。

渡鴉音響獨家測評: 代表百度AI技術尊嚴的DuerOS, 使用者體驗真的能過關嗎?

渡鴉的產品經理一直向我們灌輸一種「美學與藝術優先」的產品理念,但我們知道,對比市面上其他音響,這裡面肯定有一筆不菲的設計費與材料費。

另外,假如這是一款美到爆表的音響,但是「智商」和「功能」卻低於市場平均水平,你願意買一個這樣的擺件回去,還是選擇那些「穿著秋褲」,但價格相對低廉的普通柱狀音響?

因此,重點來了,「使用者體驗」才是我們最關心的。換言之,這次測試也是我們對 DuerOS 的一次考驗。

為了能夠全方位「折磨」出渡鴉音響語音互動系統的各項水平,我們也請來了天貓精靈、小米音響、Rokid(若琪)以及叮咚音響,從「語音識別」、「語義理解」、「問題反饋」(包括多輪對話,能提供的技能與服務數量)等多個維度對這四款音響進行橫向評測:

渡鴉音響獨家測評: 代表百度AI技術尊嚴的DuerOS, 使用者體驗真的能過關嗎?

從左到右分別是叮咚音響、天貓精靈、渡鴉音響、Rokid、小米音響


遠近場語音喚醒

對聲音的捕捉,是智慧音響開始執行你指令的第一步。如果這款音響能夠有效過濾環境噪音,準確捕捉較遠、較小的聲音及指令,那麼它才能繼續「讀懂」你的命令,進而做出合理的反饋。

在這一環節,我們首先在保證喚醒音量一致的前提下,從距離遠近對 4 款音響進行測試。

首先,在相對安靜的環境中(只有竊竊私語聲),我們分別在距離不到 1 米處,3 米處以及 5 米處,對四個音響進行喚醒。

第二輪中,我們又將音響播放的音樂調至 100 分貝,在距離音響不到 1 米處和 3 米處進行喚醒,結果如下:

渡鴉音響獨家測評: 代表百度AI技術尊嚴的DuerOS, 使用者體驗真的能過關嗎?


從這個結果來看,市面上大廠產品的遠場識別的水平線基本一致。

但有一個很明顯的問題,叮咚音響與 Rokid 都是僅用閃爍燈(無聲音)來提示使用者「已被喚醒」,但在站著(明顯高於音響時,我們看不清 Rokid 的閃爍燈)或者是背對音響的角度,我們有時候難以知曉音響是否已經被喚醒。

一、遠近場語音識別:

同樣是基於不同的距離維度(小於 1 米、3 米、5 米),在相對安靜的環境以及提問音量一致的前提下,我們分別問了 5 個音響兩個很基礎的問題:

(1)北京天氣怎麼樣?

(2)李彥宏是誰?

5 款音響的表現如下:

渡鴉音響獨家測評: 代表百度AI技術尊嚴的DuerOS, 使用者體驗真的能過關嗎?


這個結果同樣看不出各個音響背後的語音互動系統在語音識別方面的明顯差異。

二、中英文混合語音識別

雖然各家音響都表示可以進行「中英文混合識別」(提醒一下:他們單獨識別英文的水平幾乎為 0),但識別效果顯然還是有些許差距。

我們問了這樣幾個問題,只能說,不要太過於期望國內音響給你播想聽的英文歌:

1、我想聽 Justin Bieber 的歌

2、我想聽 Alexander Jean 的歌

3、我想聽 What do you mean

4、什麼是 Tensorflow?

5、試了若干首不是小賈(Justin Bieber)和黴黴(Taylor Swift)唱的英文歌(結果……很不理想)

結果如下:

渡鴉音響獨家測評: 代表百度AI技術尊嚴的DuerOS, 使用者體驗真的能過關嗎?


很明顯,作為大 IP 和點播率較高的海外歌手,Justin Bieber 與 Taylor Swift 的歌意料之中地好識別,幾乎 5 款音響都準確識別出這兩位歌手的英文名字。

但其他歌手就非常不理想了,譬如 Alexander Jean,儘管蝦米音樂(阿里)與百度音樂(百度)曲庫裡都有他們的歌,但音響都識別不出這個樂隊。

而作為 Justin Bieber 的熱門歌曲,What do you mean 的識別準確率普遍相對較高。

但在5款音響中,對於其他稍冷門國外歌手的作品,無論發音多麼簡單,所有音響的識別率都較低。

而一些英文專有名詞,譬如 Tensorflow……還是不要難為國內的音響了。這就像跟讓 Google Home 說中文一樣,絕對不能強求。

三、句子裡只有單個關鍵詞的語義識別:

如果說語音識別的準確率大同小異,那麼音響互動體驗的差距或許會在語義識別方面逐漸顯現。

在順利捕捉到你的聲音,並將這些模擬音訊訊號進行數字化處理(語音識別)後,關鍵的一步來了:對這些文字資訊進行分析,「讀懂」這些資訊,然後才能給出一個正確的反饋。

這裡的「基於單個關鍵詞」,指的是句式中的主語一般只有一個,無形容詞(範圍限定詞)。音響在識別並分析單個關鍵詞後,便能給出準確答案。

譬如:什麼是 A,B 怎麼樣,來點 C。

我們問了 5 個問題,都是這種簡單的句式:

1、劉強東是誰?

2、設個鬧鐘

3、放首周杰倫的歌

4、來點相聲

5、想聽娛樂新聞

而結果如下:

渡鴉音響獨家測評: 代表百度AI技術尊嚴的DuerOS, 使用者體驗真的能過關嗎?


所有問題都有正確的反饋。

其中,對於「劉強東是誰」,Rokid 的回答稍簡單,而其他音響的答案似乎都搬出了百度或其他百科詞條。

而「設定鬧鐘」這個問題,天貓精靈、小米音響、渡鴉可以進行「多輪問答」,也就是說,能夠針對具體時間進行二次確認。

實際上,除了語音和語義識別的準確率,音響能否針對問題本身進行反饋,還涉及到其背後掌握的內容資源的豐富程度(內容佈局,你懂得)。

其中,在提出「來點娛樂新聞」這個要求時,天貓精靈的回答明確指出「娛樂新聞」主要來自微博,而渡鴉的娛樂新聞主要來自百度搜尋,其他音響的新聞則沒有指明具體來源。

而對於「來點相聲」這個問題,這些音響的內容源幾乎都來自喜馬拉雅。

四、句中涉及多個關鍵詞的語義識別

對於關鍵詞較多,語句相對複雜的問題,各個音響「理解能力」開始有了明顯的差距。我們問了以下 5 個問題,反饋各不相同:

1、劉強東的老婆/妻子是誰?(也同樣問了「劉強東的女朋友是誰」)

2、愛因斯坦什麼時候提出的相對論?(相對論是什麼時候提出的)

3、我想聽勵志的歌曲(我想聽勵志的中文歌)

4、想聽國內的科技新聞

5、我只想聽周杰倫、孫燕姿和陳奕迅這三個人的歌。

渡鴉音響獨家測評: 代表百度AI技術尊嚴的DuerOS, 使用者體驗真的能過關嗎?


透過增加了問題的複雜性,我們得到了一些非常有意思的反饋。

無論是「老婆」還是「妻子」,渡鴉音響、小米音響都可以給出正確的答案,而京東旗下的叮咚音響,則一會兒回答是「章澤天」,一會兒表示「我不關心這類八卦」……

而提到「女朋友」,只有叮咚音響給了正確回答。

值得注意的是,雖然「女朋友」是一個錯誤的事實,但是對於我們人類來說,出於本能,都會回答出跟「老婆」一樣的答案。

而「相對論」這個問題,渡鴉音響表現得更為優秀。

除了有技術方面的原因外,百度產品經理還認為這跟公司的搜尋與百科基因有很大關係。他表示,「只要涉及到知識問答一類的問題,百度的強大就會顯露出來」。此外,小米的表現也相對不錯。

而給音樂限定範圍的問題,大多表現都不太好,只有渡鴉和天貓精靈在音樂的限定範圍內給出了正確的答案。

不過,涉及到有範圍限定的新聞,則「全軍覆沒」。

值得注意的是,對於最後一個問題,渡鴉的表現的確有些讓人意外,因為這種多個關鍵詞的識別與理解難度很大。我們連續聽到渡鴉播放的歌曲,的確依次是「周杰倫」「孫燕姿」以及「陳奕迅」的歌。

至於為何能做到這個問題,百度給機器之能的回覆顯得簡單粗暴:「這就是百度在自然語言處理技術上的一個創新點,是一個創新的產品功能。」

五、多輪問答

知乎專欄一位叫「我偏笑」的 AI 產品經理發表了這樣一個觀點:

自然語言解析技術已經逐漸不再成為各家廣義智慧助理產品的核心競爭力,而識別使用者意圖之後所提供的服務開始成為對話機器人差異化的核心。

這裡的「後續服務」,就包括「多輪對話體驗」。

他認為,在識別使用者意圖後,為了幫助你在多種可行方案中做出選擇,語音互動系統應該透過多次互動最終執行你的明確指令。

在我們對 5 款音響的體驗中,除了「設定鬧鐘」,「問詢股價」,以及天貓精靈的「購物」與「充話費」等簡單的多輪對話設定外,很少有可以進行多輪對話的問題(這裡指,不需要每下一個指令就叫「喚醒詞」的連續作答)。

但渡鴉音響在音樂單領域的「多輪問答」表現,體驗還不錯。

舉個例子,在說「我想聽運動的歌」,音響開始播放音樂之後;你可以再次喚醒它(說句「小度小度」),並接著提出要求——「播放中文的」,這時音響就預設為「你要聽運動的中文歌曲」,繼而執行命令。

以下問題,經過我們的測試,在進行二次喚醒後,都可以針對上個問題進行第二次「縮小範圍的設定」,而其他音響暫時做不到這些。

渡鴉音響獨家測評: 代表百度AI技術尊嚴的DuerOS, 使用者體驗真的能過關嗎?


不知作為使用者的你,是否認為這是一種必要的對話流程。

當然,如果是混領域的多輪問答,譬如“今天北京天氣怎麼樣?”“幫我查一下從北京到上海的機票”,這些對話由於涉及到技術、內容資源等多個維度,所以暫時市面上幾乎所有音響都達不到這個效果。

六、反饋處理-音響功能的豐富性

我們在剛才已經提到了,每個音響針對問題的回答,除了跟系統能否有效識別和分析你的指令有關,還有一個很重要的因素——音響的內容資源與語料庫能否支援你想要的這個功能。

換言之,就是音響背後的生態實力是否足夠強大。

我們從使用者比較常用的三個維度列出了一個簡略的功能表,而各家可以實現的功能,在很大程度上取決於自家廠商的生態基因。

但需要注意的是,這必然屬於智慧人機互動產品的核心競爭力——「後續服務」(上面已經提到)中的一個重要維度。

渡鴉音響獨家測評: 代表百度AI技術尊嚴的DuerOS, 使用者體驗真的能過關嗎?

很明顯,從功能的豐富性與背景基因來看,創業公司會有些許劣勢。

而對於大廠來說,各家有各家的優勢,譬如阿里的天貓精靈與京東的叮咚更擅長 O2O 功能,而可以接入小米(其本身就有一個龐大的硬體王國)和渡鴉的智慧硬體數量(DuorOS 起步較早)則看起來更加可觀。

綜上所述,根據我們對音響「語音互動體驗」這個維度的評測顯示,剛剛面市的渡鴉音響的實力還是不容小覷的,甚至在「多輪對話」方面明顯高人一籌。

也就是說,渡鴉音響中 DuorOS 提供的互動體驗,在某種程度上認證了百度的技術實力。

但是我們需要清楚的是,一個音響是否能贏得市場,除了互動體驗,音質、價格、交貨能力(產能)以及可以連線的硬體數量也將是考驗產品的重要維度。

對於渡鴉來說,在互動體驗過關後,面對市場,仍然還有很長一段路要走。渡鴉音響獨家測評: 代表百度AI技術尊嚴的DuerOS, 使用者體驗真的能過關嗎?

相關文章