雷軍至今釋出的最重磅AI產品, 不是手機和音響, 而是小米AI研發團隊與技術夥伴們

宇多田happy發表於2018-04-04

上週,推銷小米 MIX2S 的新亮點,曾讓雷軍大費口舌。

不過,他更多是把筆墨放在了這款手機的外觀設計與攝影效能上。而大家鼓吹的 AI,僅僅是介紹完 MIX2S 逆光、暗光拍照能力後的一個「點綴」:

背景虛化、場景識別以及「把語音助手小愛同學搬到手機上」…說是「微創新」都有些牽強(標配還差不多)。

(此處可參考機器之能此前發過的一篇文章:AI 手機的祕密

簡單來說,這是一部具備 AI 能力的手機,但賣點絕不是 AI。因此,當看到媒體鋪天蓋地將這款產品的關鍵詞定義為 AI 時,我們真的…百思不得其解。雷軍至今釋出的最重磅AI產品, 不是手機和音響, 而是小米AI研發團隊與技術夥伴們

當然,如果你想對小米的 AI 硬體研發與製造能力有進一步瞭解,關注點不應該在手機上,而是雷軍在釋出會上最後宣佈的一款產品——小米 AI 音響 Mini。

從名字就能看出來,這款產品是標準版小米 AI 音響的 Mini 版,長得很像無印良品的車載移動香薰機。據官方表示,其具備的功能幾乎「複製」了標準版。雷軍至今釋出的最重磅AI產品, 不是手機和音響, 而是小米AI研發團隊與技術夥伴們上圖為小米音響Mini,下圖為Muji移動香薰機

但顯然,產品小了一圈,價格砍去了一大半,效能方面一定會有相應削弱。在使用它之前,我們並不清楚它是否能延續標準版的好口碑。

從配置來看,其麥陣方案是從標準版的環 6 麥降至環 4 麥,不再支援 5GWifi。而這個新麥陣的供應商仍然為聲智科技。雷軍至今釋出的最重磅AI產品, 不是手機和音響, 而是小米AI研發團隊與技術夥伴們

聲智科技 CEO 陳孝良告訴我們,從 6 麥到 4 麥,體積自然更小,成本也更低。

按照理論效果,比起 6 麥陣列,4 麥在 5 米外的遠場識別效能方面還是有差距的。

我在臥室裡測試了 Mini 版的中遠場拾音效果。

如果在房間保持安靜,房門開啟的情況下,距離 10 米左右,從另一個房間喚醒小米 Mini 沒有任何問題,其具備穩定的遠場拾音效果。

但如果門關上,距離 5 米在門外也不能輕易喚醒 Mini。(這是不是說明門的隔音效果好?)雷軍至今釋出的最重磅AI產品, 不是手機和音響, 而是小米AI研發團隊與技術夥伴們開啟門,距離10米左右仍然能喚醒

從理論上來說,麥克風的數量越多,越有利於遠場識別。

但陳孝良給出的一個看法是,AI 演算法在音響中的應用削弱了麥克風的「統治權」。

也就是說,在與喚醒以及識別等功能產生聯動後,不斷更迭的演算法與陣型可以彌補麥克風的一部分不足之處。

因此,4 麥陣列也不代表 Mini 版的製作難度有所降低。

「Mini 版的難度在於,體積太小造成麥克風陣列與大音量喇叭相距很近所引起的聲學問題,以及低成本喇叭失真較大的問題。」據陳孝良透露,在這些方面,公司跟小米團隊投入了很大的研發力氣。

而硬體評測媒體愛否科技對小米 Mini 的音質測評結果,能夠在一定程度上說明小米 mini 結構上引發的這個聲學問題:與標準版相比,小米 Mini 的音質明顯遜色於前者。

但雷軍在釋出會上說了,基於這個價格(米粉節降至 99 元),是讓你在買一臺標準版小米音響後,再多買幾個小米 mini 放在每個臥室裡……這算盤打的,也是「志在銷量」了。

而他唯一推薦的音響新功能,也是基於每個家庭必須採購多個小米音響的前提下才能實現:

多個裝置放在一起時,每個音響的語音助手會根據距離喚醒者的遠近作出自動響應。

也就是說,哪個離你近,哪個就響應你。雷軍至今釋出的最重磅AI產品, 不是手機和音響, 而是小米AI研發團隊與技術夥伴們

但是,「距離遠近」這個問題對於機器來說,非常難判斷。因為它靠的不是視覺,而是聽覺:

在實驗中通常出現的情況是,即便你距離一個音響稍微近一些,但你對著較遠的另一臺說話,聲源朝向後者,外加干涉聲音傳播的各種介質,那麼機器也很難判定你所在的位置。

陳孝良解釋,這裡面需要用兩項技術——SSP(空間知覺)與 SSA(空間意識)。

「SSP 是讓小米音響知道自己在哪,比如音響是距離電視更近還是沙發更近?這個功能可以幫裝置調整自己,」他提到蘋果就是利用這個特性進行音效大小的自適應,

「而 SSA 則是讓音響知道自己是誰,當我們進門喚醒的時候,是應該客廳的音響響應,還是廚房的響應?目前亞馬遜的 Echo 都是距離最近的才自動響應。但未來,應該是最理解你命令的那臺音響響應。」

但在目前,他承認這項技術還沒有完全成熟,而且應用在小米 Mini 上的這個功能,公司也只是做了底層支援:

「雷總提到的這項技術是小米團隊實現的,他們的研發能力是很不錯的。」

我們也聯絡到了小米AI實驗室技術總監相非,他認為,在分散式拾音演算法的開發過程中,主要有兩個技術難題需要解決。一是不同裝置的不同陣列硬體之間實現拾音協同,具有很大難度:

「譬如標準版小愛音響與小愛Mini,一個6麥音響和一個4麥音響,除了陣列布局,麥克選型、底層驅動、硬體方案都不同,不能照搬同一演算法。如何針對每個維度做裝置間的歸一化,相容單麥、雙麥、四麥線陣、四麥環陣、六麥環陣等不同陣列布局和多家硬體平臺,在業界沒有任何先例。」

二是使用者聲學場景的複雜性,分散式演算法要同時在兩個裝置上計算訊號層面的差異,而音響擺放位置非常重要,放置在家居開闊空間,還是牆角,亦或是電視旁邊,甚至旁邊掛件衣物,麥克風附近的聲場都會發生明顯變化,對拾音訊號造成很大影響。

「因此,裝置要先做空間感知,獲取周邊場景資訊,」他認同了陳孝良的說法,「同時也要兼顧家中各種裝置的能力差異,做包括能量、到達方向、相關性、置信度等方面的多維度判決。」

當然,目前業界對分散式聲學演算法的研究還處於初期階段,分散式喚醒判決還僅僅是分散式體驗的第一步,距離真正的AI無處不在尚有較大差距,基於廣深的硬體生態佈局和不斷加強的技術儲備,小米有望在這一領域率先取得突破。雷軍至今釋出的最重磅AI產品, 不是手機和音響, 而是小米AI研發團隊與技術夥伴們

在拿到Mini後,我們就在辦公室同時連線了標準版與 Mini,這個功能似乎目前還不太奏效。

在兩個音響距離過近時(2 米以內),這項功能並不會發生作用,兩隻都是同時應答並播放歌曲。雷軍至今釋出的最重磅AI產品, 不是手機和音響, 而是小米AI研發團隊與技術夥伴們

而在兩隻音響位於同一空間且距離大於 3 米時,音響的確可以根據聲源來辨別距離遠近。但這僅限於你離其中一隻非常近(小於 1 米)的情況下,近處的裝置才會被喚醒。而且也屢有失敗。雷軍至今釋出的最重磅AI產品, 不是手機和音響, 而是小米AI研發團隊與技術夥伴們

接下來,我又在與上面相同的條件(大於3米)下進行另外一種測試:

所站的位置距離兩隻音響都很遠,結果會怎樣?

答案是,無論你離哪個更近,他們都會被同時喚醒並回復你。

但毫無疑問,標準版由於麥克風數量更多,因此拾音效果更好,幾乎「有應必答」,且網路連線更穩定。

不過在聯絡到相非後,他提醒我們,5月功能會正式上線……所以,買到標準版小愛同學和Mini的童鞋們,還是先別像我們一樣花一個多小時去測試這項功能了。雷軍至今釋出的最重磅AI產品, 不是手機和音響, 而是小米AI研發團隊與技術夥伴們

其實從小米釋出標準版 AI 音響那一天起,音響各主要技術部分的供應商就寫在了他們的公開 PPT 上。

與阿里等公司一樣,音響的很多技術都是「分包」出去的。

  • 語音識別技術(ASR)的介面,用的是思必馳、Nuance 與搜狗的;

  • 自然語言理解(NLP)等關於語義方面的技術,由小米大腦親自來做

  • 前端的麥克風陣列以及降噪方案,是由聲智科技提供的。

  • 語音合成技術,是由獵戶星空提供的。

但據我們獲得的訊息,Mini 版並沒有繼續使用此前合作方的 ASR,不難推測,或許小米已經在逐步替換為自己研發的語音識別技術。

早在1年多以前,2017 年 1 月,小米就成立了小米雲平臺語音組;同年 7 月,還曾在 arXiv 上首次提交過一篇端對端的語音識別論文。

當時就有人猜測,除了 NLP 之外,小米未來很可能會用上自己語音識別技術。這在很大程度上關係到資料的分析與共享。

雷軍至今釋出的最重磅AI產品, 不是手機和音響, 而是小米AI研發團隊與技術夥伴們

實際上,與 BAT 以及很多純粹的 AI 技術公司相比,小米在 AI 領域一貫低調。直到上週 MIX2S 釋出會,我們也是才獲知小米 AI 研發團隊的具體規模已經增至500~600 人。

對於一家制造消費類硬體的公司來說,成立研發團隊的優勢在於,讓技術進入應用層的週期大大縮短。

因為在任何時候,它都能把底層技術迅速實驗在自己的產品上,軟硬磨合期顯然要比純粹的 2B 技術公司短太多。

2017 年中旬,小米語音工程師張俊博在接受媒體採訪時就曾表示,經過無數實驗,小米的語音技術在小米電視測試資料上成功獲得了 2.81% 的字錯誤率,達到可用水平。

資料並不算耀眼,但這個資料在某種程度上卻是難得脫離了「學術舒適區」的產業品類評測資料。

當然,這也從側面說明了小米的軟硬耦合能力。就像上面陳孝良所說的,軟體能力會在一定程度上補足硬體的不足。反過來,充分的硬體製造經驗,也會加強軟體的執行效果。雷軍至今釋出的最重磅AI產品, 不是手機和音響, 而是小米AI研發團隊與技術夥伴們

AI 技術最終落實到硬體的使用者體驗上,就是小米音響的智慧核心——小愛同學的應用效果。

根據我們此前的評測,其水平明顯高於當下的音響智力水平線,甚至在「自然語言理解」層面表現突出。

譬如在音樂操作方面,一個存在多個關鍵詞的語音命令,小米可以做到準確識別語義並給出正確答案。

當你發出「我想聽英文新歌」「我想聽英文的爵士樂」「我想聽周杰倫的新歌」等指令時,小愛同學為歌曲同時設定「爵士」與「英文」,或「最近的」與「英文」等約束條件是沒有問題的。

而在這方面,除了百度等大型科技公司,創業公司的產品普遍很難做到。

此外,小米系列 AI 音響有一個有意思的功能——專門為自己的小愛同學建立命令。而且建立以後,這些命令在任何小米 AI 音響上都可以被喚醒。

譬如那個在天貓精靈技能中非常火的「放屁」功能,就被使用者也建立在了小米 AI 音響裡:

雷軍至今釋出的最重磅AI產品, 不是手機和音響, 而是小米AI研發團隊與技術夥伴們


這在某種程度上,可以比招攬專業技能開發者更快地增加自己的技能數量……



雷軍至今釋出的最重磅AI產品, 不是手機和音響, 而是小米AI研發團隊與技術夥伴們

當然,根據使用者們的反饋,小米的槽點也不容忽視。譬如曲庫資源勉強達到要求,但不等於滿意,他們還是想請雷軍再去跟 QQ 和蝦米音樂談判一下;

雷軍至今釋出的最重磅AI產品, 不是手機和音響, 而是小米AI研發團隊與技術夥伴們

此外,像小冰一樣的調侃式聊天,在小愛同學身上也是有限制的。但這畢竟是一個執行命令多於「插科打諢」的硬體產品,或許直接跟手機聊天可能更實惠一點。

而音響不可忽視的另一個小 bug,是 Wifi 連線狀況不穩定。

這毫無疑問是使用音響的第一個關鍵步驟——只要不聯網,除非連線藍芽,要不然音響就是一塊板磚。

在這次使用 Mini 之前,我就碰到了這種情況——無論如何都連不上小米 AI APP。

最後在小米工程師快速的響應速度基礎上,我們終於發現了問題的根源——路由器設定的頻段與通道與小米音響 Mini 不匹配。

「如果很多人 wifi 都設定成這樣呢?」我問,

「使用者環境複雜,確實是我們一直比較頭疼的事情。」小米工程師的回答也很無奈。雷軍至今釋出的最重磅AI產品, 不是手機和音響, 而是小米AI研發團隊與技術夥伴們

在當下的智慧音響市場,所有同類產品其實都以「達到及格線」為榮。

但從智慧程度、內容資源、銷量以及生態系統等各個維度衡量,在一眾音響產品中,小米音響與天貓精靈是名副其實處於第一軍團。

與阿里依靠強大渠道與價格戰賣出了 200 萬臺天貓精靈相比,小米 AI 音響迅速提升的市場認知度在很大程度上要感謝小米強大的硬體生態鏈(作為一個控制中樞,米家任何智慧家居都可以被控制,都是自己的東西當然沒有障礙),銷售策略及後續穩定增長的良好口碑。

有不願透露姓名的晶片採購商向我們,他們很奇怪為何小米會遲遲發不出貨。

「從音響的配件市場供應情況來看,不應該出現這種情況,」她更傾向於這是一種銷售策略,「即便是去年雙十一訂單超量的天貓精靈,也基本在 1 個月左右就能從工廠出貨。」

而後續增長的良好口碑,除了很多評測媒體在「橫評」(多個音響一起測試)中出了不錯的分數以外,普通使用者的一些追評其實超出了大眾對現階段智慧產品打的平均分:雷軍至今釋出的最重磅AI產品, 不是手機和音響, 而是小米AI研發團隊與技術夥伴們除了在人機互動體驗這一方面並不弱於 BAT 大廠,它的中控能力,終於把小米在過去四年裡從一個充電器開始,默默做生態鏈的優勢發揮了出來。

「我一朋友結婚家裡剛裝修完,家電都買的小米的,說這樣更好連通,不用下那麼多 APP,而且壞了都能找一家去修。」一位圈外的「80 後老少女」在聊天時這樣告訴我們,「智慧家居嘛,別以為我們不如你懂。」雷軍至今釋出的最重磅AI產品, 不是手機和音響, 而是小米AI研發團隊與技術夥伴們

其實我們之前也在很多文章中提到過(參考文章:天貓精靈的優勢與問題),僅僅依靠合作,其實很難把音響的中控能力(家庭控制中樞)發揮到極致。

這裡面有技術與平臺的相容問題,有資料問題,也有團隊磨合問題等等一系列在雙方都要牢牢維護自身利益前提下產生的阻礙。

因此,平臺與平臺之間處處設定壁壘,美的、格力、海爾等等傳統硬體廠商正在出品多個應對不同 AI 平臺與產品的智慧空調型號;

為了連線另一個品牌的智慧燈泡或智慧開關,需要再下 1 個 2 個 3 個 APP;

普通電器常用的射頻遙控與紅外遙控,有不同的連線阻礙……

對於許多年輕人來說,在質量和效果沒有那麼大差距的條件下,為了體驗真正無障礙的智慧家庭,會傾向於選擇「沒那麼麻煩的」。

而接下來,當這一代對智慧家居有初步認識與好感的 80、90、00 後年輕人逐漸成長為社會的主流消費群體,傳統硬體企業,未進入生態圈的硬體企業,未打通生態圈的科技企業,就不再是「充滿危機感」這麼簡單了。

相關文章