智慧音響,什麼時候才能讓我們滿意?

AI銳見發表於2018-09-26

現在,全球智慧音響的銷量累計超過了五千萬臺,從口碑和使用者頻次來看,智慧音響成為了全球消費電子領域最成功的人工智慧產品,而人工智慧的標杆IBM Watson以及AlphaGo締造者DeepMind卻受到了普遍的質疑和批評。

為什麼會這樣?

人工智慧這個產業其實並沒有問題,問題就在於人工智慧的過度宣傳把消費者的預期拉高了,實際上現在的技術和產業鏈條並沒有達到預期的高度,自然我們就會很失望。

想想也是,我們本來訂了個五星級酒店,進去後才發現只有三星標準,能不失望嗎?要知道,消費者是要掏腰包的,當與預期不一致,必然就會用腳投票,人工智慧廠商也沒什麼可抱怨的。

其實,“人工智慧”這個詞本身也有點問題,我們人類幾千年文明,科學沒能理解宇宙,哲學似乎也沒搞懂智慧。

那什麼是“人工智慧”呢?

從圖靈的探索開始,到現在我們有一個準確的定義嗎?不過人工智慧確實擴充了人類對於未來的想象,很適合科幻作品但不適合產品廣告,產品永遠關注的是使用者體驗,當然價效比也很重要,噱頭只能是錦上添花,不能本末倒置。

至少,我們人類的生活還沒有從人工智慧中普遍受益,比如智慧教育沒有改變孩子上學的窘境,智慧醫療沒有緩解醫療資源的緊張,自動駕駛更不可能解決堵車的難題,也不要指望掃地機器解決家庭衛生問題,不受其累就很不錯了。

當前的人工智慧若不是瞄準人類社會日益膨脹的資源衝突和利用效率問題,很大可能會第四次跌成低谷…….

並非危言聳聽,從Google的搜尋趨勢來看,人工智慧的跌落指數也僅次於區塊鏈了。我們應當記得,二十年前IBM的“深藍”利用象棋與大師對弈,同樣也引起了極大關注。

智慧音響,什麼時候才能讓我們滿意?

智慧音響其實是幸運的,畢竟還有全球五千萬使用者掏了腰包,說明這至少是一款消費者認可的產品。

但是智慧音響真的智慧嗎?

估計大部分使用者並不這樣認為,從資料統計來看,更多的使用者其實只是認可遠場語音互動技術帶來的便利,想聽首歌更簡單了一些,當然也有一些使用者僅是嚐鮮,更資深的一些使用者則要挑戰一下所謂的智慧了。

其實迭代到現在,智慧音響還真有點“智慧”的味道,雖然大部分技能閒置,也沒有Killer技能出現,但從使用者頻次和應用需求來看,也還算不錯的結果,而且使用者通過遠場語音與機器自由互動的習慣確實逐漸形成了,這也是巨大的進步,為未來開啟了巨大的想象空間。

國外的資料分析顯示,智慧音響的重度使用者,音樂已經不是其第一需求,遊戲、玩笑、日曆、購物、交通應用的比重已經越來越高了。

智慧音響,什麼時候才能讓我們滿意?

畢竟,人類身邊的機器越來越多,這是趨勢,拋開智慧不說,人類也希望能有更好的方式與眾多的機器連線。連線這個事情,其實就是這三十年網際網路和移動網際網路專注的事情,再早一點就是郵政系統和電話網路,只不過關注的都是人與人之間的互聯罷了。

顯然,未來更需要解決人類與機器的互聯問題,甚至還要解決機器與機器的互聯問題(人人互聯,人機互聯,then,機機互聯?)。

但是人機互聯與人人互聯不同,僅僅連線是不行的,2010年興起即衰落的智慧硬體驗證了這一點。

新的互聯必然是新的時代,但是這仍然需要基礎技術的進步,比如移動互聯的元素——智慧手機,相比PC電腦整合了更多感測,包括GPS在內的很多感測蘊育了諸如LBS等很多新的商業模式,便捷的麥克風和攝像頭也是視訊社交的核心基礎。

從這個層面來看,新的感測必然也會帶來新的機會,當然,新的互動則可能是真正的革命。從按鈕、鍵盤到滑鼠、觸控式螢幕都是時代變革的顯著訊號。

所以,人機互聯必須找到一個人類與機器溝通的高效入口,遠場語音恰好就充當了這個角色,注意一定不能是近場語音,語音的天然優勢就是解放了雙手,近場語音把這個事情搞複雜了,況且遠場語音天然覆蓋了近場語音。

聲比光的魅力就是不見其人,先聞其聲,近場語音把劣勢當賣點顯然很難成功。

從人機互相適應的角度來看,遠場語音互動率先做到了從“人類學習機器”到“機器學習人類”的互動革命,這個變化實際上正在悄然發生。

我們做過一個調查,體驗過智慧音響的使用者,基本都不需要說明書,一句話告知就能馬上使用,並且不久就會反饋智慧音響學習指令不夠智慧這類問題。這很有意思,因為PC時代我們拿到電腦首先就是學習滑鼠以及打字,即便智慧手機時代,也要簡單學習觸屏技巧,大部分時候是埋怨自己而不是機器,新的時代真的是不一樣了。

實際上,我們很多的科學進步都是基於仿生或者啟發於自然現象的思考,像愛因斯坦那樣天馬行空的是極少數。既然如此,人機互動就應該像人類之間交流那樣自然,但是技術現在能做到嗎?好像看論文聽報告可以,但聲光電熱力磁哪個學科真正能到這個高度?

我們剛剛有點模式識別和自動化的成果,就不要沾沾自喜,從來也沒看人類這樣稱讚自家小孩:我們家孩子太聰明瞭,都認識爸爸媽媽啦。

況且,人工智慧即便這一點還沒做到,不管是遠場聲紋識別還是遠場人臉識別。兒童從任何角度和距離都能辨識人或動物,至今還沒有機器能夠這樣,特別是不要相信一些媒體誇大的產業成果,跑個測試集合得到的實驗結果不具有普適性。

即便聲智科技,主要就是解決類人的遠場自由互動問題,也遠遠還沒有達到在遠場環境下對於人或動物聲音的這種辨識程度。

看似簡單的一個仿生能力,其實非常非常難,就說一個小小的智慧音響,其技術就包括瞭如下極長的鏈條:感測技術(標量感測、向量感測)、晶片技術(通用晶片、專用晶片)、聲學技術(聲源測向、波束形成、回聲消除、盲源分離、混響抑制、噪聲抑制、語音增強、語音編碼、3D音效等)、語音技術(語音喚醒、端點檢測、語音識別、聲紋識別、哼唱識別、環境識別、語音合成等)、語言技術(語義糾錯、語義理解、情感識別等)以及內容服務等。

使用者會關心這些嗎?不會的,使用者只關心滿不滿足需要,是不是簡單好用!

那現在這些技術的水平怎樣了?

客觀的說也就在70分左右,確實落地能用了,但是距離使用者滿意還有一段距離。當然,使用者抱怨最多的還是智慧和內容問題,這已經不僅僅只是技術問題了,這涉及到諸多產業鏈重構的問題。

但是技術也不要沾沾自喜,諸多問題實際上也還沒有解決。比如噪聲複雜的工業場景、風吹日曬的戶外場景、多人討論的會議場景、全車對話的汽車場景等等,感測、晶片、聲學、語音和語言技術都還有諸多難題沒有解決。有一點需要明確,深度學習不代表人工智慧,計算機學也無法解決物理學的根本性問題。

實際上,遠場語音互動技術應用的產品領域越來越多,已經覆蓋了音響、機頂盒、電視、冰箱、手機、平板、汽車等,其使用者需求也在不斷迭代,這就需要更多新的技術來滿足這些需求。

比如當遠場語音互動技術應用到智慧機頂盒的時候,就凸顯出一個問題,畢竟盒子與音響不同,音響從器件到結構都是前期設計,可以巧妙繞開很多開放性技術問題,比如自噪聲抑制演算法必須採集質量很高的參考訊號。

但是盒子就不行了,盒子作為一個配件必須相容市面上所有型號的電視,這就有兩個嚴重問題:首先就是盒子的HDMI輸出音訊不可能同時採集到參考訊號,旁接線的方法影響使用者體驗絕對不能採納,其次就是每家電視都會有獨特的聲學設計和音質調校,同一個盒子在不同電視輸出的聲音也千差萬別。

智慧音響,什麼時候才能讓我們滿意?

那怎麼解決這個問題?

這就需要OpenAEC技術,這是聲智科技全球獨創的技術,主要解決弱參考訊號或者無參考訊號等更為複雜場景的回聲抵消(自噪聲抑制)問題,在電視節目多變、音量很大的情況下也能保證語音互動的效能。

對於手機、平板這類小屏市場,則是另外的技術需求,聲紋和喚醒顯得為重要,這主要考慮到了隱私問題。兒童玩具的市場其實難度更大,低功耗和兒童語音喚醒和識別都還有差距,主要也是因為不同年齡段的兒童發音特徵太過複雜。

安防市場則是典型的超遠場特徵,麥克風陣列需要拾取5米以外的聲音,五米以內的聲音需要儘量抑制,更為複雜的則是戶外感測的問題。至於汽車領域,後裝和前裝對比也面臨著需求差異的問題,比如前裝產品就要考慮全車語音互動的需求。

從長遠來看,遠場語音互動的核心瓶頸就在擬人化和個性化。當前的遠場語音還是有很嚴重的機器屬性,這對於人類來說是一個心理障礙,至於個性化,目前的智慧音響基本上還是一個賬號多個使用者使用的狀態,顯然這兩點會影響到人機互動的效率和個性需求的滿足。

但是,隨著產品的普及和使用者的認可,技術的迭代速度也會更快,從技術發展的脈絡來看,至少是越來越接近使用者的預期。比如聲智科技正在大規模部署聲紋識別的服務,這將有利於改善個性化的一些問題。

但是,當前市場的產品也令人擔憂,智慧音響現在是越做越便宜。若能保證使用者體驗,追求價效比自然是必要的,但是智慧音響還沒到這個程度。

首先智慧音響的產品品質並不出色,比如遠場互動效能,演算法還需要不斷改進,場景也需要不斷擴充,感測和晶片更要大幅提升效能以支援更復雜的計算,即便是音質,智慧音響一直就做的不好。

其次就是智慧音響還沒有清晰的盈利模式,便宜的產品必然沒有太大利潤率,蘋果和小米就是清晰的對比,若想獲得更大毛利,就不得不把重心移到內容服務,但是內容服務也需要硬體支撐,這和智慧手機總是不斷提升效能是異曲同工。

從長遠來看,消費升級是必然趨勢,人們追求美好生活的願望是真實不變的,不能因為短時間的市場問題就對未來喪失了信心,那些在某些下沉電商購買仿冒品牌的客戶,早晚都會升級成真正品牌廠商的客戶。

歸納來說,人工智慧還是處於技術和場景的萌芽階段,智慧音響作為一個突破口帶給了市場極大的信心,但是人工智慧怎麼助力產業結構調整還真需要認真琢磨。

人工智慧其實非常需要精巧的設計,只有將技術與產品完美的融合在一起,巧妙避過技術的缺陷,充分尊重和挖掘使用者的需求,才能真正獲得使用者的口碑,而口碑則是品牌的基石,也是貢獻利潤的根本。有一點是肯定的,只有賺錢的產品和企業,才能維持技術的不斷迭代,滿足使用者日益增長的需求。

若我們國內的人工智慧產業能夠如此良性迴圈,我們科幻描繪的未來世界就不會遙遠!

相關文章