智慧音響的中局,勝負手在技術核心裡

naojiti發表於2019-07-04

智慧音響市場上,風起雲湧的變化還在繼續。

根據Canalys、Strategy Analytics、IDC三家機構提供的市場資料,2019年Q1小度系列智慧音響出貨量躍居中國第一、全球第三。

在2017-2018慘烈的千箱大戰的一地雞毛之後,智慧音響市場從2018年底基本宣告進入三足鼎立時代,百度小度、阿里天貓精靈、小米的小愛成為市面上收割絕大部分市場的三巨頭。

很多媒體與評論者都認定,今天這個階段,智慧音響已經陷入膠著的同質化競爭,巨頭的主要任務就是提高補貼和價效比、多找流量明星代言、多與家電和車企聯動。甚至認為如今智慧音響已經越來越難完成硬體創新,市場和營銷變成了唯一的突破口。

然而事實果真如此嗎?智慧音響是否真的已經抵達了紅海的末尾,只能靠外部玩法續命?

技術雪球裡的小度,向內尋找答案

2019百度AI開發者大會(Baidu Create 2019)上,百度副總裁、百度智慧生活事業群組(SLG)總經理景鯤正式釋出小度助手(DuerOS)5.0。在這次升級中,我們至少可以從技術邏輯上來認識這樣一個智慧音響市場的產業現狀:關於智慧音響未來在哪裡,答案可以有很多選擇。

向音響內部,向技術體驗,向AI的巨集觀曲線,還有眾多變數籠罩在音響市場背後。而技術升級能力在這一新興市場中的槓桿作用,可能遠比外界認識的更加重要。

AI互動,從未標記為“已解決”

近兩年,我們開始習慣手機與音響中的AI語音互動。然而,人類開始研究對話式AI的歷史,可以追溯到上世紀50年代貝爾實驗室的Audry系統。當時研究者們判斷對話AI具有三大難題:單詞識別、句子的理解、從語言分析對話方意圖的能力。

歷經了50年曲折的AI技術發展,最終人類搞定了詞義識別這件事。但如果說今天的智慧音響,已經缺乏硬體創新可能,人機對話能力將停留於此,那毫無疑問是過分自大的。

客觀來看,今天的智慧音響產品,在互動的自然、流暢與可持續能力上,依舊具有極大的阻礙,每一臺裝置的語音互動都不足以稱為完整形態。主要來看,有三大問題縈繞在智慧音響左右:

1、喚醒效率問題。是否能適應遠場與複雜聲源環境的喚醒。這是一個軟硬一體化問題,需要演算法創新與晶片側的聯合創新。

2、語義理解的深度問題。這個問題決定了對話是否能被理解,方言、個性化的語言習慣、中英夾敘、複雜長句的理解等領域構成了這一問題的主要挑戰。

3、機器記憶體驗的問題。這個問題決定了對話是否能夠持續,主要挑戰包括機器能否有效記憶、篩選文字和跨時間保留對話。

技術雪球裡的小度,向內尋找答案

三大基礎標準之外,多種AI技術的互動融合則構成了未來智慧音響的技術體驗。包括語音與視覺的結合,例如結合脣語的視覺識別來提升語音互動準確度一;以及語音與知識的結合,比如機器能否理解使用者表達的專用詞彙、形容式表達以及暗示。

這些問題的廣泛存在,讓智慧音響不能停留在今天。客觀來說,不管媒體和評論者是否認為今天的智慧音響普遍缺乏創新能力,小度助手,一直沒有停下解決最核心技術問題的努力。

去年7月,小度助手釋出了3.0版本。其核心技術特點是在自然互動能力上進行了升級,強調自然語言處理能力支援下的深度語義分析,並且輸出為極客模式、兒童模式等差異化體驗。

事實上,小度助手3.0就可以看作對上述第二個問題進行的集中攻堅,以自然語言處理技術,結合多模態技術解決語義理解體驗深度。

而在剛剛釋出的小度助手5.0中,對於前兩個問題都給出了新的答案。在聽清方面,小度助手如約引入了百度首創的流式截斷的多層注意力模型(SMLTA)。這個在AI圈中被稱為暴力到不講道理的模型,將極大程度增強小度助手的喚醒能力。搭配剛剛釋出的語音晶片鴻鵠,未來喚醒之路上的小度助手還有很多底牌。

在聽懂方面,結合百度NLP的知識增強語義表示模型ERNIE,小度助手的核心理解演算法全面升級為超大資料預訓練深度模型,並且通過融合百度全網搜尋能力與大規模精準使用者畫像,小度助手可以學習使用者畫像,不斷升級語義理解的個性化能力。

而面對問題3,小度助手放出了刷屏級別的新技術——全雙工免喚醒能力。這讓小度助手5.0在可以理解更復雜語義的基礎上,能夠知道自己應該何時被喚醒,何時保持沉默繼續等待命令。這一技術突破,指向人類之間對話時的“拒絕反應”,是因為人類能夠記住上下文,不需要每一句都進行回覆,才可以用沉默構成互動的一部分。這個能力,指向著上述第三個問題:機器記憶。

技術雪球裡的小度,向內尋找答案

至此,智慧音響的排頭兵,已經不必拘泥於“一問一答”的機械模式,而是走入類似真人對話的連續互動。

梳理一下不難發現,小度助手不僅沒有喪失向內尋求技術突破的能力,而且還是在以年為單位,連續性系統性地直面語音互動的根本問題。而且小度助手的技術進化,是呈現出與百度AI技術發展同頻特徵的,都表現為通過多AI基礎技術融合,更高效演算法模型的使用,以及平臺化、模組化的技術特性。

讓我們先把小度助手5.0帶來的結論——“AI向內創新,並非沒有可能”這句話放在這裡。帶著它,我們可以重新審視一下今天三國鼎立的智慧音響市場。

同樣的中局,不同的終局

曾經很多人認為,千箱大戰無非是千篇一律的戰爭,這東西非常簡單,誰都能做。結果很快缺乏技術和產品創新力的音響品牌就大面積死亡。這時我們發現,原來音響之間還是有很大不同的。

到了今天,我們又認為市面上剩下的三家主要音響本質是相同的,市場主旋律是膠著的補貼戰和流量戰。這種認識,似乎又回到了當年的老路上。

如果說當年的音響是遍地石子,今天的音響就是三大雪球滾動向前。我們需要注意的是,剝開這三個雪球,會發現它們的核心完全不同。

小米的小愛,包裹著IoT產品的連線;天貓精靈包括著電商和阿里生態;而百度的核心是AI技術,是對話式AI解決方案的持續進化能力。

不同的核心,確立了不同的發展模式和市場行為。百度沒有阿里的電商狂歡,阿里沒有小米鋪天蓋地的IoT生態,而小米的音響也不太可能具備小度的拒絕反應和機器記憶能力。

技術雪球裡的小度,向內尋找答案

雖然在音響普及階段的推廣和促銷是各家都不可避免的,但是細緻拆分下來每家的重點其實從來不曾重合。比如說,回看一下最近的新聞,我們會發現天貓精靈在主推方糖R型號,用明星定製化的特點來主推粉絲電商。而小愛在連線更多的IoT裝置,最新上線的是椅子。小度助手則在上線新硬體的同時,解決AI互動中的機器記憶問題。

與眾多媒體認為的音響紅海正相反。真正的音響三巨頭之爭,是營銷好做、明星好請,但內在的技術與產品價值核心卻不好替換。

如果說三家音響是三個雪球,天貓精靈可以被稱作“新零售雪球”,小愛叫做“米家雪球”,而小度則更適合“AI技術雪球”這個稱呼。

從頭到尾,智慧音響的中局就是一場差異化競爭。雖然目前在市場份額上似乎來到了驅動的臨界點,但接下來的走向,更可能是“你打你的,我打我的”,甚至各自把智慧音響打成截然不同的東西。

不同的核心,定會裹挾不同的外層,通往不同的方向。

技術雪球裡的小度,要向何處去?

事實上,核心差異已經影響到了音響市場的產品表現與市場競爭格局。比如說小度出貨量偏向長線持續增長,原因之一在於小度系列的技術體驗更突出,容易引發口碑傳播。

我們可以以技術雪球裡的小度助手為例,看看它的核心會將智慧音響的未來帶到何處。

技術雪球裡的小度,向內尋找答案

小度的技術差異化,體現在產品中可以歸納為三方面:底層技術能持續進化、技術與技能開放平臺、軟硬一體化能力。這三個能力,正在將多方面的市場與生態差異化納入小度雪球的範圍:

1、底層技術升級,連線的是使用者體驗的差異化。小度系列為什麼不同,可以輕鬆用幾句對話感覺到。這讓小度更適合口碑傳播和體驗式傳播,造成了小度的一系列品牌建設順利展開,市場銷量持續快進。

2、基於技術模組化打造的技術與技能平臺,連線的是內容和開發者、IoT裝置。三者可以更低門檻接入小度生態,完整利用小度的技術優勢轉化為自身優勢。比如,小度助手5.0帶來了更好的技能開發體驗。面向開發者的全雙工免喚醒能力使得人機互動更加自然,使用者的互動成本降低一半;DPL(DuerOS Presentation Language)則讓開發者可以自定義技能的視覺展現。在開發門檻不斷降低、開發體驗和想象力不斷飆升的情況下,最終可以看到小度使用者的沉浸時間更長,連線裝置更廣泛,並且消費者應用第三方技能的時間不斷增加。平臺的技術便捷與高可用,構成了小度吸引開發者的核心價值。

3、軟硬一體化的技術架構,連線著硬體能力與核心演算法模型的排列組合能力。新的硬體形態、新的硬體能力,比如帶屏、投影等,可以更快接入核心演算法層。在本屆百度AI開發者大會上,小度系列又推出了小度智慧音響大金剛、小度智慧音響Play、小度在家1C 4G版,這些新產品滿足了不同人群和場景的需要,同時都具備投屏功能,可以一句話連線電視,一句話點播視訊,無縫連線小米、海信、創維、TCL等主流智慧電視品牌。小度助手能夠源源不斷推出新品、新硬體能力的原因,是底層技術架構的模組化與平臺化。

可以看到,小度能夠在不同領域後來居上,根本跳板是對話式AI底層技術與平臺化的領先性與持續進化能力。這種能力的延展性很廣闊,甚至現在已經有人說在小度的技術能力下,智慧音響已經完全不像是我們印象中的那種產品,達成了音響不只是音響的開始。

技術雪球裡的小度,向內尋找答案

目前來看,小度代表的技術進化通道在產業內不具備可複製性。而與其他競品所代表的能力相比,到底哪種雪球會來滾動到最遠,可能還是要交給時間來審視。

但有個邏輯或許可以在今天進行類比:音響到底是什麼,能走到哪裡;是一兩年的玩物,還是三五年的風口,抑或如同冰箱電視一樣永遠放在生活中的不可替代品?

想回答這個問題,我們可以想想當年的電視。如果電視永遠停留在12寸黑白的時代,那麼沒有幾年它就將遭到膩煩,沉睡於垃圾箱和博物館。今天我們依舊在孜孜以求地購買合適的電視產品,原因在於電視的技術在進化,電視生態在發展。

技術進化是一切的開始,電視產品的技術進步,才能帶動電視網路、電視內容、周邊產業(比如遊戲機、音響)的滾動進步。

智慧音響正處在同樣的階段。向內尋找答案,以技術撬動進步或許是接下來很多故事不能或缺的前提條件。

電視可以永遠12寸黑白,也可以是8k高清的家庭娛樂平臺。智慧音響可能不是音響,只是會一問一答互動,套用模板觸發語音指令的“人工智障玩具”;音響也可能不是音響,而是能滔滔不絕聊下去,背靠海量技能與IoT裝置的家庭智慧中樞。

技術進化,是前後二者唯一的差別。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2649609/,如需轉載,請註明出處,否則將追究法律責任。

相關文章