汽車玩個《流浪地球》梗,開啟了一串關於AI語音的腦洞

naojiti發表於2019-03-06

技術史中有一個有意思的現象,科技樹往往會進行分支延展。甚至有時候原本期待的技術目標還沒實現,卻在技術分支開啟了一連串實用腦洞。

最著名的案例,大概就是在大型計算機的主幹道上,分叉出了PC和整個數字時代。誰也未曾想到,一片積體電路的出現,讓原本的技術基礎設施變為了創造出全新紀元的大眾消費品。在AI語音互動這條科技樹上,我們很可能也在見證這樣的轉變。比如在追求NLP巴別塔的岔路上,一些強應用指向的資訊卻在帶來全新的可能。

甚至是一個蹭熱點的玩法背後,可以看到AI語音這條科技樹點開了一串新的腦洞。

時間回到春節,爆款電影《流浪地球》帶火了那句“道路千萬條,安全第一條”。隨後全球最大的網際網路汽車平臺斑馬網路火速推出了配合《流浪地球》的一個玩法,從中便能管中窺豹,找到關於AI語言應用的新腦洞。

斑馬一聲答,抖音好多6

《流浪地球》熱映後,冷淡萌的MOSS和雪地車中北京第三交通委的提示讓不少人都燃起了中二之心,也想和自己的愛車來一出模仿秀。

雖然很多地圖App也推出了類似的語音包,但仍然缺少最重要的互動體驗。

就在2月12日,《流浪地球》上映剛剛一週,斑馬便推出了語音互動彩蛋。使用者只要說出“你好斑馬,開始點火”的語音指令,語音互動系統便會回覆出那句熟悉“道路千萬條……”。

第一條影片剛剛在抖音推出半天,就火速獲得了1.5萬個點贊。隨後又有大量斑馬使用者在抖音上上傳了自己與愛車的對話影片。使用者們操著不同方言、在不同車型中重複著那句“你好斑馬,開始點火”,著實讓斑馬在抖音上火了一把。

這次借勢營銷的成功取決於兩點。

第一是斑馬快速完成了語音互動的部署,正好趕上電影熱映的發酵期,可以喚起使用者的參與興趣。

第二是在斑馬在快速部署的同時確保了語音識別的準確率和使用者體驗。讓使用者在不同環境和條件下都可以參與,沒有因技術問題而破壞體驗。

這個一句話的互動雖然看起來簡單,但卻可以引發關於AI語音,車聯網,甚至語音服務市場的一連串推理。

車中的耳朵:語音識別折射出效率紅利

而斑馬在短時間內完成精準語音指令部署這件事的重要性,遠遠不止一次借勢營銷這麼簡單。

首先我們要知道,車載環境是一個非常特殊卻又普遍的環境。一方面車內空間有較強的噪音,在收音方面相對困難;另一方面車內空間應用廣泛,使用者會使用各種方言、口音與斑馬進行互動。

可以說在斑馬點火的命令背後,隱藏著語音互動進入高效率與普惠性的特徵。

應對車載環境下的語音指令喚醒,斑馬要解決口音、方言、噪聲等場景下的精準可用狀態。為達成這個目標,喚醒背後必須具備三個方面的技術準備。

1、為方言和環境噪聲識別,進行大量端到端的訓練。想實現這一點,不僅需要大量的方言語料資料,同樣需要足夠的雲端算力支援。

2、麥克風序列的有效搭建和硬體準備。汽車空間內複雜的噪音來源一直給語音互動的收音造成了巨大的困難,而斑馬選擇了前置解決方案,在汽車中提前搭建好麥克風陣列來為整個語音互動流程提升效率。

3、語音採集、特徵提取、聲學樣本的高可用模型搭建,基於標準化解碼的語音入口和端到端部署。想在短時間內完成應用級別的語音指令訓練,需要熟練的模型建立流程和部署能力。

三者的聚合,讓語音互動正在抵達標準化週期,於是斑馬才能快速準確地更新應用,跟上熱點。

而在演算法應用性的背後,其實我們還可以看到端雲耦合在高效工作著。

雲上的短跑:智慧語音互動駛入敏捷開發賽道

大家都知道,我們平時應用的各種軟體也會保持一個週期性的更新狀態。通常是一週或者一個月更新一次版本,帶來一系列新功能。

如果在車中依舊保持這樣的軟體更新頻率,顯然是不足夠的。對於車聯網這種剛剛進入市場產品來說,像這次《流浪地球》一樣,不斷快速迭代,為使用者帶來更多驚喜的細節,會更有利於市場的覆蓋。

想要實現更敏捷的開發週期,需要的技術關鍵點在於端雲的高度一體化,即雲端計算效能和終端車聯網架構在設計和能力上實現一致性。

斑馬自身的車聯網架構也具有高度的統一性。不僅在開發上更加高效,同時也減少了技術與不同終端層層適配與測試的時間成本。於是才能實現使用者無需進行版本更新,達成新玩法的零秒上線,讓不同終端的使用者都能享受同樣的技術更新效率。

端雲耦合加上語音的便捷性,正在用一種新的技術邏輯將車聯網拖入新的敏捷開發週期。車聯網體驗中完全可以達成快速準確的智慧服務持續觸發,甚至允許使用者進行與系統的內容互動。

車聯網的腦洞:語音激變讓巴別塔成為無限可能

繼續向著更底層的技術推理,我們會發現一個來自流浪地球的問候,隱藏著AI語音技術的另一種廣義應用可能性。

AI語音的第一種可能當然是在巴別塔上,解讀擁有幾千年歷史的各種語言,讓人類真正實現無障礙的溝通,然而這並不容易。

但在斑馬的案例中,我們可以發現在車聯網的特定互動場景裡,透過敏捷的AI應用能力交付。可以帶給使用者實時化,多功能,甚至指向娛樂綜合體驗的語音能力。在這種能力的催生之下,未來使用者可以依託駕駛場景自主生產內容,實現共創。

端雲一體,演算法標準化,以及場景的硬體統一性,正在催化輕量級的語音互動煥發廣泛的應用可能。

或許就在不久的未來,個人使用者可以定製原創互動語音。不僅是喚醒、AIoT等功能,例如使用者可以將途中的所見所想上傳為一組語音問答,並與其它同系統車主分享,為車主與車、車主與車主打造全新的共創模式。車聯網與萬事萬物的連線,都可以因此變得更加個性化。

尤其當公共服務也開始引入語音互動技術時,這種能實時更新的車聯網語音互動會擁有更高的開墾價值。達摩院2019十大技術趨勢認為“隨著端雲一體語音互動模組的標準化、低成本化,會說話的公共設施會越來越多,未來每一個空間都至少會有一個可以進行語音互動的觸點,隨著智慧語音技術的提升,移動裝置上的實時語音生成與真人語音可能將無法區分,甚至在一些特定對話中可以透過圖靈測試。針對這一領域的規則甚至法律會逐步建立,從而引導行業走向規範化。”

而公共設施同樣面對著和車聯網相似的情況——應用情景複雜、應用者廣泛、所處場景嘈雜。這時車聯網上累積的收音技術、不同方言的辨識技術以及敏捷更新能力,都能為之所用。

從AI產業的全域性來看,或許語言不一定只有巴別塔一條路。輕應用、快速開發、多效迴圈的語音能力應用,開啟更高可行性和商業化潛力應用AI路線。從網聯汽車,到社會化服務硬體和新的家庭場景,AI的可能性正在開啟。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2637741/,如需轉載,請註明出處,否則將追究法律責任。

相關文章