科大訊飛的語音雲大資料實踐之路

AI人工智慧發表於2019-03-01

文由 【FMI飛馬網】原創,原文連結:科大訊飛的語音雲大資料實踐之路

在幾乎全民AI熱的今天,有人說,語音識別將會是第一個爆發大眾級應用的領域。說到語音識別,相信作為國內語音識別領域領軍企業的科大訊飛是最有發言權的。而對於正在語音識別領域鑽研的企業,相信瞭解一下科大訊飛的實踐經驗時必要的。

在飛馬網舉辦的FMI人工智慧大會上,來自科大訊飛資料研究員演算法部負責人的呂昕為我們詳細介紹了科大訊飛的語音雲大資料實踐之路。

科大訊飛的語音雲大資料實踐之路

呂昕

據呂昕介紹,科大訊飛的語音平臺在2010年釋出,這個AI平臺,經過七年的發展,現在已經有39萬的開發者,在平臺上使用科大訊飛的AI能力進行一些人工智慧相關的開發。

科大訊飛一致認為,整個人工智慧分為三個階段。

第一階段,計算智慧。它的比較典型的應用就是最早的一個深藍的暴力窮舉,以及後面的搜尋引擎的一個匹配。在這個方面是一個比較早期的AI應用,這個階段已經過去很多年了,而現在如果再繼續做一個搜尋引擎,別人是不認為你們是在做AI這個事。

第二個階段的人工智慧屬於感知智慧。就是讓機器能力,就是現在最流行的語義識別、影像識別,還有一些語義理解相關的。訊飛的開放語音雲平臺智慧互動解決方案主要是在感知,都是一些感知智慧相關的一些技術。

第三個階段叫做認知智慧。這是一個比較縹緲,或者現在整個學術界都在努力做,也沒有成熟的方案。在這個階段,需要讓機器能理解,會思考,在這個領域,科大訊飛也是在做一些探索,但是技術還不是非常成熟。所以,目前平臺暫時不支援這些功能。

而平臺主要支援的功能是這麼兩類:

第一,身份的確認。因為科大訊飛是做雲出身的,所以對雲的處理非常強。現在這個應用,最早是在公司裡面作為考勤的APP,因為一個維度的確認如果不準,兩個維度其實是非常準的。

第二,以人機互動為中心。依託於語義合成,語義理解,和語音識別。目前這樣一個語音的平臺已經經過升級,現在是第二代的語音平臺的檢測方案。就是AI的能力,大家最早的平臺都是這樣的,偶然每個AI的能力是分開的,如果你需要識別,就去調識別引擎,現在我們直接認為,AI最重要的,AI最核心的並不是單個能力,而是需要多個AI能力的複合使用解決一些特定的問題。比如你就這樣語音翻譯,就是你說一句中文,翻譯成英文,讀出來,這個先調動識別引擎,再調翻譯引擎,再調合成引擎,現在這一套,會順序的把它調完實現一個功能。

在近40萬開發者使用者當中,有來自多個不同的行業,這也使得科大訊飛的資料更加全面、客觀。

科大訊飛的語音雲大資料實踐之路

在使用者資料裡可以得到很多使用者資料的維度,但是不同維度的資料價值是不一樣的,我們需要從使用者的一次性維度,可以產生這四類,但是我們需要找到價值比較高的資料,對它進行優先順序比較高的挖掘,從而得到更加有效的資訊。

使用者互動分為四類:

第一類,使用者的地理位置。在智慧互動的大部分場景裡面,使用者會把一些GPS資料拿過來請求,所以我們還可以得到一些GPS資料。

第二類,APP的行為。你需要告訴他在什麼場景,在什麼APP上呼叫這樣的服務,所以在APP內部,我們知道對APP的使用行為,APP的使用行為,它的覆蓋面非常廣,使用者只要使用這個APP,就有這樣的資料過來,它的挖掘也是比較簡單的。

第三類,使用者的關鍵詞。我們可以對文字進行挖掘,從文字里挖掘使用者感興趣的關鍵詞。

第四,機型裝置。為了做一些AI裝置適配,它在分析的時候有一個價值。

另外,我們把資料分成四大類,通過四的類分別的分析,然後合起來,得到一個使用者非常直觀的一個屬性的描述。有了這些之後,建立了訊飛使用者資料平臺,構建這個平臺有三個目的。

科大訊飛的語音雲大資料實踐之路

第一,首先是為了使用者的分析。因為有了資料,就可以分析使用者是什麼樣的。 第二,可以對使用者進行深度挖掘。給使用者打一些標籤,給使用者提供個性化的服務,提升使用者體驗。

第三,受眾挖掘。比如和開發者建立合作關係的時候,進行一些和廣告相關的業務合作以及一些其他的個性化業務。

而整個平臺使用者標籤體系的構建主要是受兩方面的影響:

一、資料。有沒有資料,有什麼樣的資料,才能構建什麼樣的標籤。

二、業務需求是什麼。

科大訊飛的語音雲大資料實踐之路

那麼問題又來了:是不是我們使用語音的資料做一個呼叫就足夠了?

答案當然不是。呂昕告訴我們,語音雲的資料就是好幾類的,當我們做這樣一個使用者標籤體系的時候,我們只用語音資料,它的覆蓋是有限的,如果把所有資料都融合到一起,對使用者標籤的補充,使得使用者標籤更加全面,這是很有意義的。

廣告資料最大的意義並不是來刻劃標籤,而是用來做一個標籤驗證。

其次,呂昕還為我們分享了兩類標籤構建的演算法:

第一類,基於文字。通過關鍵提取的技術,來了解使用者的需求,提高推薦的準確率。

第二類,基於APP的。對APP的刻劃是基於使用者使用APP的頻率,比如將使用者最近一個月之內的APP進行表徵。另外,在刻劃APP的時候,並非只是按照APP使用次數,而是對使用者的APP客戶基於使用者對每個APP的興趣,相比APP平均分配的一個東西。

科大訊飛的語音雲大資料實踐之路

IdMapping,就是做使用者各個維度的賬號的打通,基本所有做大資料的公司都在做。打通之後,不僅使用者UA的計算會更加的精準,而且當使用者換了一個裝置,換了一個新裝置的時候,打的標籤我可以用。IdMapping這個事情,其實跟標籤有關係,但是它有一個好處,給標籤插上翅膀,使標籤有更大的利用價值,並且使標籤可以在更多的領域發揮這樣的價值。

那麼我們有了標籤之後,標籤可以做什麼?

第一,可以做資料分析報告,基於標籤做使用者分析。

第二,可以做定向的受眾的Target,就是個性化推送,廣告的一些推送相關。

DMP助力廣告平臺

科大訊飛的語音雲大資料實踐之路

精準營銷的三個目的:第一,潛客挖掘。第二,提升廣告效果。第三,賣資料給需要的廠商。

目前DMP平臺的資料營銷的各個領域:行為分析、品牌分析、競品分析、受眾分析多個領域實現了全覆蓋。

以下是呂昕與觀眾的Q&A:

Q:你們對資料分析的時候給使用者加標籤,標籤是哪裡來的?是人工維護的嗎?

A:就是之前說的一個標籤體系是我們的五大類,2000多個細分的標籤分類,然後是每一類標籤都是一類一類使用,基於一個模型也好,自然語言處理方法也好,使用人工分析一個一個做出來的,因為標籤這個其實說白了,它裡面使用機器學習能解決的範圍很少,裡面有大量的髒活需要人工去做,尤其是在智慧前期的儲備上。

Q:我們怎麼去識別在語音雲平臺上,怎麼去識別使用者購買的這樣的行為資料?

A:這其實並不是一個使用者購買的行為資料,我們其實用使用者輸入的文字,如果想去購買這個東西,首先可能有一個搜尋行為,基於語音雲平臺,得到使用者對紙巾可能感興趣,可能購買的使用者,這個雖然不太準,但是這只是一個消費的解決方案。

相關文章