資料之戰:NLP邁向實用階段的核心所在

AIBigbull2050發表於2020-03-12
2020-03-11 15:03
導語:演算法是公開的,落地的差異更多來自於訓練資料是否精準!

雷鋒網AI科技評論按:隨著人工智慧技術越來越多的應用到我們的工作和日常生活中,人們對與計算機互動提出了更高的要求。人們顯然已不滿足於只是簡單的人機對話,而是暢想可以達到人與人交流那樣的酣暢淋漓,就像科幻片像人們所展現的那樣。

但是人類相互之間的交流不是文字或文字堆砌的句子所能表達的,而是一個微妙且複雜的過程。生活中,我們可以大量的使用語氣詞來加強你的語氣,表達你的愉悅、惱怒或者無聊。而要讓計算機真正理解人類日常交流用語,單單瞭解單詞的定義是遠遠不夠的,計算機還要理解人類的七情六慾,甚至潛臺詞。

NLP實際上就是在極其豐富的人類語言之中和機器語言之間搭建無障礙溝通的橋樑。在新的 AI 技術發展下,越來越需要巨大的資料以支撐不同的場景。

AI大牛沈向洋最近就職清華演講中提到:在任何時候,構建AI都離不開資料,如何設計和構建負責任的AI,資料的來源至關重要。

當下NLP的大部分應用場景都缺少足夠規模的標註資料,並且標註成本也非常高。因此準確率通常也不會很理想。

那麼如何才能以低成本、時效快的高質量資料快速上手 ASR/TTS/NLP 引擎,步入NLP實用階段呢?

針對這一問題,雷鋒網AI 科技評論有幸與澳鵬(Appen)中國區客戶服務副總裁段楊Danny Duan 進行了一場深度對話。Danny 指出 “成品資料庫不失為一個明智的選擇。”

以下為完整對話內容——
 

資料之戰:NLP邁向實用階段的核心所在 

段楊Danny Duan,澳鵬(Appen)中國區客戶服務副總裁。曾歷任文思海輝總監,助理副總裁,AI資料服務部門負責人。


1.

一個成功NLP引擎的關鍵因素是演算法和高質量的資料,演算法往往是公開的,差異化更多地來自於精準大量的訓練資料,定製的資料採集標註時間長,成本高。
 
Q:目前在人機互動的人工智慧中,聲稱幾乎每個決方案都利用了NLP,怎麼理解這句話的涵義?

Danny:人機互動有幾個步驟,首先你要讓機器聽懂你說的是什麼,比如智慧音響或者語音助手就是這樣一個很典型的情況。你對語音助手說了一句話,它能在計算機內部轉換為相對應的文字,因為計算機處理文字資訊比較容易,這就是語音識別技術。

轉成文字以後,重點就是機器要理解你想要幹什麼,才能知道該如何去應對。這就是自然語言理解或者或者叫NLP的任務。

資料之戰:NLP邁向實用階段的核心所在

比如我對著一個智慧音響說,“幫我開啟空調。”   首先,語音識別技術把我說的話轉換成文字。然後通過分析文字知道我的目的是要開啟空調,這後面一步就是自然語言理解(NLP)的任務。它理解了,知道我要做的是開啟空調,於是就操縱空調上的接收器去開啟,包括進一步設定到某一個溫度。現在基本上各種自然語言理解引擎都是把各種各樣的輸入資訊轉換成文字來進行處理、分析、切割,進行語意的提取,包括情緒的提取。可以說這是真正實現人機互動的基礎。

當然整個互動的鏈條上還有一步,就是機器可能會與你對話,這裡用到的就是語音合成(TTS)的技術,相當於機器發聲。還有一個分支是跟語音互動相關的----語音翻譯,這裡面就需要再加上一個機器翻譯的環節,把人說的話轉成文字之後再轉化成另外一種目標語言,再去進行NLP的處理和人機對話。

Q:如何來定義一個成功的NLP呢?

Danny:成功的NLP其實從終端使用者角度來講很簡單,就是能夠像真人一樣知道我要說什麼,要做什麼,能夠做出正確的動作或者給出正確的反應。所謂人工智慧,它的參照物其實就是人,這裡主要指人機互動這個限定的領域。而像AlphaGo下圍棋這種人工智慧,與我們所說的人機互動是兩個不同的方向。人機互動就是以人的行為作為標杆,Siri的語音助手或者百度音響,對話的時候,如果我不看見你,我是不是能夠感覺到你是一個機器,還是說我根本就分辨不出來你是機器還是真人。如果做到分辨不出來,那就說明這個NLP已經做到非常成功了,以假亂真了,當然現在的技術水平還相距甚遠。

Q:NLP的難點主要體現在轉換的過程,也就是從語音和影像轉換成文字這一部分?

Danny:其實真正的難點不在於轉換的過程,而在於分析的過程。因為分析文字,並不是說簡單地把一些詞或者句子的內容識別出來,因為你是要識別意圖的。而最麻煩的是,人的意圖是發散的。我說“把空調開到26度”,這是一個確定的、有限的集合,作為智慧家電也好或者智慧音響也好,相對比較容易應對。但更多的情況下,我說的話是模糊的,有多種可能的含義,而且往往是有上下文的,附加背景知識的,這本身就是一個開放的集合,這種情景下NLP引擎能夠做到準確分析正確應對就難度非常大了。

基於以上的原因,所以各個廠家在做NLP引擎或者應用的時候,他們往往都會事先圈定好一些應用場景,比如一些最常見的設鬧鐘、設日曆、客服對常見問題的回答,或者一些常見的搜尋內容,點播視訊或者找餐館這些。這樣在相對有限的一些場景裡面,它才可以對常見的意圖進行理解分析和應對。對引擎訓練範圍之外的內容,它就會說對不起,我沒聽懂你說什麼。

這也是為什麼你會發現跟語音助手對話的時候,它經常會說我沒聽懂,然後把你說的話轉成文字,給你一個相當於網上搜尋的連結,事實上這就是因為它背後的NLP引擎沒有辦法處理這一類的內容。
 
Q:它沒有辦法甄別像語氣這類吧,因為不同的語氣,從情緒上面可能意思會截然相反,實際上也就是無法解鎖情緒分析?

Danny:語氣是情感分析的一部分,這是很重要的一個方面,也可以說是一個難點。如果你試著用不同的語氣跟一個語音助手說話,比如用一個反問句,它很可能會給你一個錯誤的對答。

目前也不是說沒辦法。一方面,需要用大量的資料進行訓練來覆蓋各種各樣的場景,包括類似的內容不同的語氣,不同的上下文所代表的不同含義;另一方面,做任何事情都有不同階段,首先要把最基本的階段夯實,然後才能再逐步疊加各種複雜的維度。比如正常對話的語氣,正常語速,沒有特別明顯的環境噪音,也沒有很多人同時在說話,也都是非常普通的內容,這種最基礎的、最常規的場景先要先訓練好,才能逐步追求更高複雜度的。
 
Q:目前NLP基本上還是處在一個比較常規和基礎的上面,遠沒達到對複雜維度的處理層面?

Danny:可以這樣說,就是在常規的程度上,覺得可以用,但離實際應用場景中的“好用”相對還比較遠。但是各廠家的做法不一樣。對百度、微軟、Google和Apple這種頭部大廠商來說,他們更多著眼於通用場景,而其他一些廠商則主要聚焦某些特定場景,比如在開車的時候人機互動的場景;在醫院裡跟醫生、病人對話的場景;或者客服的場景,通過縮減它的使用範圍,在有限的投入之內用有限的資料,這樣比較容易訓練出一個可用的NLP引擎。

因為自然語言處理不僅僅是機械的去識別聲波,它實際上是非常模糊的去識別、去判斷人跟你交流的意圖,這個複雜度確實非常高,一旦出錯,很可能理解成相反的東西,甚至造成災難性的後果。
 
Q:演算法對NLP是第一位的嗎?

Danny:做任何人工智慧的技術或者產品的研發,其實都需要三樣東西,演算法、算力和資料。算力本身就是一個支援性的東西。對於NLP而言,演算法的理論突破是隔一段時間才會出現,而且現在行業內演算法的研究普遍是開源性質的,各家的區別不大。所以真正核心的是資料。

資料之戰:NLP邁向實用階段的核心所在

而資料本身是千變萬化的。比如把NLP和語音識別相對比,關於中文的語音識別,中國字的量,包括各種各樣的口音,這些都是有限的。但是說話的內容和所表達的意圖卻是無限的,而且會有層出不窮的新內容出現。比如像新冠肺炎這種,如果引擎到今年不更新,它可能就識別不了。因此這些AI公司,就需要大量的資料去訓練,並且持續訓練他們的模型。


2.

資料庫的優點很明顯:第一,成本低;第二,時效快。成品資料庫可極大提升以機器學習作為核心技術的創業公司的競爭力。

Q:現在一些廠家如澳鵬都提供一些成品資料庫,怎麼看待資料庫對NLP引擎的作用?

Danny:資料有不同的來源,你可以花錢去採集,比如花錢請一個人錄一小時的音,也可以找一些公開的資料,比如演講視訊或者是有聲讀物,網站上的文字圖片等等。還有像語音助手、智慧音響、語音輸入法這些APP,如果經過使用者的授權,在你用這些APP時就已經把真實的使用者資料提供給開發APP的廠商了。

但這些都各有優缺點,使用者資料是免費的但不可控。如果你需要一些特定的資料,你就有可能找不到你需要的資料。當然你也可以花錢去定向採集,但錢花多了能否承受,如果去找公開的資料,能找到多少是多少,又不具有系統性和針對性。

資料庫有什麼存在的價值呢?第一,它是現成的,拿來就能用,而如果採集一個一千人說話的資料再進行標註,你可能需要兩個月到三個月,在當今的網際網路時代,一個產品週期都過去了。第二,資料庫成本低,因為這不是為某一個人的特定需求去定向採集的,做好了可以反覆的賣,每次賣的時候,價格就可放低,在資金有限的情況下是非常重要的因素。

但是它不好的地方呢?它已經是現成的,所以不能改,它不是針對你的某一個具體的應用而特意優化的,所以資料庫是有很確定的使用場景,比如開發一個自然語言理解的引擎,或者語音識別的引擎,在早期階段用資料庫是一個非常好的方式,但是到後期針對你的應用場景再除錯的時候就需要去補充其他定製的資料。

所以一直以來很多做人工智慧的企業,都非常願意去買資料庫。他們開發一個早期的引擎,就是希望以低成本和很短的時間快速上手進入市場。這對當下中國市場來說尤為重要,因為中國市場的迭代速度比歐美要快的多,可以說時間就是生命。

所以說在國內,像澳鵬這種成品資料庫,拿來就能用的,確實非常受歡迎。


3.

成品資料庫不僅對初創公司尤為重要,像Google、Facebook等這樣的巨頭對其需求也始終很旺盛。
 
Q:資料庫對一些創業型公司非常適用,但對Google等這樣的頭部廠商呢?

Danny:事實上,這些大企業他們的需求可能還會更多。一方面他們會把同樣的引擎推向不同的應用場景,另一方面會推向不同國家的市場, 這樣就會不斷地重複從基礎到定向開發的迴圈。

資料之戰:NLP邁向實用階段的核心所在


比如去年的一個美國英語雙人對話的資料庫,中國的客戶和美國的客戶都有大量需求,絕大部分還都是很有名的大公司,為什麼呢?因為他們進入到了一個新的階段,比如單人說話的識別引擎差不多了,要擴充到能夠識別兩個人對話,多人對話,甚至多人開會,一個人說話這樣的語音素材顯然不夠了,而是需要雙人對話的語音素材,那麼就相當於從一個較低的起點再開始,這正是資料庫最適用的地方。

而另一個非常明顯的趨勢是目前中國這些領先的企業在擴充海外市場時,對中文以外的海外語言和外國人影像的資料庫的需求也越來越旺盛。
 
Q:成品資料庫裡面都是一些標註好的資料嗎,還是已經訓練好的資料?

Danny:資料又可以分為訓練資料和測試資料,資料庫都屬於訓練資料。比如一個西班牙語500小時的語音識別資料庫,它最主體的內容就是500小時的可能是500個人或者800個人每個人說很多句話的錄音音訊。但是光有這些錄音往往還是不夠的,還要對這些資料進行一些加工,比如說要做轉寫,提供相對應的文字文字,要讓計算機知道每一條音訊檔案裡面的波形圖對應的是什麼文字內容,這樣才能進行引擎訓練。

做語音識別引擎的訓練,比如一條音訊10秒鐘長,不僅要識別出來說的話,凡是這一段音訊裡面出現的聲音都要能夠辨別,比如開門的聲音,打噴嚏的聲音,小孩在哭的聲音,放音樂的聲音,或者旁邊有汽車經過的聲音,都要能夠識別出來這是有用的聲音內容還是無用的干擾聲,所以語音轉寫它還包括區分各種各樣型別的聲音。

還有一些相對比較複雜的處理,比如它還會包括時間戳,尤其是在雙人或者多人對話的情況下,每個人說話的起始位置和結束位置,包括說話人的區分。很多時候還會要附帶相應的發音詞典。整個語音資料庫,比如這500小時的音訊裡面可能出現了3700個不同的單詞,每一個單詞它按照語言學領域標準的音標表,都要把出現過的發音給標出來。

資料之戰:NLP邁向實用階段的核心所在

一般這樣就算是一個相對完整的語音資料庫,把這樣一套基本素材提供給客戶,讓他將這個資料集灌到模型裡面去訓練,參照對應的文字,時間戳,發音詞典,就可以做出有一定識別能力的一個引擎。而發音詞典又可以獨立出來,因為單詞的發音是比較固定的。所以澳鵬又有很多專門的發音詞典庫,近百種語言,每個語言少則幾千條詞條,多則幾十萬條詞條。

Q:目前國內這些NLP在海外覆蓋的多,還是中文的多?

Danny:當然國內肯定都是立足於中文普通話和方言市場,但是國內市場現在已經競爭白日化了,國外這些行業裡的巨頭也在試圖分一杯羹,因此國內的頭部企業也要尋求增長點,越來越多的是把目光投向海外市場上。比如像阿里、華為、OV、小米、科大訊飛,位元組跳動這些公司這兩年海外擴充力度都很大。

可以說,大家眼光一邊盯著海外市場佈局,一邊繼續在國內市場深耕以堅守自己的大本營。

4.

成本低、時效快的成品資料庫對ASR/TTS/NLP引擎開發事半功倍。
 
Q:ASR/TTS 在難度上有差別麼?為什麼說更適合用資料庫?

Danny:其實它們是不同的應用型別,ASR就是一個語音識別。通俗說,就是把人說的內容轉換成對應的文字。比如微信語音可以直接轉換成文字,這就是一個直觀的ASR應用。TTS(Text  to   Speech),就是文字到語音,在業界的一個說法就是合成語音,也就是讓機器說話。TTS實際上它是反過來的,先給機器提供文字,機器對照著這個文字,相當於念稿子一樣的,機器能夠發出對應的音來,當然TTS合成語音的做法又跟語音識別的做法不太一樣,不僅訓練方式不一樣,而且它所需要的資料也不一樣。

相對而言,TTS的技術是比較容易的,而且也是目前最成熟的。如果從頭去採集做TTS引擎的資料,即使只是10個小時的音訊資料,再加上韻律標註和發音詞典的製作,兩三個月都不一定做得完,成本會相當高,這還只是資料準備的階段。如果是採購成品資料庫,拿到資料以後兩個星期就可以完成所有資料準備和引擎開發的過程,做出一個可用的TTS引擎來,這就是資料庫的好處。

再比如一個500小時的西班牙語的ASR語言資料集,如果全部從頭做,跟買資料庫相比成本上至少要差到一倍以上,時間上來講連音訊的採集帶加工,附加對應文字的轉寫和發音詞典,最少需要兩至三個月。但如果是購買資料庫,今天籤合同,明天就可以傳過去了。
 
Q:後續是否需要提供更適合需求為具體場景而定製的資料來替代成品資料庫?

Danny:不完全是這樣,市場上一直既有成品資料庫的大量需求,也有大量需求需要定製,二者並不矛盾。任何場景都需要從基礎起步,而這個階段就是成品資料庫最能發揮優勢的階段。以前人工智慧技術開發所關注的場景比較少,對資料庫需求的種類也少,隨著場景的多元化,資料庫的需求也隨之增大,只是對資料內容和精度的要求持續在變化。我們的判斷就是某一類需求僅僅是一個一次性的需求,還是說可能會有一些普遍的需求,對於可能會產生重複需求的,我們就可以把它製作成一個資料庫。比如嬰幼兒啼哭的資料,很可能做智慧家居的廠家在產品研發的某一個階段就會用到,我們認為就值得去做成一個資料庫。

Q:最後,澳鵬目前也在做成品資料庫,你能介紹一下你們產品的特色?

Danny: 我們根據市場上頭部公司和創業公司的需求趨勢,及20多年行業經驗的累積,可以為我們的客戶提供豐富的成品資料庫來加快其AI產品的開發及迭代 。

資料之戰:NLP邁向實用階段的核心所在

 
* 語音識別庫(ASR)64種語言, 21,000小時
* 合成語音庫(TTS)3種語言4種音色
* 發音詞典98種語言,460萬詞條
* 詞性詞典21種語言,190萬詞條
* 命名實體庫(NER)8種語言
* 詞形分析器3種語言
* 黑人面部圖片1000人13萬張
* 中國人帶口罩面部圖片1000人7000張
* OCR圖片泰語、芬蘭語、中文各5000張
* 嬰兒啼哭音訊資料300人300分鐘
* 家貓表情動作視訊1000只

除了這裡列出的資料庫以外,我們還在持續製作新的資料庫來滿足市場需求,也非常歡迎戰鬥在AI技術一線的同行們向我們提出資料庫的期望。


https://www.leiphone.com/news/202003/BP1q8ZdNHVAInCGw.html


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2679754/,如需轉載,請註明出處,否則將追究法律責任。

相關文章